Internet está cada vez más inundado de texto escrito por software de IA. Necesitamos nuevas herramientas para detectarlo, pero la rapidez del sector afecta a la obsolescencia de las formas de detectarlo. Es una carrera que estamos perdiendo
Esta frase fue escrita por una inteligencia artificial (IA), ¿o no? El nuevo chatbot de OpenAI, ChatGPT, nos presenta un problema: ¿cómo sabremos si lo que leemos online está escrito por una persona o por una máquina?
Desde su lanzamiento a finales de noviembre, ChatGPT ha sido utilizado por más de un millón de personas. Ha fascinado a la comunidad de IA, y está claro que internet se está inundando cada vez más con texto generado por esta inteligencia. La gente lo usa para inventar chistes, escribir cuentos infantiles y redactar mejor los correos electrónicos.
ChatGPT es el derivado del gran modelo de lenguaje GPT-3 de OpenAI, que genera respuestas a las preguntas que le hacen, y suenan parecidas a las humanas. La magia —y el peligro— de estos grandes modelos de lenguaje radican en la ilusión de exactitud. Las frases que producen estos modelos parecen correctas: utilizan el tipo adecuado de palabras en el orden apropiado. Pero la IA no sabe qué significa nada de lo escrito. Estos modelos predicen la siguiente palabra más probable en una frase. No saben si es correcto o falso y presentan la información como verdadera, incluso cuando no lo es.
En un mundo online polarizado y políticamente tenso, estas herramientas de inteligencia artificial podrían distorsionar aún más la información que consumimos. Si se implementan en el mundo real y en productos reales, las consecuencias podrían ser devastadoras.
Irene Solaiman, directora de políticas de la start-up de IA Hugging Face, también investigó sobre la IA en OpenAI y estudió la detección de respuestas de IA desde el lanzamiento del predecesor de GPT-3, GPT-2. Solaiman afirma que necesitamos formas de diferenciar entre texto escrito por personas y por IA con el fin de contrarrestar los posibles usos indebidos de esta tecnología.
Las nuevas herramientas también serán cruciales para introducir prohibiciones de texto y código generados por IA, como la recién anunciada por la web Stack Overflow, donde los programadores pueden pedir ayuda. ChatGPT puede dar respuestas a problemas de software con gran precisión, pero no es infalible. Tener un código incorrecto puede conducir a un software defectuoso e inservible, lo cual es costoso y caótico de solucionar.
El portavoz de Stack Overflow asegura que los moderadores de la empresa están "examinando miles de informes de los miembros de la comunidad enviados a través de una serie de herramientas que incluyen modelos heurísticos y de detección", pero no querían dar más detalles.
En realidad, es algo increíblemente difícil y es probable que la prohibición sea imposible de introducir.
Kit actual de herramientas de detección
Los investigadores han intentado detectar de varias formas el texto generado por IA. Un método común es emplear software para analizar diferentes características del texto, por ejemplo, su fluidez, la frecuencia de ciertas palabras, si hay patrones en la puntuación o la longitud de las frases.
"Si hay bastante texto, una señal realmente fácil es que la palabra 'the' aparece demasiadas veces", indica Daphne Ippolito, científica e investigadora sénior de la unidad de investigación de aprendizaje profundo de Google Brain.
Como los grandes modelos de lenguaje funcionan al predecir la siguiente palabra en una frase, es más probable que usen palabras comunes como 'the', 'it' o 'is' en lugar de palabras extrañas o menos frecuentes. Ippolito y un equipo de investigadores de Google encontraron en una investigación publicada en 2019 que este es el tipo de texto que los sistemas de detección automatizados saben descubrir.
Aunque el estudio de Ippolito también mostró algo interesante: los humanos tendían a pensar que este tipo de texto limpio era mejor y contenía menos errores, por lo tanto, debía haberlo escrito una persona.
En realidad, el texto escrito por humanos está plagado de erratas y es muy variable, ya que se incorporan diferentes estilos y jergas, mientras que "los modelos de lenguaje muy rara vez cometen erratas. Son mejores para generar textos perfectos. Una errata en el texto es un buen indicador de que fue escrito por una persona", destaca Ippolito.
Los grandes modelos de lenguaje también pueden utilizarse para detectar texto generado por IA. Una de las formas más exitosas de lograrlo es volver a entrenar el modelo en algunos textos escritos por personas y otros creados por máquinas para que aprenda a diferenciar entre ambos, resalta Muhammad Abdul-Mageed, coordinador de investigación de Canadá sobre el procesamiento de lenguaje natural y aprendizaje automático de la Universidad de British Columbia (Canadá), quien ha estudiado este tipo de detección.
Mientras Scott Aaronson -científico informático de la Universidad de Texas (EE UU) e investigador en OpenAI durante un año-, ha desarrollado marcas de agua para los textos más largos generados por modelos como GPT-3, "una señal discreta que de otro modo sería imperceptible en sus opciones de palabras, y se puede usar para probar más tarde que algo vino de GPT", escribe Aaronson en su blog.
El portavoz de OpenAI confirmó que la empresa ya trabaja en las marcas de agua, y resaltó que sus normas establecían que los usuarios deben indicar el texto generado por la IA "de manera que nadie pueda malinterpretarlo".
Estas correcciones técnicas vienen con grandes excepciones. La mayoría no tienen ninguna posibilidad frente a la última generación de modelos de lenguaje IA, basados en GPT-2 o modelos anteriores. Muchas herramientas de detección funcionan mejor cuando hay suficiente texto disponible; serán menos eficientes en casos de uso concretos, como chatbots o asistentes de correo electrónico, basados en conversaciones más cortas con menos datos para analizar. El uso de grandes modelos de lenguaje para la detección también requiere ordenadores potentes y acceso al modelo de IA, que las empresas de tecnología no permiten, según Abdul-Mageed.
Cuanto más grande y poderoso es el modelo, más difícil es construir modelos de IA que detecten qué texto está escrito por una persona y cuál no, explica Solaiman.
"Lo preocupante en la actualidad es que ChatGPT tiene resultados impresionantes. Los modelos de detección no pueden seguir el ritmo. Hay que ponerse al día continuamente", añade Solaiman.
Entrenando el ojo humano
No existe solución mágica para detectar el texto escrito por IA. "Un modelo de detección no será la respuesta para detectar el texto sintético de la misma manera que un filtro de seguridad no lo será para mitigar los sesgos", resalta Solaiman.
Para resolver este problema, necesitaremos mejores métodos técnicos y más transparencia sobre cuándo las personas interactúan con una IA, y los usuarios deberán aprender a detectar los signos de escritura de una IA.
"Sería bueno tener un complemento para Chrome, o cualquier navegador web, que nos permita saber si algún texto web está generado por una máquina", señala Ippolito.
Ya hay ayuda disponible. Un grupo de investigadores de Harvard (EE UU) e IBM desarrollaron una herramienta denominada Giant Language Model Test Room (GLTR), que ayuda a las personas resaltando fragmentos que podrían haberse generado por un programa de ordenador.
Sin embargo, la IA ya nos está engañando. Los investigadores de la Universidad de Cornell (EE UU) descubrieron que las personas encontraron creíbles los artículos de noticias falsas generados por GPT-2 en un 66% de ocasiones.
Otro estudio descubrió que las personas no capacitadas podían detectar correctamente el texto generado por GPT-3 solo en un nivel consistente con el azar.
La buena noticia es que se puede enseñar a las personas para que detecten mejor el texto generado por IA, según Ippolito, quien creó un videojuego para probar cuántas frases podía generar un ordenador antes de que un jugador se dé cuenta de que no es humano. Y descubrió que las personas mejoraban gradualmente con el tiempo.
"Si miramos muchos textos generativos y tratamos de descubrir qué es lo que no tiene sentido, podemos mejorar en esta tarea", asegura la investigadora. Una forma es captar declaraciones inverosímiles, como que la IA afirma que se tarda 60 minutos en preparar un café.
GPT-3, el predecesor de ChatGPT, existe desde 2020. OpenAI subraya que ChatGPT es una demostración, pero solo es cuestión de tiempo antes de que se desarrollen modelos potentes y se implementen en productos como chatbots para su uso en atención al cliente o asistencia sanitaria. Ese es el quid de la cuestión: la velocidad de desarrollo en este sector significa que todas las formas de detectar el texto generado por IA se vuelven obsoletas rápidamente. Es una carrera armamentista, y actualmente estamos perdiendo.