STEPHANIE ARNETT/MITTR | GETTY

Inteligencia Artificial

Así de fácil es engañar a las herramientas de detección de textos generados por IA

Una cosecha reciente de sistemas de IA que afirman detectar texto generado por IA funciona mal, y no se necesita mucho para superarlos.

por Rhiannon Williams | traducido por
12 Julio, 2023

Pocas semanas después del lanzamiento de ChatGPT, se popularizó el miedo a que los estudiantes utilizaran el chatbot para redactar redacciones aprobables en cuestión de segundos. En respuesta a esos temores, algunas startups empezaron a crear productos que prometían detectar si el texto había sido escrito por un humano o por una máquina.

El problema es que es relativamente sencillo engañar a estas herramientas y evitar su detección, según una nueva investigación que aún no ha sido revisada por pares.

Debora Weber-Wulff, profesora de Medios de Comunicación e Informática en la Universidad de Ciencias Aplicadas HTW de Berlín, trabajó con un grupo de investigadores de diversas universidades para evaluar la capacidad para detectar texto escrito por ChatGPT de OpenAI de 14 herramientas, entre ellas Turnitin, GPT Zero y Compilatio.

La mayoría de estas herramientas buscan rasgos distintivos del texto generado por IA, como la repetición, y calculan la probabilidad de que el texto haya sido generado por IA. Sin embargo, el equipo descubrió que todas las herramientas probadas tenían problemas para detectar el texto generado por ChatGPT que había sido ligeramente modificado por humanos y trastocado por una herramienta de parafraseo, lo que sugiere que lo único que tienen que hacer los estudiantes es adaptar ligeramente las redacciones generadas por IA para burlar los detectores.

"Estas herramientas no funcionan", afirma Weber-Wulff. "No hacen lo que dicen que hacen. No son detectores de IA".

Los investigadores evaluaron las herramientas escribiendo redacciones cortas de nivel universitario sobre diversos temas, como ingeniería civil, informática, economía, historia, lingüística y literatura. Ellos mismos escribieron los ensayos para asegurarse de que el texto no estuviera ya en internet, algo que significaría que podría haberse utilizado ya para entrenar ChatGPT.

A continuación, cada investigador escribió un texto adicional en alemán, bosnio, checo, eslovaco, español, letón o sueco. Esos textos se pasaron por la herramienta de traducción automática DeepL o por Google Translate para traducirlos al inglés.

A continuación, el equipo utilizó ChatGPT para generar dos textos adicionales cada uno, que retocaron ligeramente en un esfuerzo por ocultar que habían sido generados por IA. Un conjunto fue editado manualmente por los investigadores, que reordenaron frases e intercambiaron palabras, mientras que otro fue reescrito utilizando una herramienta de parafraseo de IA llamada Quillbot. Al final, tenían 54 documentos para probar las herramientas de detección.

Descubrieron que, si bien las herramientas identificaban bien el texto escrito por un humano (con una precisión media del 96%), no lo hacían tan bien a la hora de detectar el texto generado por la IA, especialmente cuando había sido modificado. Aunque las herramientas identificaron el texto de ChatGPT con una precisión del 74%, esta bajaba al 42% cuando el texto generado por ChatGPT había sido modificado ligeramente.

Este tipo de estudios también ponen de manifiesto lo anticuados que están los métodos actuales de las universidades para evaluar el trabajo de los estudiantes, afirma Vitomir Kovanović, profesor titular que construye modelos de aprendizaje automático e IA en la Universidad de Australia Meridional, que no participó en el proyecto.

Daphne Ippolito, investigadora científica senior de Google especializada en generación de lenguaje natural, que tampoco trabajó en el proyecto, plantea otra preocupación.

"Si se van a emplear sistemas de detección automática en entornos educativos, es crucial conocer sus tasas de falsos positivos, ya que acusar incorrectamente a un estudiante de hacer trampas puede tener consecuencias nefastas para su carrera académica", afirma. "La tasa de falsos negativos también es importante, porque si demasiados textos generados por IA pasan por escritos por humanos, el sistema de detección no es útil".

Compilatio, que fabrica una de las herramientas probadas por los investigadores, dice que es importante recordar que su sistema sólo indica pasajes sospechosos, que clasifica como plagio potencial o contenido potencialmente generado por IA.

"Corresponde a los centros escolares y a los profesores que califican los documentos analizados validar o rechazar los conocimientos realmente adquiridos por el autor del documento, por ejemplo, desarrollando formas adicionales de investigación (interrogatorio oral, preguntas adicionales en un entorno controlado en el aula, etc)", declaró un portavoz de Compilatio.

"De este modo, las herramientas de Compilatio forman parte de un auténtico enfoque pedagógico que fomenta el aprendizaje de buenas prácticas de investigación, redacción y citación. El software Compilatio es una ayuda para la corrección, no un corrector", añadió el portavoz. Turnitin y GPT Zero no respondieron rápidamente a una solicitud de comentarios.

"Nuestro modelo de detección se basa en las notables diferencias entre la naturaleza más idiosincrásica e impredecible de la escritura humana y las firmas estadísticas muy predecibles del texto generado por IA", afirma Annie Chechitelli, jefa de Producto de Turnitin.

"Sin embargo, nuestra función de detección de escritura AI simplemente alerta al usuario de la presencia de escritura AI, destacando las áreas en las que puede ser necesaria una mayor discusión. No determina el uso apropiado o inapropiado de las herramientas de escritura AI, o si ese uso constituye trampa o mala conducta basada en la evaluación y la instrucción proporcionada por el profesor."

Hace tiempo que sabemos que las herramientas destinadas a detectar texto escrito con IA no siempre funcionan como deberían. A principios de este año, OpenAI presentó una herramienta diseñada para detectar texto producido por ChatGPT, admitiendo que sólo marcaba el 26% del texto escrito con IA como "probablemente escrito con IA". OpenAI señaló a MIT Technology Review una sección en su sitio web para consideraciones de los educadores, en la que se advierte de que las herramientas diseñadas para detectar contenido generado por IA están "lejos de ser infalibles."

Sin embargo, estos fracasos no han impedido que las empresas se apresuren a sacar productos que prometen hacer este trabajo, afirma Tom Goldstein, profesor adjunto de la Universidad de Maryland, que no participó en la investigación.

"Muchos de ellos no son muy precisos, pero tampoco son todos un completo desastre", añade, señalando que Turnitin consiguió alcanzar cierta precisión en la detección con una tasa de falsos positivos bastante baja. Aunque los estudios que arrojan luz sobre las deficiencias de los llamados sistemas de detección de texto por IA son muy importantes, habría sido útil ampliar el ámbito del estudio a las herramientas de IA más allá de ChatGPT, afirma Sasha Luccioni, investigador de la startup de IA Hugging Face.

Para Kovanović, la idea de detectar textos escritos por inteligencia artificial es errónea. "No intente detectar la IA: haga que el uso de la IA no sea el problema", afirma.

Actualización: esta noticia se ha actualizado para incluir los comentarios de Turnitin recibidos tras su publicación.

Inteligencia Artificial

Así de fácil es engañar a las herramientas de detección de textos generados por IA

El hambre de energía de la IA alimenta el resurgir nuclear

La carrera por la IA entre EE UU y China pone en peligro la paz mundial

DeepSeek, la alternativa china de ChatGPT que desafía a Silicon Valley