Inteligencia Artificial
“Trampas de copyright”, la estrategia de los escritores para detectar plagios por la IA
Esta técnica se ha utilizado a lo largo de la historia, pero ahora podría ser una herramienta en una de las mayores luchas que afronta la inteligencia artificial
Desde el comienzo del auge de la IA generativa, los creadores de contenidos han argumentado que su trabajo se ha incorporado a modelos de IA sin su consentimiento. Pero hasta ahora era difícil saber si un texto concreto se había utilizado realmente en un conjunto de datos de entrenamiento.
Ahora tienen una nueva forma de demostrarlo: "trampas de copyright" desarrolladas por un equipo del Imperial College de Londres, trozos de texto oculto que permiten a escritores y editores marcar sutilmente su obra para detectar después si se ha utilizado o no en modelos de IA. La idea es similar a las trampas que han utilizado los titulares de derechos de autor a lo largo de la historia: estrategias como incluir ubicaciones falsas en un mapa o palabras falsas en un diccionario.
Estas trampas de derechos de autor de la IA buscan aprovechar una de las mayores luchas que afronta la IA. Varios editores y escritores están litigando contra empresas tecnológicas, alegando que su propiedad intelectual ha sido incorporada a conjuntos de datos de entrenamiento de IA sin su permiso. El caso del New York Times contra OpenAI es probablemente el más sonado.
El código para generar y detectar trampas está disponible actualmente en GitHub, pero el equipo también tiene la intención de construir una herramienta que permita a las personas generar e insertar trampas de derechos de autor por sí mismas.
"Hay una falta total de transparencia en cuanto a los contenidos que se utilizan para entrenar los modelos, y creemos que esto impide encontrar el equilibrio adecuado [entre las empresas de IA y los creadores de contenidos]", afirma Yves-Alexandre de Montjoye, profesor asociado de Matemáticas Aplicadas e Informática del Imperial College de Londres, que dirigió la investigación. El estudio se presentó en la Conferencia Internacional sobre Aprendizaje Automático, una de las principales conferencias sobre IA que se celebra esta semana en Viena.
Para crear las trampas, el equipo utilizó un generador de palabras para crear miles de frases sintéticas. Estas frases, largas y llenas de galimatías, podrían tener un aspecto similar al siguiente: "Cuando en tiempos de agitación ... lo que está en venta y lo más importante cuando, es mejor, esta lista le dice a su que está abriendo en Thrs. por la noche con sus horarios de venta regulares y otros horarios de apertura de sus vecinos. Aún así".
El equipo generó 100 frases trampa y luego eligió una al azar para inyectarla en un texto muchas veces, explica de Montjoye. La trampa podía inyectarse en el texto de múltiples formas: como texto blanco sobre fondo blanco o incrustada en el código fuente del artículo. La frase tenía que repetirse en el texto entre 100 y 1.000 veces.
Para detectar las trampas, alimentaron un gran modelo lingüístico con las 100 frases sintéticas que habían generado y comprobaron si las marcaba como nuevas o no. Si el modelo había visto una frase trampa en sus datos de entrenamiento, indicaba una puntuación de "sorpresa" (también conocida como "perplejidad") más baja. Pero si el modelo se mostraba "sorprendido" por las frases, significaba que las encontraba por primera vez y, por tanto, no eran trampas.
En el pasado, los investigadores sugirieron aprovechar el hecho de que los modelos lingüísticos memorizan sus datos de entrenamiento para determinar si algo ha aparecido en esos datos. La técnica, denominada "ataque de inferencia de pertenencia", funciona eficazmente en la última generación de grandes modelos lingüísticos (LLM, por sus siglas en inglés), que tienden a memorizar muchos de sus datos durante el entrenamiento.
En cambio, los modelos más pequeños, que están ganando popularidad y pueden ejecutarse en dispositivos móviles, memorizan menos y, por tanto, son menos susceptibles a los ataques de inferencia de pertenencia, lo que hace más difícil determinar si se entrenaron o no con un documento protegido por derechos de autor concreto, afirma Gautam Kamath, profesor adjunto de informática de la Universidad de Waterloo, que no participó en la investigación.
Las trampas de derechos de autor son una forma de realizar ataques de inferencia de pertenencia incluso en modelos más pequeños. El equipo inyectó sus trampas en el conjunto de datos de entrenamiento de CroissantLLM, un nuevo modelo lingüístico bilingüe francés-inglés que fue entrenado desde cero por un equipo de investigadores de la industria y del mundo académico con el que colaboró el equipo del Imperial College de Londres. CroissantLLM tiene 1.300 millones de parámetros, una fracción menos que los modelos más avanzados (GPT-4 tiene 1,76 billones, por ejemplo).
Según Kamath, la investigación demuestra que es posible introducir esas trampas en los datos de texto para aumentar significativamente la eficacia de los ataques de inferencia de pertenencia, incluso para los modelos más pequeños. Pero aún queda mucho por hacer, añade.
Repetir una frase de 75 palabras 1.000 veces en un documento supone un gran cambio en el texto original, lo que podría permitir a las personas que entrenan modelos de IA detectar la trampa y saltarse el contenido que la contiene, o simplemente borrarla y entrenar con el resto del texto, afirma Kamath. También dificulta la lectura del texto original.
Esto hace que las trampas de derechos de autor sean poco prácticas en estos momentos, afirma Sameer Singh, profesor de informática de la Universidad de California en Irvine y cofundador de la startup Spiffy AI. No participó en la investigación. "Muchas empresas hacen deduplicación, es decir, limpian los datos, y probablemente se desechen un montón de este tipo de cosas", afirma Singh.
Una forma de mejorar las trampas de derechos de autor, dice Kamath, sería encontrar otras formas de marcar los contenidos protegidos por derechos de autor para que los ataques de inferencia de pertenencia funcionen mejor en ellos, o mejorar los propios ataques de inferencia de pertenencia.
De Montjoye reconoce que las trampas no son infalibles. Un atacante motivado que conozca una trampa puede eliminarla, afirma.
"Si puede eliminarlas todas o no es una cuestión abierta, y es probable que sea un juego del gato y el ratón", afirma. Pero incluso entonces, cuantas más trampas se apliquen, más difícil será eliminarlas todas sin importantes recursos de ingeniería.
"Es importante tener en cuenta que las trampas de derechos de autor pueden ser sólo una solución provisional, o simplemente un inconveniente para los entrenadores de modelos", dice Kamath. "No se puede publicar un contenido que contenga una trampa y tener la seguridad de que será una trampa eficaz para siempre".