A medida que proliferen las páginas web basura escritas por la IA, los modelos que se basan en esos datos sufrirán las consecuencias
Los modelos de IA funcionan entrenándose con grandes cantidades de datos de Internet. Pero como la IA se utiliza cada vez más para producir páginas web llenas de contenido basura, ese proceso corre el riesgo de verse afectado.
Una nueva investigación publicada en Nature muestra que la calidad de los resultados del modelo se degrada gradualmente cuando la IA se entrena con datos generados por ella. A medida que los modelos posteriores producen resultados que se utilizan como datos de entrenamiento para modelos futuros, el efecto empeora.
Ilia Shumailov, informático de la Universidad de Oxford que dirigió el estudio, compara el proceso con hacer fotos de fotos. "Si haces una foto, la escaneas, la imprimes y repites el proceso a lo largo del tiempo, el ruido se acaba apoderando del proceso", explica, y añade: "Te queda un cuadrado oscuro". El equivalente del cuadrado oscuro para la IA se llama "colapso del modelo", lo que significa que el modelo sólo produce basura incoherente.
Esta investigación puede tener graves implicaciones para los grandes modelos de IA actuales, porque utilizan Internet como base de datos. GPT-3, por ejemplo, se entrenó en parte con datos de Common Crawl, un repositorio en línea de más de 3.000 millones de páginas web. Y es probable que el problema empeore a medida que un número cada vez mayor de sitios web basura generados por IA saturen Internet.
Según Shumailov, los modelos actuales de IA no se van a colapsar sin más, pero puede que se produzcan efectos sustanciales: las mejoras se ralentizarán y el rendimiento podría verse afectado.
Para determinar el posible efecto en el rendimiento, Shumailov y sus colegas ajustaron un gran modelo de lenguaje (LLM, por sus siglas en inglés) a un conjunto de datos de Wikipedia y, a continuación, nutrieron el nuevo modelo con sus propios resultados a lo largo de nueve ciclos. El equipo midió la falta de sentido de los resultados mediante una "puntuación de perplejidad". Este calcula la confianza de un modelo de IA a partir de su capacidad para predecir la siguiente parte de una secuencia.
Los modelos entrenados con los resultados de otros modelos tenían puntuaciones de perplejidad más altas. En este ejemplo, en cada ciclo, el equipo pidió al modelo que escribiera una frase que continuara la siguiente entrada:
"Según Poyntz Wright, algunas obras iniciadas antes de 1360 solían estar a cargo de un maestro albañil y un pequeño equipo de albañiles itinerantes, complementados por trabajadores parroquiales locales. Pero otros autores rechazan este modelo, sugiriendo en su lugar que los principales arquitectos diseñaron las torres de las iglesias parroquiales basándose en los primeros ejemplos del estilo gótico perpendicular inglés."
En la novena y última generación, el modelo devolvía lo siguiente:
"Arquitectura. Además de ser el hogar de algunas de las mayores poblaciones del mundo de conejos de cola @-@ negros, conejos de cola @-@ blancos, conejos de cola @-@ azules, conejos de cola @-@ rojos, conejos de cola @-@ amarillos".
Shumailov explica lo que cree que está pasando con esta analogía: imagina que estás tratando de averiguar cuál es el nombre menos probable entre los estudiantes de una escuela. Podrías repasar todos los nombres, pero tardarías demasiado. En su lugar, examinas 100 de los 1.000 nombres de alumnos y obtienes una estimación bastante buena, pero probablemente no sea la respuesta correcta. Ahora imagina que viene otra persona y hace una estimación basada en tus 100 nombres, pero sólo selecciona 50. La estimación de esta segunda persona será aún más errónea.
"Sin duda, uno puede figurarse que lo mismo ocurre con los modelos de aprendizaje automático", explica. "Si el primer modelo ha visto la mitad de Internet, quizá el segundo no pida la mitad de Internet, sino que extraiga los últimos 100.000 tweets y adapte el modelo a ellos".
Además, Internet no contiene una cantidad ilimitada de datos. Para alimentar su apetito de más, los futuros modelos de IA pueden necesitar entrenarse con datos sintéticos, es decir, datos que hayan sido producidos por la IA.
"Los modelos realmente dependen de la escala de los datos para rendir bien", afirma Shayne Longpre, que estudia cómo se entrenan los modelos de IA en el MIT Media Lab, y que no participó en esta investigación. "Y la solución son los datos sintéticos en entornos curados y controlados. Porque si siguen rastreando más datos en la web, los rendimientos van a ser decrecientes".
Matthias Gerstgrasser, investigador de IA en Stanford y autor de otro artículo sobre el colapso de modelos, afirma que añadir datos sintéticos a los del mundo real no es un problema en sí. Pero añade: "Una conclusión en la que coincide toda la literatura científica sobre el colapso de modelos es que es importante tener datos de entrenamiento de alta calidad y diversos".
Otro efecto de esta degradación es que la información que afecta a grupos minoritarios queda muy distorsionada en el modelo, ya que este tiende a centrarse en exceso en las muestras que son más frecuentes en los datos de entrenamiento.
En los modelos actuales, esto puede afectar a las lenguas infrarrepresentadas, ya que requieren más conjuntos de datos sintéticos (generados por la IA), afirma Robert Mahari, que estudia derecho computacional en el MIT Media Lab y no participó en la investigación.
Una idea que podría ayudar a evitar la degradación es asegurarse de que el modelo da más peso a los datos originales generados por humanos. Otra parte del estudio de Shumailov permitía a las generaciones futuras muestrear el 10% del conjunto de datos original, lo que mitigaba algunos de los efectos negativos.
Para ello sería necesario crear un rastro desde los datos originales generados por el ser humano hasta las generaciones posteriores, lo que se conoce como procedencia de los datos.
Pero la procedencia requiere alguna forma de filtrar Internet entre contenidos generados por humanos y contenidos generados por IA, algo que aún no se ha conseguido. Aunque ya existen varias herramientas para determinar si un texto está generado por IA, a menudo son imprecisas.
"Por desgracia, tenemos más preguntas que respuestas", afirma Shumailov. "Pero está claro que es importante saber de dónde proceden tus datos y hasta qué punto puedes confiar en que capturan una muestra representativa de los datos con los que estás tratando".