Un estudio revela que los datos empleados para entrenar la IA están concentrando el poder en manos de unas pocas empresas, creando un oligopolio alineado con los intereses y objetivos de corporaciones con fines lucrativos
La inteligencia artificial se basa en datos. Para entrenar algoritmos que cumplan con nuestras expectativas se necesitan cantidades masivas de información. Esto es, en parte, lo que determina su rendimiento. Sin embargo, esta situación lleva a un problema: los desarrolladores e investigadores de IA suelen desconocer el origen exacto de los datos que utilizan. Las prácticas de recopilación no son tan avanzadas como el desarrollo de los modelos en sí y, con frecuencia, carecen de detalles claros sobre su contenido y procedencia.
La Iniciativa para la Procedencia de los Datos (Data Provenance Initiative), formada por más de 50 investigadores del ámbito académico y la industria, se propuso abordar este desafío. Su objetivo era claro: comprender de dónde provienen los datos utilizados para desarrollar IA. Para ello, realizaron una auditoría de casi 4.000 conjuntos de datos públicos que abarcan más de 600 idiomas, 67 países y tres décadas. Estos procedían de 800 fuentes únicas y cerca de 700 organizaciones.
Las conclusiones, compartidas en exclusiva con MIT Technology Review, revelan un panorama inquietante: la forma en que se recopilan los datos podría concentrar el poder en un reducido grupo de grandes empresas tecnológicas.
Shayne Longpre, investigador del MIT y miembro del proyecto, señala que, a principios de la década de 2010, los conjuntos de datos se obtenían de una variedad de fuentes.
No se limitaban a enciclopedias e Internet; también incluían transcripciones parlamentarias, grabaciones de llamadas telefónicas e informes meteorológicos. En esa época, los conjuntos de datos de IA se diseñaban y recopilaban de manera específica para ajustarse a tareas concretas, según explica Longpre.
Sin embargo, en 2017 se inventaron los transformadores, la arquitectura que sustenta los modelos de lenguaje actuales. Esto marcó un punto de inflexión en la IA. Desde entonces, el sector ha observado que el rendimiento mejora a medida que los modelos y los conjuntos de datos crecen en tamaño. En la actualidad, la mayoría de los conjuntos de datos de IA se generan recopilando material de Internet de manera masiva y poco selectiva. Desde 2018, la web se ha consolidado como la principal fuente de datos para diversos formatos, como audio, imágenes y vídeo. Esto ha ampliado la brecha entre los conjuntos de datos extraídos de manera indiscriminada y aquellos que son seleccionados y curados con mayor cuidado.
"En el desarrollo de los modelos, parece que lo único importante para medir sus capacidades es la cantidad y la heterogeneidad de los datos", afirma Shayne Longpre. Asimismo, esta necesidad de contar con una gran escala de información también ha impulsado masivamente el uso de datos sintéticos que son producidos de manera artificial.
En los últimos años, también han ganado protagonismo los modelos de IA generativa multimodales para crear vídeos e imágenes. Al igual que los grandes modelos lingüísticos, requieren enormes volúmenes de datos y YouTube se ha convertido en una de las principales fuentes para satisfacer esta demanda.
En el caso de los modelos de vídeo, como se muestra en este gráfico, más del 70% de los datos utilizados en los conjuntos de voz e imagen proceden de una única fuente.
Esto podría ser una gran ventaja para Alphabet, la empresa matriz de Google y propietaria de YouTube. Mientras las fuentes para el texto están dispersas por toda la web y controladas por diversas plataformas, los datos de vídeo están concentrados en una sola plataforma. "Esto le otorga a una empresa un control desmesurado sobre algunos de los datos más relevantes de la web", apunta Shayne Longpre.
Además, dado que Google está desarrollando sus propios modelos de IA, su ventaja plantea interrogantes sobre cómo la empresa compartirá estos datos con la competencia. Así lo destaca Sarah Myers West, codirectora ejecutiva del AI Now Institute: "Es importante pensar en los datos no como si fueran una especie de recurso natural, sino como algo que se crea a través de determinados procesos".
"Si los conjuntos de datos en los que se basa la mayoría de la IA con la que interactuamos responden a los intereses y el diseño de grandes corporaciones con fines de lucro, esto está transformará nuestro mundo de manera para favorecer a los intereses de esas empresas", afirma Myers.
Este monocultivo también plantea interrogantes sobre la precisión con la que los modelos reflejan de manera equitativa la experiencia humana. Las personas suben vídeos a YouTube pensando en un público concreto, y la forma de actuar en ellos suele ser muy específica. "¿Captan [los datos] todos los matices de la humanidad y todas las formas en que existimos?", se pregunta Sara Hooker, vicepresidenta de investigación de la empresa tecnológica Cohere, que también forma parte de la Iniciativa para la Procedencia de los Datos.
Restricciones ocultas
Las empresas de IA rara vez comparten los datos que emplean para entrenar sus modelos. Una de las razones es la protección de su ventaja competitiva, mientras que otra es que, debido a la complejidad y falta de transparencia en la forma en que se agrupan, empaquetan y distribuyen los conjuntos de datos, es posible que ni siquiera tengan claro su origen.
Es probable que tampoco cuenten con información completa sobre las restricciones de uso o distribución de esos datos. Los investigadores de Data Provenance Initiative descubrieron que mucha información va acompañada de licencias o condiciones restrictivas que, por ejemplo, deberían limitar su uso con fines comerciales.
"La falta de coherencia en todo el ciclo de vida de los datos dificulta que los desarrolladores tomen decisiones informadas sobre cuáles utilizar", apunta Hooker. Además, según Longpre, esto hace prácticamente imposible garantizar que el modelo no se haya entrenado con datos protegidos por derechos de autor.
De manera más reciente, empresas como OpenAI y Google han establecido acuerdos exclusivos de intercambio de datos con editores, grandes foros como Reddit y plataformas de redes sociales. Sin embargo, esto también contribuye a la concentración de su poder. "Estos contratos exclusivos podrían fragmentar Internet, determinando quién tiene acceso a ellos y quién no", apunta Longpre.
Esta tendencia favorece a los grandes actores de la IA, que pueden permitirse este tipo de acuerdos, mientras que perjudica a investigadores, organizaciones sin ánimo de lucro y empresas más pequeñas, que tendrán dificultades para acceder a los datos. Además, las grandes compañías cuentan con mejores recursos para rastrear y gestionar estos conjuntos de datos.
"Estamos frente a una nueva era de acceso desigual en la web abierta, algo que no habíamos presenciado hasta ahora", asegura Longpre.
El dominio de Occidente
Los datos que entrenan los modelos de IA están muy inclinados hacia el mundo occidental. De hecho, más del 90% de los conjuntos analizados por los investigadores provienen de Europa y Norteamérica, mientras que menos del 4% corresponden a África.
"Estos datos reflejan solo una parte del mundo y de nuestra cultura. Están ignorando por completo otras realidades", apunta Hooke.
El dominio del inglés en los datos de entrenamiento se explica, en parte, porque más del 90% de los contenidos en Internet están en este idioma. Además, en muchas regiones del mundo, la conexión a Internet es limitada o inexistente, señala Giada Pistilli, principal especialista en ética de Hugging Face. Sin embargo, también entra en juego la comodidad: recopilar datos en otros idiomas y considerar otras culturas requiere un gran esfuerzo.
Este sesgo occidental se hace aún más evidente en los modelos multimodales, tal y como apunta Hooker. Si, por ejemplo, se pide a un modelo de inteligencia artificial que represente imágenes y sonidos de una boda, probablemente solo muestre ceremonias occidentales, ya que son las únicas que conoce.
Este enfoque no solo refuerza prejuicios, sino que también podría dar lugar a modelos de IA que promuevan una visión del mundo centrada en Estados Unidos, dejando de lado otras lenguas y culturas.
"Estamos utilizando estos modelos en todo el mundo, pero existe una enorme discrepancia entre la realidad que vivimos y la que estos modelos representan", concluye Hooker.