Inteligencia Artificial
Compensación y atribución para los creadores, la apuesta de Adobe por una IA generativa diferente
La empresa afirma que es la prueba de que los modelos de IA de calidad no tienen por qué incluir polémicos contenidos protegidos por derechos de autor
Desde el comienzo del auge de la IA generativa, ha habido una lucha sobre cómo se entrenan los grandes modelos de IA. En un bando se sitúan empresas tecnológicas como OpenAI, que afirman que es "imposible" entrenar la IA sin acaparar datos protegidos por derechos de autor en internet. Y en el otro bando están los artistas, que sostienen que las empresas de IA se han apropiado de su propiedad intelectual sin consentimiento ni compensación.
El caso de Adobe es bastante inusual, en el sentido de que se pone del lado de este último grupo, con un enfoque que destaca como ejemplo de cómo pueden crearse productos de IA generativa sin extraer de internet datos protegidos por derechos de autor. Adobe lanzó hace un año su modelo de generación de imágenes Firefly, integrado en su popular herramienta de edición fotográfica Photoshop.
En una entrevista exclusiva con MIT Technology Review, los responsables de IA de Adobe insisten en que éste es el único camino posible. No solo está en juego el sustento de los creadores, dicen, sino todo nuestro ecosistema de información. Lo que han aprendido demuestra que crear tecnología responsable no tiene por qué ser a costa de hacer negocios.
"Nos preocupa que la industria, y Silicon Valley en particular, no se detenga a preguntarse el 'cómo' o el 'por qué'. Solo porque puedas construir algo no significa que debas hacerlo sin tener en cuenta el impacto que estás creando", afirma David Wadhwani, presidente del negocio de medios digitales de Adobe.
Estas preguntas guiaron la creación de Firefly. Cuando se produjo el boom de la imagen generativa en 2022, hubo una gran reacción en contra de la IA por parte de las comunidades creativas. Mucha gente utilizaba modelos de IA generativa como máquinas de contenido derivado para crear imágenes con el estilo de otro artista, lo que desencadenó una lucha legal por los derechos de autor y el uso justo. La última tecnología de IA generativa también ha facilitado mucho la creación de deepfakes y desinformación.
Pronto quedó claro que, para ofrecer a los creadores el reconocimiento adecuado y a las empresas seguridad jurídica, la empresa no podía construir sus modelos raspando datos de la web, dice Wadwani.
Adobe quiere aprovechar las ventajas de la IA generativa sin dejar de "reconocer que se construye sobre la base del trabajo humano. Y tenemos que encontrar la manera de compensar justamente a la gente por ese trabajo ahora y en el futuro", dice Ely Greenfield, director de Tecnología para Medios Digitales de Adobe.
Raspar o no raspar
La extracción de datos online, habitual en la IA, se ha convertido recientemente en un tema muy controvertido. Empresas de IA como OpenAI, Stability.AI, Meta y Google se enfrentan a numerosas demandas sobre datos de entrenamiento de IA. Las empresas tecnológicas sostienen que los datos disponibles públicamente son un juego limpio. Los escritores y artistas no están de acuerdo y abogan por un modelo basado en licencias, por el que los creadores reciban una compensación si sus obras se incluyen en los conjuntos de datos de entrenamiento.
Adobe entrenó a Firefly con contenidos que tenían una licencia explícita que permitía el entrenamiento de la IA, lo que significa que la mayor parte de los datos de entrenamiento proceden de la biblioteca de fotos de archivo de Adobe, dice Greenfield. La empresa ofrece a los creadores una compensación extra cuando el material se utiliza para entrenar modelos de IA, añade.
Esto contrasta con el statu quo actual de la IA, en el que las empresas tecnológicas raspan indiscriminadamente la web y tienen un conocimiento limitado de lo que incluyen los datos de entrenamiento. Debido a estas prácticas, los conjuntos de datos de IA incluyen inevitablemente contenidos protegidos por derechos de autor y datos personales, y las investigaciones han descubierto contenidos tóxicos, como material de abusos sexuales a menores.
El raspado de internet ofrece a las empresas tecnológicas una forma barata de obtener muchos datos de entrenamiento de IA y, tradicionalmente, disponer de más datos ha permitido a los desarrolladores crear modelos más potentes. Limitar Firefly a los datos con licencia para el entrenamiento era una apuesta arriesgada, afirma Greenfield.
"Para ser sinceros, cuando empezamos con Firefly y nuestro modelo de imágenes, no sabíamos si seríamos capaces de satisfacer las necesidades de los clientes sin recurrir a raspar la web", explica Greenfield.
"Y descubrimos que sí podíamos, lo cual fue estupendo".
Moderadores humanos de contenidos también revisan los datos de entrenamiento para eliminar los contenidos censurables o perjudiciales, la propiedad intelectual conocida y las imágenes de personas conocidas, y la empresa tiene licencias para todo aquello con lo que se entrenan sus productos.
Según Greenfield, la estrategia de Adobe ha consistido en integrar herramientas de IA generativa en sus productos actuales. En Photoshop, por ejemplo, los usuarios de Firefly pueden rellenar zonas de una imagen mediante comandos de texto. Esto les ofrece un control mucho mayor sobre el proceso creativo y favorece su creatividad.
Pero aún queda mucho por hacer. La empresa quiere que Firefly sea aún más rápido. Actualmente, los algoritmos de moderación de contenidos de la empresa tardan unos 10 segundos en comprobar los contenidos generados por el modelo, por ejemplo, afirma Greenfield. Adobe también está intentando averiguar cómo algunos clientes empresariales podrían generar contenidos protegidos por derechos de autor, como personajes de Marvel o Mickey Mouse. Adobe se ha asociado con empresas como IBM, Mattel, NVIDIA y NASCAR, lo que permite a estas empresas utilizar la herramienta con su propiedad intelectual. También está trabajando en audio, herramientas de sincronización de labios y generación 3D.
Basura dentro, basura fuera
La decisión de no raspar internet también da a Adobe una ventaja en la moderación de contenidos. La IA generativa es muy difícil de controlar, y los propios desarrolladores no saben por qué los modelos generan las imágenes y los textos que generan. Los modelos de IA generativa han publicado contenidos cuestionables y tóxicos en numerosos casos.
Según Greenfield, todo depende de con qué se hayan entrenado. Dice que el modelo de Adobe nunca ha visto una foto de Joe Biden o Donald Trump, por ejemplo, y no se le puede inducir a generar desinformación política. Los datos de entrenamiento del modelo de IA no contienen noticias ni personajes famosos. Tampoco se ha entrenado con material protegido por derechos de autor, como imágenes de Mickey Mouse.
"Simplemente no entiende qué es ese concepto", dice Greenfield.
Adobe también aplica la moderación automática de contenidos en el momento de generación para comprobar que las creaciones de Firefly son seguras para uso profesional. El modelo tiene prohibido crear noticias o imágenes violentas. Algunos nombres de artistas también están bloqueados. El contenido generado por Firefly viene con etiquetas que indican que ha sido creado utilizando IA, y el historial de edición de la imagen.
En un año electoral crítico, la necesidad de saber quién y cómo ha creado un contenido es especialmente importante. Adobe ha sido un firme defensor de las etiquetas en los contenidos de IA que indican dónde se originaron y con quién.
La empresa puso en marcha, junto con el New York Times y Twitter (ahora X), la Iniciativa para la Autenticidad de los Contenidos, una asociación que promueve el uso de etiquetas que indiquen si el contenido está generado por IA o no. La iniciativa cuenta ahora con más de 2.500 miembros. También forma parte del desarrollo de C2PA, una etiqueta estándar del sector que muestra de dónde procede un contenido y cómo se ha creado.
"Hace tiempo que necesitamos una mejor educación en alfabetización mediática y herramientas que apoyen la capacidad de la gente para validar cualquier contenido que pretenda representar la realidad", afirma Greenfield.
El planteamiento de Adobe pone de manifiesto la necesidad de que las empresas de IA reflexionen sobre la moderación de contenidos, afirma Claire Leibowicz, responsable de IA e integridad de los medios de comunicación de la organización sin ánimo de lucro Partnership on AI.
El enfoque de Adobe hacia la IA generativa sirve a esos objetivos sociales luchando contra la desinformación, así como promoviendo objetivos empresariales, como preservar la autonomía de los creadores y la atribución de autoría, añade Leibowicz.
"La misión empresarial de Adobe no es evitar la desinformación per se", afirma. "Se trata de capacitar a los creadores. Y ¿no es una convergencia realmente elegante de misión y táctica, poder matar dos pájaros de un tiro?".
Wadhwani está de acuerdo. La empresa afirma que las funciones impulsadas por Firefly se encuentran entre las más populares, y que el 90% de los usuarios de la aplicación web de Firefly son clientes totalmente nuevos para Adobe.
"Creo que nuestro enfoque ha sido bueno para el negocio", afirma Wadhwani.