Inteligencia Artificial

Imágenes generadas por IA: la fea realidad sobre cómo se crean

Google Brain ha revelado su propia IA de creación de imágenes, llamada Imagen. Pero no soluciona los problemas éticos ya existentes en el campo

por Will Douglas Heaven | traducido por Ana Milutinovic
09 Junio, 2022

Un mes más, otra avalancha de imágenes extrañas y maravillosas generadas por inteligencia artificial (IA). En abril, OpenAI mostró su nueva red neuronal de creación de imágenes, DALL-E 2, que podía crear curiosas imágenes de alta resolución de casi cualquier cosa que se le pidiera. Superó a DALL-E original en casi todos los aspectos.

Solo unas semanas después, Google Brain ha revelado su propia IA de creación de imágenes, denominada Imagen que funciona incluso mejor que DALL-E 2: obtiene una puntuación más alta en una medida estándar para calificar la calidad de las imágenes generadas por ordenador y sus imágenes fueron las preferidas de un grupo de jueces humanos.

"¡Estamos viviendo la carrera espacial de la IA!" comentó un usuario de Twitter. "La industria de imágenes de archivo está oficialmente acabada", tuiteó otro.

We are thrilled to announce Imagen, a text-to-image model with unprecedented photorealism and deep language understanding. Explore https://t.co/mSplg4FlsM and Imagen!

A large rusted ship stuck in a frozen lake. Snowy mountains and beautiful sunset in the background. #imagen pic.twitter.com/96Vfo2kXJz

— Chitwan Saharia (@Chitwan_Saharia) May 24, 2022

Muchas de las imágenes de Imagen son realmente asombrosas. A simple vista, algunas de sus escenas al aire libre podrían haber sido extraídas de las páginas de National Geographic. Los equipos de marketing podrían usar Imagen para producir con solo unos pocos clics los anuncios para vallas publicitarias.

Pero igual que hizo OpenAI con DALL-E, Google apuesta por cosas monas. Ambas empresas promocionan sus herramientas con imágenes de animales antropomórficos haciendo cosas adorables: un panda peludo disfrazado de chef amasando, un perro sentado en una casa hecha de sushi, un oso de peluche nadando 400 metros mariposa en los Juegos Olímpicos, etc.

Hay una razón técnica para esto, así como de relaciones públicas también. Mezclar conceptos como "panda peludo" y "hacer masa" obliga a la red neuronal a aprender a manipular esos conceptos con sentido. Pero lo tierno esconde el lado más oscuro de estas herramientas, una parte que la gente no llega a ver, porque revelaría la fea verdad sobre cómo se crean.

La mayoría de las imágenes que OpenAI y Google hacen públicas son cuidadosamente seleccionadas. Las imágenes bonitas que coinciden con sus indicaciones con una precisión asombrosa que llegan al público, son de esperar. Pero no se ven imágenes con estereotipos de odio, racismo o misoginia. No hay imágenes violentas o sexistas. No hay porno panda. Y por lo que sabemos sobre cómo se construyen estas herramientas, debería haberlas.

Not a single human face depicted in the hundreds of pictures in the paper, haha. I guess that's one way to eliminate concerns over representation bias. https://t.co/tKX8khoTDR

— mike cook (@mtrc) May 23, 2022

No es ningún secreto que los modelos grandes, como DALL-E 2 e Imagen, entrenados en una gran cantidad de documentos e imágenes de la web, absorben tanto los peores como los mejores aspectos de esos datos. OpenAI y Google lo reconocen explícitamente.

Si se busca al final de la página en el sitio web de Imagen—más allá de la fruta del dragón con un cinturón de kárate y el pequeño cactus con un sombrero y gafas de sol— en la sección sobre el impacto social, se puede leer esto: "Aunque se ha filtrado un subconjunto de nuestros datos de entrenamiento para eliminar ruido y contenido indeseable, como imágenes pornográficas y lenguaje tóxico, también utilizamos el conjunto de datos LAION-400M que se sabe que contiene una amplia variedad de contenido inapropiado, incluidas imágenes pornográficas, insultos racistas y estereotipos sociales dañinos. Imagen se basa en codificadores de texto entrenados en datos a escala web no filtrados y, por lo tanto, hereda sesgos sociales y limitaciones de los grandes modelos de lenguaje. Como tal, existe el riesgo de que Imagen haya codificado estereotipos y representaciones dañinas, lo que explica nuestra decisión de no lanzar Imagen para uso público sin más salvaguardas".

Es un reconocimiento similar al que hizo OpenAI cuando reveló GPT-3 en 2019: "los modelos entrenados en internet tienen sesgos a escala de internet". Y como ha señalado Mike Cook que investiga la creatividad de la IA en la Universidad Queen Mary de Londres, está en las declaraciones de ética que acompañaron al modelo de lenguaje PaLM de Google y al DALL-E 2 de OpenAI. En resumen, estas empresas saben que sus modelos son capaces de producir contenido horrible, y no tienen ni idea de cómo arreglar eso.

I feel like at some point in the last few years we somehow confused "AI ethics" with "pointing at the mess you made and shrugging".https://t.co/JEu2ngilEZ pic.twitter.com/mMbNQUzgXW

— mike cook (@mtrc) April 8, 2022

Por ahora, la solución es mantenerlos enjaulados. OpenAI hace que DALL-E 2 esté disponible solo para un puñado de usuarios fiables; Google no tiene planes de lanzar Imagen públicamente.

Eso está bien si estas fueran simplemente herramientas propietarias. Pero la realidad es que estas empresas están ampliando los límites de lo que la IA puede hacer y su trabajo da forma al tipo de IA con el que todos vivimos. Están creando nuevas maravillas, pero también nuevos horrores, y siguen adelante encogiéndose de hombros. Cuando el equipo de ética interno de Google planteó problemas con grandes modelos de lenguaje, en 2020 provocó un debate que terminó con el despido de dos de sus principales investigadoras.

Los grandes modelos de lenguaje y las IA de creación de imágenes tienen el potencial de ser tecnologías que cambien el mundo, pero solo si se controla su toxicidad. Esto requerirá mucha más investigación. Existen pequeños pasos para hacer públicas este tipo de redes neuronales para llevar a cabo un estudio generalizado. Hace unas semanas, Meta lanzó un gran modelo de lenguaje para investigadores, con todos sus defectos e imperfecciones. Y Hugging Face está listo para lanzar su versión de código abierto de GPT-3 en los próximos meses.

Pero, por ahora, disfrutaremos de los peluches.

Créditos

GOOGLE

Inteligencia Artificial

Imágenes generadas por IA: la fea realidad sobre cómo se crean

Créditos

Minería paralela de datos, la técnica del nuevo traductor de Meta para dominar más de 100 idiomas

Convirtiendo los trinos en datos: esta IA estudia la migración de las aves a través del sonido

Mundos virtuales generativos y modelos que "razonan": qué nos depara la IA en 2025