Inteligencia Artificial

Microsoft ya sabe si te has emborrachado gracias al álbum de fotos de la fiesta

La compañía ha logrado entrenar una máquina para que entienda y narre las historias que hay detrás de las fotos. Si sales de fiesta y luego dormido en un sofá, el programa sabrá qué ha pasado

por Signe Brewster | traducido por Teresa Woods
28 Abril, 2016

Cuando los usuarios de las redes sociales suben fotos y añaden una descripción (pie o leyenda), no sólo describen el contenido de las imágenes. Sus breves textos cuentan una historia, lo que proporciona contexto para las fotos y y un significado emocional adicional.

Un trabajo publicado por Microsoft Research describe un sistema de generación de pies de foto para imágenes que imita el estilo único de los humanos de narración visual. Empresas como Microsoft, Google y Facebook llevan años enseñando a los ordenadores a etiquetar el contenido de las imágenes, pero esta nueva investigación lo lleva un paso más allá al enseñar un sistema basado en redes neuronales a inferir una historia a partir de varias imágenes. Algún día podría ser empleado para generar automáticamente descripciones para conjuntos de imágenes, o para aportar lenguaje "humano" a otras aplicaciones de la inteligencia artificial.

"En lugar de proporcionar una descripción sosa o descafeinada de lo que sucede en las imágenes, se consigue un contexto narrativo más amplio", explica el doctorando de la Universidad de Johns Hopkins y coautor del trabajo Frank Ferraro. El responsable detalla: "Puedes empezar a inferir las situaciones más probables que pueden estar ocurriendo".

Consideremos un álbum de fotos que retrata un grupo de amigos que celebra un cumpleaños en un bar. Algunas de las primeras fotos muestran a la gente pidiendo cerveza y bebiéndola, mientras una foto posterior muestra a alguien dormido en un sofá.

"Un sistema de leyendas podría decir simplemente: 'Una persona tumbada en un sofá'", dice Ferraro. "Pero un sistema narrativo podría ser capaz de decir: 'Dado que creo que esta gente estaba de juerga o habían quedado para comer y beber, entonces esta persona podría estar borracha'".

Foto: El perro estaba listo para salir de paseo. Crédito: Microsoft.

Foto: Se lo pasó en grande. Crédito: Microsoft.

Foto: Estuvo encantado de estar en el campo. Crédito: Microsoft.

Foto: Su madre se sentía muy orgullosa de él. Crédito: Microsoft.

Foto: Para él, fue un gran día. Crédito: Microsoft.

Un ejemplo descrito en el trabajo incluye una serie de cinco imágenes. Muestran una familia reunida en torno a una mesa, un plato de marisco, un perro e imágenes de la playa. La red neuronal las describió con una historia que se leía así: "La familia se juntó para una parrillada. Disfrutaron de muchos platos deliciosos. El perro se alegraba de acompañarlos. Se lo pasaron en grande en la playa. Hasta se bañaron."

El equipo, que fue liderado por la investigadora de Microsoft Margaret Mitchell e incluía becarios de Microsoft como Ferraro y un investigador de Facebook AI, convirtió una llamada red neuronal de secuencia recurrente en un narrador al entrenarlo con imágenes de Flickr. Dispusieron de unos ayudantes que redactaron leyendas para las imágenes y para series de imágenes de secuencia fija.

Un enfoque similar a los que se emplean para describir el contenido de fotos individuales produjo historias demasiado genéricas. Para remediarlo, el equipo desarrolló una manera para que la red elija las palabras que tengan una alta probabilidad de ser visualmente sobresalientes. También entrenaron al sistema para que no repitiese palabras.

La narración representa una parte importante del ser humano, según el director del Laboratorio de Visión de la Universidad de Stanford (EEUU), Fei-Fei Li, que no participó en la investigación. Una tecnología capaz de imitar las técnicas humanas para documentar las historias ha de poder contrastar los objetos y personajes captados en múltiples fotos e inferir las relaciones entre personas, objetos y lugares.

"El trabajo publicado sólo representa el inicio de este tipo de tecnologías", apunta Li, y concluye: "Pero representa un buen paso hacia la ejecución de un proyecto tan ambicioso. Estoy ansioso por leer más trabajos de seguimiento de estos autores y otros".

Inteligencia Artificial

Microsoft ya sabe si te has emborrachado gracias al álbum de fotos de la fiesta

Mundos virtuales generativos y modelos que "razonan": qué nos depara la IA en 2025

La IA acaba con la búsqueda en Google tal y como la conocemos

Qué anticipan los errores de la IA en 2024 sobre su futuro