.

Inteligencia Artificial

Microsoft ya sabe si te has emborrachado gracias al álbum de fotos de la fiesta

1

La compañía ha logrado entrenar una máquina para que entienda y narre las historias que hay detrás de las fotos. Si sales de fiesta y luego dormido en un sofá, el programa sabrá qué ha pasado

  • por Signe Brewster | traducido por Teresa Woods
  • 28 Abril, 2016

Cuando los usuarios de las redes sociales suben fotos y añaden una descripción (pie o leyenda), no sólo describen el contenido de las imágenes. Sus breves textos cuentan una historia, lo que proporciona contexto para las fotos y y un significado emocional adicional.

Un trabajo publicado por Microsoft Research describe un sistema de generación de pies de foto para imágenes que imita el estilo único de los humanos de narración visual. Empresas como Microsoft, Google y Facebook llevan años enseñando a los ordenadores a etiquetar el contenido de las imágenes, pero esta nueva investigación lo lleva un paso más allá al enseñar un sistema basado en redes neuronales a inferir una historia a partir de varias imágenes. Algún día podría ser empleado para generar automáticamente descripciones para conjuntos de imágenes, o para aportar lenguaje "humano" a otras aplicaciones de la inteligencia artificial.

"En lugar de proporcionar una descripción sosa o descafeinada de lo que sucede en las imágenes, se consigue un contexto narrativo más amplio", explica el doctorando de la Universidad de Johns Hopkins y coautor del trabajo Frank Ferraro. El responsable detalla: "Puedes empezar a inferir las situaciones más probables que pueden estar ocurriendo". 

Consideremos un álbum de fotos que retrata un grupo de amigos que celebra un cumpleaños en un bar. Algunas de las primeras fotos muestran a la gente pidiendo cerveza y bebiéndola, mientras una foto posterior muestra a alguien dormido en un sofá.

"Un sistema de leyendas podría decir simplemente: 'Una persona tumbada en un sofá'", dice Ferraro. "Pero un sistema narrativo podría ser capaz de decir: 'Dado que creo que esta gente estaba de juerga o habían quedado para comer y beber, entonces esta persona podría estar borracha'".

Foto: El perro estaba listo para salir de paseo. Crédito: Microsoft.

Foto: Se lo pasó en grande. Crédito: Microsoft.

Foto: Estuvo encantado de estar en el campo. Crédito: Microsoft.

Foto: Su madre se sentía muy orgullosa de él. Crédito: Microsoft.

Foto: Para él, fue un gran día. Crédito: Microsoft.

Un ejemplo descrito en el trabajo incluye una serie de cinco imágenes. Muestran una familia reunida en torno a una mesa, un plato de marisco, un perro e imágenes de la playa. La red neuronal las describió con una historia que se leía así: "La familia se juntó para una parrillada. Disfrutaron de muchos platos deliciosos. El perro se alegraba de acompañarlos. Se lo pasaron en grande en la playa. Hasta se bañaron."

El equipo, que fue liderado por la investigadora de Microsoft Margaret Mitchell e incluía becarios de Microsoft como Ferraro y un investigador de Facebook AI, convirtió una llamada red neuronal de secuencia recurrente en un narrador al entrenarlo con imágenes de Flickr. Dispusieron de unos ayudantes que redactaron leyendas para las imágenes y para series de imágenes de secuencia fija.

Un enfoque similar a los que se emplean para describir el contenido de fotos individuales produjo historias demasiado genéricas. Para remediarlo, el equipo desarrolló una manera para que la red elija las palabras que tengan una alta probabilidad de ser visualmente sobresalientes. También entrenaron al sistema para que no repitiese palabras.

La narración representa una parte importante del ser humano, según el director del Laboratorio de Visión de la Universidad de Stanford (EEUU), Fei-Fei Li, que no participó en la investigación. Una tecnología capaz de imitar las técnicas humanas para documentar las historias ha de poder contrastar los objetos y personajes captados en múltiples fotos e inferir las relaciones entre personas, objetos y lugares.

"El trabajo publicado sólo representa el inicio de este tipo de tecnologías", apunta Li, y concluye: "Pero representa un buen paso hacia la ejecución de un proyecto tan ambicioso. Estoy ansioso por leer más trabajos de seguimiento de estos autores y otros".

Inteligencia Artificial

 

La inteligencia artificial y los robots están transformando nuestra forma de trabajar y nuestro estilo de vida.

  1. Al habla con la IA: el reto de lograr voces más diversas e inclusivas

    La iniciativa Common Voice, de Mozilla, busca que las voces generadas por inteligencias artificiales sean más inclusivas y reflejen una mayor variedad de dialectos para asegurar que las particularidades de cada lugar y cultura se preserven frente al avance tecnológico

    La iniciativa Common Voice, de Mozilla, busca que las voces generadas por IA sean más inclusivas y diversas
  2. Estos robots aprendieron a superar obstáculos reales desde un entorno virtual gracias a la IA

    Un nuevo sistema podría ayudar a entrenar robots usando exclusivamente mundos generados mediante inteligencia artificial

  3. Por qué la IA podría comerle la tostada a la computación cuántica

    Los rápidos avances en la aplicación de la inteligencia artificial a las simulaciones físicas y químicas hacen que algunos se pregunten si de verdad necesitamos ordenadores cuánticos