El algoritmo de aprendizaje automático desarrollado para la tarea se basa en las mismas técnicas empleadas para su traductor de idiomas
Traducir de un idioma a otro siempre ha sido una tarea difícil. Pero en los últimos años, a través de Google Translate, Google ha transformado este proceso gracias a algoritmos de traducción automática que están cambiando la naturaleza de las comunicaciones entre culturas.
Ahora el gigante de internet está usando la misma técnica de aprendizaje automático para traducir imágenes en palabras. El resultado es un sistema que genera automáticamente pies de foto que describen con precisión el contenido de una imagen. Es algo que resultará útil a los motores de búsqueda, a la publicación automatizada y a ayudar a los ciegos y las personas con problemas de vista a navegar por la web y por el mundo en general.
El enfoque convencional que se sigue en la traducción es un proceso reiterativo que empieza por traducir las palabras individualmente y después reorganizar palabras y frases para mejorar la traducción. Pero en los últimos años Google ha aprendido a usar su inmensa base de datos de búsqueda para traducir texto de una forma completamente distinta.
El enfoque consiste básicamente en contar la frecuencia con que aparecen unas palabras junto a o cerca de otras palabras y después definirlas en un espacio vectorial abstracto reflejando la relación de unas con otras. Esto permite que cada palabra quede representada por un vector en el espacio y que las frases queden representadas por una combinación de vectores.
Google va más allá y hace una suposición importante. Esto es que palabras específicas tienen la misma relación entre ellas, independientemente del idioma. Por ejemplo, el vector "rey-hombre+mujer=reina" debería ser cierto en todos los idiomas.
Eso convierte la traducción de idiomas en un problema de matemática de espacios vectoriales. Google Translate lo aborda convirtiendo una frase en un vector y después usando ese vector para generar la frase equivalente en otro idioma.
Ahora Oriol Vinyals y otros compañeros suyos en Google están usando un enfoque parecido para traducir imágenes en palabras. Su técnica es usar una red neuronal para estudiar una serie de datos de 100.000 imágenes y sus pies de foto correspondientes y aprender así a clasificar el contenido de las imágenes.
Pero en vez de producir una serie de palabras que describen la imagen, su algoritmo produce un vector que representa la relación entre las palabras. Este vector se puede introducir en el algoritmo de traducción de Google para producir un pie de foto en inglés o en cualquier otro idioma. De hecho, el enfoque de aprendizaje automático de Google ha aprendido a "traducir" imágenes en palabras.
Para comprobar la eficacia de este enfoque, han usado evaluadores humanos reclutados en Mechanical Turk de Amazon para valorar los pies de foto generados automáticamente junto con otros producidos por otros enfoques automatizados y una tercera serie generada por humanos.
Los resultados demuestran que el nuevo sistema, que Google ha bautizado como Neural Image Caption, funciona bien. Gracias a una serie de imágenes muy conocida llamada PASCAL, Neural Image Capture lo hizo claramente mejor que otros sistemas automatizados. "NIC logró una puntuación BLEU de 59, mayor que la puntuación de 25 del mejor sistema actual, mientras que los humanos logran una puntuación de 69", afirman Vinyals.
No está nada mal y parece que el enfoque tiene margen para mejorar según aumente el tamaño de las series de datos de entrenamiento. "Estos experimentos dejan claro que, según aumenten las series de datos disponibles para descripción de imágenes, mejorará el rendimiento de métodos como NIC", afirma el equipo de Google.
Claramente, esta es otra labor en la que los días de la supremacía de los humanos sobre las máquinas están contados.
Ref: arxiv.org/abs/1411.4555: Generador Neuronal de Pies de Foto