Inteligencia Artificial
Los ordenadores ya pueden distinguir cada elemento de una foto gracias a Facebook
Su algoritmo es capaz de distinguir cada objeto pero también dónde acaba y empieza, por ejemplo, un gato sentado en un sofá. Su avance podría mejorar la realidad aumentada y la edición gráfica
Para descifrar el significado del mundo visual, no basta con saber qué se está viendo, por ejemplo un gato. Necesitamos saber dónde acaba el gato y empieza su entorno.
Un algoritmo de visión de máquinas desarrollado por Facebook, y que acaba de ser puesto a disposición pública para otros investigadores, dota a los ordenadores de esta capacidad. Puede identificar no sólo el contenido de una imagen sino también las formas que corresponden a objetos individuales. Eso podría parecer sencillo, pero resulta endiabladamente difícil programar un ordenador para que lo haga con precisión, y está más allá del alcance de la mayoría de los sistema existentes de visión de máquinas.
Por ahora, el algoritmo de Facebook es sólo una herramienta de investigación. Finalmente podría tener un abanico de importantes aplicaciones: habilitar un programa de edición de imágenes para cambiar automáticamente el fondo o iluminar a las personas captadas por la imagen; proporcionar maneras de describir las imágenes en detalle a usuarios ciegos; incluso lograr que videojuegos de realidad aumentada como Pokémon Go resulten mucho más realistas al reconocer objetos que Pikachu podría escalar.
Foto: Diferentes objetos están iluminados en unas imágenes que alimentaron el algoritmo de Facebook. Crédito: Facebook.
Se han producido importantes avances en la visión de máquinas en los últimos años, pero se han centrado sobre todo en reconocer objetos o tipos de escena. Pero los investigadores están empezado a buscar un entendimiento más profundo de las imágenes, y esto es importante para aumentar la inteligencia general de las máquinas (ver Las máquinas deben entender cómo funciona el mundo y la humanidad).
"Una de las cosas más difíciles [para los ordenadores] consiste en entender la realidad, lo que realmente hay allí fuera", apunta el director de Investigaciones de Facebook, Larry Zitnick, que participó en el trabajo. "La segmentación de imágenes es una parte crítica del razonamiento de escenas", matiza.
Zitnick explica que el algoritmo podría llegar a ser empleado para desarrollar un sistema que ilumine automáticamente los productos dentro de una imagen publicada en Facebook, o para crear apps más realistas de realidad aumentada. "Si quieres colocar un cachorrito [virtual] dentro de una habitación, realmente lo quieres colocar encima de un sofá, y sobre una parte concreta de ese sofá", añade.
Las redes neuronales simuladas entrenadas con miles de fotos para aprender a clasificar imágenes han logrado grandes progresos en la visión de máquinas. Estos sistemas de aprendizaje profundo suelen reconocer un amplio abanico de características, como el color y la textura, pero no necesariamente reconocen el contorno de un objeto.
El algoritmo de Facebook combina una serie de redes neuronales para realizar este tipo de "segmentación de imágenes". Las primeras dos redes son empleadas para determinar si los píxeles individuales forman parte de un objeto u otro; una tercera red es empleada después para determinar qué son esos objetos.
El profesor de la Universidad de California en Los Ángeles (EEUU) Stefano Soatto, que se especializa en visión de máquinas, considera que el trabajo es "muy importante" y podría tener muchas aplicaciones porque la segmentación de imágenes resulta engañosamente difícil. El experto explica: "Cualquier niño de dos años puede señalar un objeto y trazar su contorno dentro de una imagen, pero esto es engañoso. Millones de años de evolución y la mitad del cerebro contribuyen a la consecución de esta hazaña".