El director de Inteligencia Artificial de Facebook, Yann LeCun, cree que la próxima frontera de la visión de máquinas es el software que aprenda por sí mismo al observar el mundo real
Hace cinco años, los investigadores dieron un repentino salto en la capacidad de un software para interpretar imágenes. La tecnología responsable, las redes neuronales artificiales, también son responsables del reciente auge de la inteligencia artificial (ver Aprendizaje profundo). Gracias a ellas, Google y Facebook ahora permiten a los usuarios buscar imágenes en función de su contenido y otras empresas han creado nuevas aplicaciones para el reconocimiento facial.
El director del grupo de investigaciones de Facebook y profesor de la Universidad de Nueva York (EEUU), Yann LeCun, fue pionero en el uso de redes neuronales para la visión de máquinas. El experto afirma que aún quedan mucho camino, y que los próximos avances podrían dar paso a un software con sentido común.
¿Qué grado de precisión tiene la visión de máquinas ahora mismo?
Si tienes una imagen con un objeto dominante dentro y el juego es determinar la categoría de ese objeto, eso funciona. Siempre que se disponga de suficientes datos, de la orden de 1.000 objetos por categoría, podemos reconocer elementos muy específicos como coches de una determinada marca, plantas de una especie concreta o perros de una raza específica. También podemos reconocer categorías más abstractas, como [determinar] si las imágenes muestran paisajes, puestas de Sol, bodas o fiestas de cumpleaños. Hace tan sólo cinco años no teníamos claro que pudiéramos solucionar este problema. Pero eso tampoco significa que la visión ya esté resuelta.
¿Qué problemas importantes quedan por solucionar?
La gente lleva jugando varios años con la idea de generar pies de foto o descripciones para imágenes fijas y de vídeo. Se han realizado demostraciones aparentemente impresionantes, [pero] no lo son tanto como parecen. Su dominio de experiencia está muy limitado al universo con el que las entrenamos. Con la mayoría de los sistemas, si les muestras imágenes con otros tipos de objetos o situaciones poco usuales que nunca han visto su respuesta será una basura. No tienen sentido común.
¿Cuál es la conexión entre la visión y el sentido común?
Depende de con quién hables. Incluso dentro de Facebook hay gente con distintas opiniones. Podrías interactuar con un sistema inteligente únicamente a través del lenguaje. El problema es que el lenguaje es un canal de muy poco ancho de banda. Mucha información que se comunica mediante el lenguaje depende de que los humanos disponen de muchos conocimientos contextuales para interpretarla.
Foto: El director del grupo de investigaciones de inteligencia artificial de Facebook, Yann LeCun.
Otras personas creen que la única manera de proporcionar suficientes datos a un sistema de IA es mediante percepción visual, [que] es mucho, mucho más rica en información que el lenguaje. Si le dices a una máquina: "Esto es un smartphone", "Esto es una apisonadora", "Hay determinados objetos que puedes desplazar al empujarlos y otros que no", tal vez la máquina aprenderá conocimientos básicos sobre cómo funciona el mundo. Algo parecido a como aprenden los bebés.
Pero los bebés aprenden mucho sobre el mundo sin una instrucción explícita.
Una de las cosas que queremos hacer es lograr que las máquinas adquieran un número muy alto de hechos que representan las limitaciones del mundo real, únicamente observando vídeos u otros canales. Eso es lo que les permitiría adquirir sentido común, al final. Estas son cosas que aprenden los animales y los bebés durante sus primeros meses de vida. Aprendemos una cantidad ridículamente grande de datos sobre el mundo sólo al observarlo. Actualmente hay muchas formas muy fáciles de engañar a una máquina porque tienen un conocimiento muy limitado del mundo.
¿Qué progresos se están obteniendo para que el software aprenda mediante la observación?
Nos interesa muchísimo la idea de que un sistema de aprendizaje debería ser capaz de predecir el futuro. Le muestras varios fotogramas de vídeo e intenta predecir qué sucederá a continuación. Si podemos entrenar un sistema para esto creemos que habremos desarrollado técnicas fundamentales para un sistema de aprendizaje no supervisado. Allí es donde, en mi opinión, probablemente van a suceder muchas cosas interesantes. Las aplicaciones para esto no necesariamente corresponden a la visión, es una parte importante de nuestros esfuerzos de lograr progresos dentro de la IA.
(Para saber más sobre proyectos de investigación que intentan lograr que el software emplee la visión de máquinas para entender el mundo: Un poco de sentido común para la inteligencia artificial de Facebook, El hombre que convenció a Stephen Hawking de que los robots no van a destruirnos)