.

Computación

Las máquinas deben entender cómo funciona el mundo y la humanidad

1

La inteligencia artificial avanza para que los ordenadores no solo vean lo que hay a su alrededor sino que lo entiendan como si fueran personas

  • por Will Knight | traducido por Teresa Woods
  • 28 Enero, 2016

Hace varios años, un repentino avance en el aprendizaje de máquinas habilitó los ordenadores para reconocer objetos mostrados en fotos con una precisión sin precedentes, casi espeluznante. La pregunta ahora es si las máquinas podrán dar otro gran salto, al aprender a descifrar lo que realmente sucede en tales imágenes.

Una nueva base de datos de imágenes, llamada Visual Genome, podría acercar los ordenadores a esa meta, y ayudar a medir el progreso de los ordenadores que intentan mejorar su entendimiento del mundo real. Enseñar a los ordenadores a analizar escenas visuales es fundamentalmente importante para la inteligencia artificial (IA). Podría no sólo generar más algoritmos de visión útiles, sino también ayudar a entrenar ordenadores para que se comuniquen con mayor eficacia, porque el lenguaje está íntimamente relacionado con la representación del mundo físico.

Visual Genome fue desarrollada por el director del Laboratorio de Inteligencia Artificial de la Universidad de Stanford (EEUU), Fei-Fei Li, especializado en visión de máquinas. Li explica: "Nos centramos mucho en algunos de los problemas más díficiles de la visión de máquinas, que tratan de tender un puente entre la percepción y la cognición". No sólo se trata de "recopilar datos de píxeles e intentar descifrar el color, sombreado y ese tipo de cosas, sino convertir eso en un mayor entendimiento de la dimensión 3D además del mundo semántico visual", continúa.

El equipo de Li creó anteriormente ImageNet, una base de datos que contiene más de un millón de imágenes etiquetadas según su contenido. Cada año, el Reto ImageNet de Reconocimiento Visual a Gran Escala pone a prueba la capacidad de los ordenadores de reconocer automáticamente el contenido de las imágenes.

En 2012, un equipo liderado por Geoffrey Hinton de la Universidad de Toronto (Canadá) construyó una potente red neuronal capaz de categorizar imágenes con una precisión mucho mayor que cualquier otra creada con anterioridad. La técnica empleada para habilitar este avance, conocido como aprendizaje profundo, incluye la introducción de miles o millones de ejemplos a una red neuronal de muchas capas, que entrena gradualmente cada capa de neuronas virtuales para responder a unas características cada vez más abstractas, desde la textura del pelaje de un perro, por ejemplo, hasta su forma general.

El logro del equipo de Toronto aumentó el interés por el aprendizaje profundo, que empezó a ser visto como una especie de renacimiento de la IA. Y desde entonces, el aprendizaje profundo se ha aplicado a otras muchas áreas, mejorando la capacidad de los ordenadores de realizar otras tareas, como el procesamiento de audio y texto.

Las imágenes de Visual Genome están etiquetadas de forma más detallada en ImageNet, donde incluyen los nombres y otras características de varios objetos mostrados en cada imagen; las relaciones que guardan esos objetos entre sí; y datos sobre las acciones que están sucediendo. Lo lograron mediante un enfoque de crowdsourcing desarrollado por uno de los compañeros de Li de Stanford Michael Bernstein. El plan es lanzar un reto ImageNet utilizando este conjunto de datos en 2017.

Los algoritmos entrenados con ejemplos de Visual Genome podrían hacer más que reconocer objetos, y deberían tener alguna capacidad de analizar escenas visuales más complejas.

"Hay una persona sentada en un despacho, pero, ¿cuál es la disposición de la habitación, quién es esa persona, qué está haciendo, cuáles son los objetos que tiene a su alrededor, y qué acción capta la imágen?", pregunta Li. Y se contesta: "Estamos tendiendo un puente entre [este entendimiento] y el lenguaje, porque la comunicación no consiste en asignar números a píxeles, se necesita establecer una conexión entre la percepción y la cognición y el lenguaje".

Li cree que el aprendizaje profundo probablemente jugará un papel clave para habilitar los ordenadores para analizar escenas más complejas, pero que otras técnicas ayudarán a impulsar la vanguardia.

Los algoritmos resultantes tal vez podrían mejorar la organización de imágenes digitales o en colecciones personales, pero podrían tener usos más importantes, como permitir que los robots y los coches autónomos interpreten una escena correctamente. También podrían emplearse para mejorar el sentido común de los ordenadores, al apreciar qué conceptos son físicamente probables o más implausibles.

El experto en el aprendizaje de máquinas y fundador de una start-up de IA MetaMind, Richard Socher, cree que este podría ser el aspecto más importante del proyecto. "Gran parte del lenguaje describe el mundo visual", asegura. "Este conjunto de datos proporciona una nueva manera escalable de combinar las dos modalidades y probar nuevos modelos".

Visual Genome no es la única base de datos de imágenes complejas con la que pueden experimentar los investigadores. Microsoft, por ejemplo, tiene una base de datos llamada Common Objects in Context (Objetos Comunes en Contexto, en español), que muestra los nombres y la posición de múltiples objetos en las imágenes. Google, Facebook y otros también se esfuerzan por mejorar la capacidad de los algoritmos de IA de analizar escenas visuales. Unas investigaciones publicadas por Google en 2014 demostraron un algoritmo que puede proporcionar pies de foto básicos para las imágenes, con distintos grados de precisión (ver El software de Google dice que en esa foto sale "un grupo de jóvenes jugando al frisbee"). Y más recientemente, Facebook demostró un sistema de preguntas y respuestas que puede contestar consultas sencillas sobre las imágenes (ver Facebook ya sabe decirte qué sale en una foto).

La profesora del Instituto Tecnológico de Massachusetts (MIT, EEUU) Aude Oliva, que estudia la visión humana y de máquinas, ha desarrollado una base de datos que contiene más de 10 millones de diferentes escenas específicas. Este proyecto busca inspirar el desarrollo de algoritmos capaces de describir la misma escena de distintas maneras, como tienden a hacer los humanos. Ollivia dice que Visual Genome y otras bases de datos similares ayudarán a impulsar la visión de máquinas, pero cree que los investigadores de IA tendrán que inspirarse en la biología si quieren construir máquinas con capacidades verdaderamente humanas.

"Los humanos derivan sus conclusiones y su intuición de muchos conocimientos, el sentido común, experiencias sensoriales, recuerdos e ideas que no se siempre se pueden transmitir mediante el lenguaje escrito o hablado", afirma Olivia. "Sin conocer cómo el cerebro humano genera ideas, resultará complicado enseñar sentido común y comprensión visual a un sistema artificial. La neurociencia y las ciencias informáticas son las dos caras de la moneda de la IA".

Computación

Las máquinas cada vez más potentes están acelerando los avances científicos, los negocios y la vida.

  1. Google anuncia un hito hacia la computación cuántica sin errores

    Una técnica llamada “código de superficie” permite a los bits cuánticos de la empresa almacenar y manipular datos fielmente durante más tiempo, lo que podría allanar el camino a ordenadores cuánticos útiles

  2. El vídeo es el rey: bienvenido a la era del contenido audiovisual

    Cada vez aprendemos y nos comunicamos más a través de la imagen en movimiento. Esto cambiará nuestra cultura de manera inimaginable

    Dos personas creando contenido en formato vídeo
  3. Esta empresa quiere superar a Google e IBM en la carrera cuántica con un superordenador de fotones

    La empresa quiere construir una computadora que contenga hasta un millón de cúbits en un campus de Chicago