Inteligencia Artificial
Algoritmos sueltos en mundos virtuales en 3D aprenden por sí solos a entender el lenguaje
Google DeepMind y la Universidad Carnegie Mellon experimentan cómo lograr que algoritmos de inteligencia artificial aprendan por sí solos las particularidades del lenguaje natural dentro de entornos virtuales similares a los videojuegos en primera persona
Las máquinas están aprendiendo a interpretar y procesar órdenes simples gracias a la exploración de mundos virtuales en tres dimensiones.
La tecnología controlada por voz está en boga, y dispositivos como Alexa de Amazon y Google Home son los responsables. Sin embargo, de momento sólo se las apañan con comandos sencillos. Hoy en día, fabricar máquinas lo suficientemente inteligentes como para que puedan mantener una conversación real sigue siendo un reto muy difícil, sobre todo si no se cuenta con alguna base que explique cómo funciona el mundo físico.
Los intentos de resolver este problema a partir de codificar las relaciones que existen entre palabras, objetos y acciones implican reglas interminables, lo que impide que una máquina sea capaz de adaptarse a nuevas situaciones. Además, los intentos de que las máquinas aprendan cómo hablar e interpretar el lenguaje suelen requerir una asistencia humana notable.
Ahora, esto puede empezar a cambiar. Equipos de DeepMind -la empresa filial para inteligencia artificial (IA) de Alphabet- y la Universidad Carnegie Mellon (EEUU) han desarrollado una forma de que las máquinas puedan comprender y deducir por sí solas los principios simples del lenguaje dentro de ambientes tridimensionales basados en shooters, videojuegos de disparo en primera persona, para el ordenador.
"Ser capaz de hacer esto en tres dimensiones es sin duda un paso significativo para estar más cerca de conseguirlo en el mundo real", indica la estudiante de máster en Carnegie Mellon Devendra Chaplot, quien presentará una comunicación sobre el proyecto en el congreso anual de la Asociación de Lingüística Computacional. El último objetivo, explica, es crear una simulación tan parecida a la vida real que una inteligencia artificial entrenada en ella pueda transferir lo aprendido al mundo real.
Tanto el enfoque de DeepMind y como el de Carnegie Mellon utilizan aprendizaje reforzado profundo, la técnica popularizada por la inteligencia artificial jugadora de Atari de DeepMind. Para ello, una red neuronal se alimenta con datos de píxeles sin procesar de un entorno virtual y utiliza recompensas, como puntos en un juego de ordenador, para aprender por ensayo y error (ver TR10: Aprendizaje reforzado).
Normalmente, el objetivo del juego sería conseguir la puntuación más alta, pero en este caso los dos programas de IA recibieron instrucciones como "ir al pilar verde". Lo que tenían que hacer por tanto era desplazarse dentro del entorno para llegar al objeto correcto y recoger los premios.
Gracias al procesamiento de millones de escenarios de entrenamiento diferentes a grandes velocidades, los dos programas de IA aprendieron cómo asociar palabras con objetos y características particulares que les permitían cumplir con las órdenes. Los algoritmos llegaron a aprender incluso términos relacionales, como "mayor" o "menor", para diferenciar entre objetos similares.
Pero lo más importante de estos desarrollos es que ambos programas podrían "generalizar" y extrapolar lo aprendido para utilizarlo en otras situaciones diferentes que no hubieran experimentado todavía. De esta manera, si los escenarios de entrenamiento contenían pilares y objetos rojos, los programas sabrían responder al comando "ir al pilar rojo" sin haber visto uno antes.
Según Chaplot, esto convierte a los nuevos sistemas en mucho más flexibles que los anteriores basados únicamente en reglas. El equipo de Carnegie Mellon combinó la información visual y verbal de manera que la atención de la IA tuviera que centrarse en la información más relevante. Por otro lado, DeepMind dio a su sistema objetivos extras de aprendizaje -como adivinar cómo cambiaría su vista a medida que se mueve- para impulsar su rendimiento global. Cada proyecto aborda el problema desde un punto de vista diferente, por lo que combinarlos podría dar mejores resultados que por separado, apunta Chaplot.
Los investigadores de DeepMind no han querido hacer declaraciones sobre su trabajo.
"Estos trabajos son preliminares, pero creo que es muy emocionante ver el progreso que se está haciendo", opina el profesor de la Universidad de Washington y autor del libro sobre métodos de aprendizaje automático The Master Algorithm, Pedro Domingos.
El futuro de la IA: unir lenguaje y robótica
La investigación sigue la tendencia al alza en inteligencia artificial que defiende unir problemas complejos, como el lenguaje y el control robótico. En contra de lo que se pudiera esperar, sostiene Domingos, la unión facilita resolver ambos desafíos. La razón es que comprender el lenguaje es más fácil si se puede acceder al mundo físico al que se refiere, y aprender sobre ese mundo es más fácil con algo que te guíe.
Sin embargo, apunta Domingos, los millones de entrenamientos realizados que se requieren para el proceso ponen en duda que el aprendizaje reforzado profundo puro estalle en el mundo real. El profesor piensa que AlphaGo, desarrollado por DeepMind y a menudo considerado como un punto de referencia de la evolución de la inteligencia artificial, demuestra en realidad la importancia de incorporar una gran variedad de enfoques a la investigación de la IA.
El profesor de la Universidad de Brown especializado en aprendizaje reforzado Michael Littman piensa que los resultados son "impresionantes". También que la introducción en el sistema de información visual es mucho más compleja que la utilizada en trabajos anteriores. De hecho, destaca el profesor, la mayoría de los intentos previos de usar simuladores para enseñar los conceptos básicos del lenguaje se habían limitado hasta ahora a entornos sencillos en dos dimensiones.
Sin embargo, Littman se hace eco de las preocupaciones de Domingos acerca de la adaptabilidad de este enfoque al mundo real. Para él, una limitación es que los comandos de instrucciones se generan de una manera demasiado predecible basada en los objetivos definidos por el simulador. Esto supone que, en realidad, las indicaciones con las que trabajan no representan fielmente el tipo de instrucciones imprecisas y dependientes del contexto que las personas suelen dar a las máquinas en la vida real.
"Me preocupa que la gente observe que los ejemplos de la red [neuronal] responden de manera inteligente a comandos verbales, y entonces extrapolen la idea de que estas redes entienden el lenguaje y la navegación mucho más profundamente de lo que lo hacen en realidad", explica Littman.