La IA ya entiende fotos, vídeos y textos, pero para ello necesita que un humano etiquete la información y se la enseñe. Para adquirir un nivel de inteligencia humana necesita aprender sola
En 2012, el mundo descubrió un sorprendente proyecto de investigación dentro del misterioso laboratorio X de Google. Una simulación gigante de tres millones de neuronas aprendió a reconocer a los gatos y personas en fotos, sin ayuda humana, sólo al observar unas imágenes de YouTube.
Los responsables del proyecto fundaron un nuevo grupo de investigación, el Google Brain, dentro de la división de búsquedas de la empresa. Este grupo, junto con otros investigadores externos, pronto demostró al mundo que las redes neuronales artificiales, una invención de hace un par de décadas, pueden entender las imágenes y el lenguaje con una precisión sin precedentes (ver Google pone a trabajar su tecnología de cerebro virtual). El éxito del aprendizaje profundo, como es conocida la técnica, incitó a Google, entre otros, a realizar fuertes inversiones en la inteligencia artificial y hasta ha llevado a algunos expertos a afirmar que debemos prepararnos para software que sea más inteligente que los humanos (ver Mil millones de dólares para evitar que la IA sea 'mala' con la humanidad).
Sin embargo, el detector de gatos de Google fue, en algunos sentidos, un callejón sin salida. Todos los logros del aprendizaje profundo se basan en un software que necesita ayuda humana para aprender. Esta dependencia limita el alcance de la inteligencia artificial (IA).
El experimento de Google utilizó un enfoque conocido como aprendizaje no supervisado, en el que el software es alimentado con datos brutos y debe arreglárselas solo sin intervención humana. Pero aunque aprendió a reconocer a gatos, caras y otros objetos, no fue lo suficientemente preciso para resultar útil. El auge de las investigaciones de aprendizaje profundo y los productos desarrollados a partir de él se basan en el aprendizaje supervisado, en el que se le proporciona al software datos etiquetados por humanos. Por ejemplo, imágenes etiquetadas con los nombres de los objetos que contienen (ver El hombre que enseña a las máquinas a entender el lenguaje).
Crédito: Daniel Zender
Ayudar a los softwares a aprender ha resultado ser increíblemente eficaz para muchos problemas, como identificar los objetos de las imágenes, filtrar los correos electrónicos de spam, y hasta sugerir respuestas cortas a los mensajes entrantes, una prestación lanzada por Google el año pasado. Pero si el software va a seguir mejorando su entendimiento del mundo es probable que el aprendizaje sin supervisar se vuelva más necesario, el líder actual de Google Brain, según Jeff Dean, que también trabajó en el proyecto de detector de gatos dentro de Google X.
Dean afirma: "Estoy bastante seguro de que lo necesitamos". El experto explica que "el aprendizaje supervisado funciona bien mientras se disponga del conjunto de datos correcto, pero al final el aprendizaje no supervisado será un componente muy importante para la construcción de sistemas realmente inteligentes", y añade: "Si examinamos cómo aprendemos los humanos, es casi siempre sin supervisión".
Así es, por ejemplo, como aprenden los bebés para establecer las bases de su inteligencia adulta. Los objetos siguen existiendo aunque no estén a la vista y se caen si no se apoyan sobre algo. Este aprendizaje se genera, simplemente, al observar el mundo, sin una instrucción explícita. Y si aspiramos a que los robots deambulen por el mundo con la misma eficiencia que los animales, necesitarán este tipo de sentido común, que también es el que permite aprender habilidades más abstractas, como entender el lenguaje.
Lograr que un software llegue a hacer lo que resulta tan fácil para los bebés humanos será decisivo si se quieren cumplir las mayores ambiciones de la inteligencia artificial. Así lo cree el director del grupo de investigaciones de Inteligencia Artificial de Facebook, Yann LeCun. El experto explica: "Todos sabemos que el aprendizaje no supervisado es la respuesta final, y resolverlo es lo que nos llevará al siguiente nivel".
Aunque no tienen aún esa respuesta final, investigadores académicos y de empresas como Facebook y Google están experimentando con técnicas limitadas de aprendizaje no supervisado.
Una línea de investigación intenta crear redes neuronales artificiales alimentadas con vídeos e imágenes. Después de haber analizado el contenido, el software debería de ser capaz de generar una nueva imagen a partir de los conocimientos adquiridos. Hacer predicciones precisas acerca del mundo es una importante característica base de la inteligencia humana.
Foto: La "óptima" cara humana, según una red de tres millones de neuronas simuladas que Google alimentó con imágenes de YouTube. Crédito: Google
Los investigadores de Facebook han desarrollado un software llamado EyeScream (Grito Ocular) que genera imágenes reconocibles a partir de instrucciones cortas como "iglesia" o "avión", y están trabajando en el diseño de un software que prediga lo que sucederá dentro de un vídeo. Investigadores de la filial de Google DeepMind han desarrollado un software que analiza una foto con algunas secciones tapadas en negro y que debe rellenar los huecos con unas imágenes realistas.
DeepMind también está probando una alternativa al aprendizaje supervisado llamado aprendizaje de refuerzo, en el que el software es entrenado con informaciones automatizadas sobre su rendimiento. Por ejemplo, a través de los datos del sistema de puntuación de un videojuego (ver Así es el hombre que diseña la inteligencia de Google). Y los investigadores que no emplean el aprendizaje profundo han probado otro software capaz de leer texto escrito a mano a partir de un solo ejemplo (ver Nace el ordenador capaz de leer un texto escrito a mano).
Pero, ninguna de estas vías parece ser la que conseguirá que el aprendizaje no supervisado llegue a un nivel aproximado al humano ni que aparezca un software capaz de aprender aspectos complejos sobre el mundo real de forma autónoma. "Ahora mismo, parece que nos falta una idea clave", afirma el director del laboratorio de Inteligencia Artificial de Silicon Valley (EEUU) de Baidu, Adam Coates, que trabaja para la empresa china líder de búsquedas por internet.
Pero mientras esta nueva idea aparece, Coates cree que el aprendizaje supervisado aún tiene mucho que ofrecernos. Las empresas de internet tienen acceso a una riqueza de datos sobre las cosas que hacemos y las que nos importan. Esta información puede ayudar a construir interfaces de voz y asistentes personales mucho más capacitados que los actuales. "A corto plazo, hay mucho que se puede conseguir con los datos etiquetados", afirma. Grandes empresas están invirtiendo millones de dólares en contratistas que etiqueten los datos que serán utilizados para alimentar sus sistemas de aprendizaje de máquinas.
LeCun de Facebook cree que los investigadores no dependerán eternamente de las bases de datos etiquetados. Aunque tampoco se atreve a predecir cuándo se producirá el cambio. El experto concluye: "Sabemos cuáles son los ingredientes, pero desconocemos la receta, y obtenerla podría llevar un tiempo".