Noah Berger / AP

Inteligencia Artificial

"El aprendizaje profundo va a ser capaz de hacer cualquier cosa"

El padre de este enfoque de inteligencia artificial, Geoffrey Hinton, lleva 30 años convencido de su potencial, aunque no consiguió demostrarlo hasta hace poco. Ahora, casi todo el campo usa su técnica para lograr avances espectaculares, pero aún queda mucho para que las máquinas adquieran una comprensión similar a la humana

por Karen Hao | traducido por Ana Milutinovic
06 Noviembre, 2020

Sobre las brechas en el campo de la inteligencia artificial (IA): "Deberá haber bastantes avances conceptuales... también necesitamos un aumento masivo en la escala".

Sobre las carencias de las redes neuronales: "Las redes neuronales son sorprendentemente buenas para manejar una cantidad bastante pequeña de datos, con una gran cantidad de parámetros, pero las personas son mejores".

Sobre cómo funcionan nuestros cerebros: "Lo que hay dentro del cerebro son grandes vectores de actividad neuronal".

La revolución moderna de la inteligencia artificial comenzó durante un extraño concurso de investigación. Era 2012, el tercer año de la competición anual ImageNet, que retaba a los equipos concursantes a construir sistemas de visión artificial capaces de reconocer 1.000 objetos, desde animales hasta paisajes y personas.

En los dos primeros años, ni los mejores equipos habían logrado alcanzar una precisión del 75 %. Pero en el tercero, un grupo de tres investigadores, un profesor y sus dos estudiantes, de repente sobrepasó este límite. Ganaron el concurso por una asombrosa diferencia del 10,8 %. Ese profesor era Geoffrey Hinton, y la técnica que utilizaron se bautizó como aprendizaje profundo.

En realidad, Hinton llevaba trabajando en el aprendizaje profundo desde la década de 1980, pero su efectividad se había visto limitada por la falta de datos y potencia computacional. Su firme creencia en esta técnica finalmente produjo enormes beneficios. En la cuarta edición del concurso ImageNet, casi todos los equipos usaron el aprendizaje profundo para lograr niveles de precisión milagrosos. Muy pronto, el aprendizaje profundo se empezó a aplicar a tareas más allá del reconocimiento de imágenes, y también dentro de una amplia variedad de industrias.

El año pasado, junto con los también pioneros de la inteligencia artificial Yann LeCun y Yoshua Bengio, Hinton recibió el premio Turing por sus contribuciones fundamentales al campo. El 20 de octubre, hablé con él en la conferencia anual EmTech MIT de MIT Technology Review sobre la situación en el campo y cuál creía que debería ser su próxima dirección.

Cree que el aprendizaje profundo será suficiente para igualar a la inteligencia humana. ¿Qué le hace estar tan seguro?

Creo que el aprendizaje profundo será capaz de hacerlo todo, pero considero que todavía hacen falta bastantes avances conceptuales. Por ejemplo, en 2017 Ashish Vaswani et al presentó los transformadores, que encuentran vectores realmente buenos que representan el significado de las palabras. Fue un gran avance conceptual. Ahora se utiliza en casi todos los mejores procesos de lenguaje natural. Vamos a necesitar muchos más descubrimientos como ese.

Y si se producen esos avances, ¿seremos capaces de aproximar a toda la inteligencia humana a través del aprendizaje profundo?

Sí. Concretamente los avances relacionados con la forma en la que grandes vectores de actividad neuronal implementen algo como la razón. Pero también necesitamos un aumento masivo de escala. El cerebro humano tiene alrededor de 100 billones de parámetros o sinapsis. Lo que actualmente consideramos un modelo realmente grande, como GPT-3, tiene 175.000 millones. Es 1.000 veces más pequeño que el cerebro. Actualmente GPT-3 puede generar texto bastante convincente, pero aún es pequeño en comparación con el cerebro.

Cuando dice escala, ¿se refiere a las redes neuronales más grandes, a más datos o ambos?

Ambos. Existe una especie de contradicción entre lo que sucede en informática y lo que ocurre con las personas. Las personas tienen una gran cantidad de parámetros en comparación con la cantidad de datos que reciben. Las redes neuronales son sorprendentemente buenas para manejar una cantidad bastante pequeña de datos, con una gran cantidad de parámetros, pero las personas son todavía mejores.

Mucha gente en el campo cree que el sentido común es la próxima gran capacidad a abordar. ¿Está de acuerdo?

Estoy de acuerdo en que esa es una de las cosas más importantes. También creo que el control motor es muy importante, y las redes neuronales profundas ya se están volviendo buenas en eso. En especial, algunos trabajos recientes en Google han demostrado que es posible lograr un control fino de la motricidad y combinarlo con el lenguaje, de modo que se puede abrir un cajón y sacar un bloque, y el sistema es capaz de decir en lenguaje natural lo que está haciendo.

Para sistemas como GPT-3, que genera este maravilloso texto, está claro que debe comprender muchas cosas para generar ese texto, pero no se sabe cuánto comprende. Pero, si algo abre el cajón y saca un bloque y dice: "Acabo de abrir un cajón y he sacado un bloque", es difícil decir que no entiende lo que hace.

El campo de la IA siempre ha considerado al cerebro humano como su mayor fuente de inspiración, y los diferentes enfoques de IA derivan de las distintas teorías de la ciencia cognitiva. ¿Cree que el cerebro realmente construye las representaciones del mundo externo para comprenderlo, o es solo una forma útil de pensar sobre él?

Hace mucho tiempo, en las ciencias cognitivas, hubo un debate entre dos escuelas de pensamiento. Una estaba liderada por Stephen Kosslyn, quien creía que cuando manipulamos imágenes visuales en nuestra mente, lo que tenemos es una variedad de píxeles que estamos moviendo. La otra escuela estaba más en línea con la IA convencional. Decía: "No, no, eso es una tontería. Se trata de descripciones estructurales jerárquicas. Hay una estructura simbólica en nuestra mente, y eso es lo que manejamos".

Creo que ambas cometían el mismo error. Kosslyn pensó que manipulamos píxeles porque las imágenes externas están hechas de píxeles, y esa es una representación que entendemos. La otra escuela pensó que manipulamos los símbolos porque también representamos cosas con símbolos, y esa es una representación que entendemos. Creo que eso es igualmente incorrecto. Lo que hay dentro del cerebro son grandes vectores de actividad neuronal.

Hay quien todavía cree que la representación simbólica es uno de los enfoques correctos para la IA.

Absolutamente. Tengo buenos amigos, como Héctor Levesque, que realmente cree en el enfoque simbólico y ha hecho un gran trabajo al respecto. No estoy de acuerdo con él, pero el enfoque simbólico es un intento perfectamente razonable. Pero, supongo que al final, nos daremos cuenta de que los símbolos simplemente existen en el mundo externo y que realizamos operaciones internas en los grandes vectores.

¿Cuál cree que es su opinión más contraria sobre el futuro de la IA?

Bueno, mi problema es que tengo estos puntos de vista contrarios y luego, cinco años después, se convierten en la tendencia dominante. La mayoría de mis opiniones contrarias de la década de 1980 ahora se aceptan ampliamente. Actualmente es bastante difícil encontrar a alguna persona que no esté de acuerdo con ellas. Así que sí, mis opiniones contrarias me han afectado un poco.

Inteligencia Artificial

"El aprendizaje profundo va a ser capaz de hacer cualquier cosa"

Qué anticipan los errores de la IA en 2024 sobre su futuro

De la creatividad humana a la automatización: la IA agrava la precariedad en la traducción de manga

La IA llega a los videojuegos: la versión de Minecraft que presenta un mundo generado automáticamente en tiempo real