Gary Marcus y Danny Lange son dos de los mayores expertos internacionales en inteligencia artificial con visiones totalmente opuestas. El primero cree que la tecnología solo podrá avanzar con combinaciones de distintos enfoques y técnicas. El segundo es un firme defensor del potencial del aprendizaje profundo
Desde la década de 1950, la inteligencia artificial (IA) ha hecho muchas promesas cuyos resultados casi nunca han estado a la altura. Aunque en los últimos años sí que se han visto increíbles progresos gracias al aprendizaje profundo, la IA sigue teniendo grandes limitaciones: es vulnerable frente a los ataques, no se puede generalizar para adaptarse a entornos cambiantes y está plagada de sesgos. Todos estos desafíos dificultan la confianza en la tecnología y limitan su potencial para beneficiar a la sociedad.
¿Cómo podrían los investigadores del campo superar estos problemas? Dos de los principales expertos del sector debatieron esta cuestión en el reciente evento EmTech Digital de MIT Technology Review.
Uno de ellos fue el destacado profesor de la Universidad de Nueva York (EE. UU.) y fundador y CEO de Robust.AI, Gary Marcus (GM), famoso crítico del aprendizaje profundo. En su libro Rebooting AI, publicado el año pasado, argumentó que las deficiencias de IA eran inherentes a la técnica. Por lo tanto, los investigadores deberían mirar más allá del aprendizaje profundo, según él, y combinarlo con la IA convencional o simbólica, sistemas que codifican el conocimiento y resultan capaces de razonar.
El otro fue el vicepresidente de IA y Aprendizaje Automático de Unity, Danny Lange (DL), firme defensor del aprendizaje profundo. El experto ha desarrollado toda su carrera basándose en el potencial de esta técnica, como director de aprendizaje automático en Uber, director general de Amazon Machine Learning y líder de producto en Microsoft especializado en el aprendizaje automático a gran escala. En Unit ayuda a los laboratorios como DeepMind y OpenAI a construir entornos virtuales de entrenamiento que enseñan a sus algoritmos una parte del mundo.
Durante la conferencia, cada participante hizo una breve presentación para dar paso al debate. Sus desacuerdos reflejan muchos de los enfrentamientos dentro del campo, destacando lo fuerte que se ha moldeado la tecnología por una constante batalla de ideas y la poca seguridad que hay sobre el camino que tomará en el futuro.
Gary, usted recurre a su experiencia en neurociencia y psicología para encontrar lo que falta actualmente en la IA. ¿Qué cree que tiene la IA convencional que sería el sistema adecuado para combinarlo con el aprendizaje profundo?
GM: Lo primero que diré es que podríamos necesitar sistemas híbridos todavía más complicados que el simple aprendizaje profundo con la IA convencional. Necesitamos eso por lo menos. Pero podría haber un montón de cosas que ni siquiera hemos podido imaginar todavía. Debemos tener la mente abierta.
¿Por qué añadir la IA convencional a esa mezcla? Bueno, realizamos todo tipo de razonamientos basados en nuestros conocimientos del mundo. El aprendizaje profundo simplemente no representa eso. En esos sistemas no hay forma de representar qué es una pelota y qué una botella y ni cómo interactúan entre sí. Por lo tanto, los resultados parecen geniales, pero no son demasiado generalizables.
La IA convencional es la cabina de mando. Puede, por ejemplo, analizar una frase por su representación semántica, o tener conocimiento sobre lo que ocurre en el mundo y luego sacar conclusiones sobre eso. Tiene sus propios problemas: generalmente no tiene suficiente alcance, porque hay demasiado material escrito a mano, etcétera. Pero al menos en principio, es la única forma con la que sabemos crear sistemas capaces de algo como una conclusión lógica e inductiva sobre el conocimiento abstracto. Eso todavía no significa que siempre tenga la razón, pero es lo mejor que tenemos y con diferencia.
Y luego existe mucha evidencia psicológica de que las personas pueden llevar a cabo algún nivel de representación simbólica. En mi vida anterior cuando trabajaba en desarrollo cognitivo, realicé experimentos con bebés de siete meses y demostré que podían generalizar el conocimiento simbólico. Entonces, si un bebé de siete meses puede hacerlo, ¿por qué seguimos intentando crear IA sin los mecanismos que tienen los bebés?
¿Ha visto algún proyecto en el que se hayan combinado con éxito el aprendizaje profundo y la IA simbólica de manera prometedora?
GM: En un artículo que escribí titulado La próxima década en la IA, enumeré alrededor de 20 proyectos recientes que intentan crear modelos híbridos con aprendizaje profundo y conocimiento simbólico. Un ejemplo que todos conocen es el buscador de Google. Cuando escribimos una consulta de búsqueda, hay algo de IA convencional que intenta eliminar las ambigüedades de las palabras. Intenta descubrir cuándo escribimos "París", sí hablamos de Paris Hilton, París, Texas (EE. UU.) o París, Francia, utilizando el esquema de conocimiento de Google. Y luego utiliza el aprendizaje profundo para llevar a cabo otras cosas, por ejemplo, para encontrar sinónimos mediante el modelo BERT. Por supuesto, el buscador de Google no es la IA que esperamos lograr, pero es una prueba bastante sólida de que no se trata de un sueño imposible.
Danny, ¿está usted de acuerdo en que deberíamos buscar estos modelos híbridos?
DL: No, no estoy de acuerdo. El problema que tengo con la IA simbólica es que intenta imitar el cerebro humano en un sentido muy profundo. Es un poco como si quisiéramos un transporte más rápido en el siglo XVIII y trabajáramos en un caballo mecánico en lugar de inventar el motor de combustión. Así que no creo en el enfoque de resolver la IA tratando de imitar el cerebro humano.
El aprendizaje profundo no es necesariamente una bala de plata, pero si lo alimentamos con suficientes datos y tiene la arquitectura adecuada de red neuronal, podría aprender abstracciones que nosotros como humanos no sabemos interpretar, y eso hace que el sistema sea muy eficiente para resolver una amplia variedad de tareas.
Parece que, básicamente, ustedes no están de acuerdo sobre el objetivo de la IA.
GM: Creo que eso es un poco irónico. Cuando tuve un debate con Yoshua Bengio en diciembre, afirmó que el único esfuerzo del aprendizaje profundo consistía en tener una base neurológica. Así que he escuchado los dos extremos opuestos del aprendizaje profundo. Eso resulta un poco extraño, y no creo que debamos tomar en serio esos argumentos.
En cambio, deberíamos preguntarnos: "¿Los símbolos nos podrían ayudar?" Y la respuesta es contundentemente afirmativa. Casi todo el software del mundo está construido sobre símbolos. Luego hay que preguntarse: "Empíricamente, ¿el aprendizaje profundo hace lo que queremos que haga?" Y el problema hasta ahora es que ha existido sin modelo. Vicarious [la start-up de robótica industrial impulsada por IA] hizo una gran demostración de un sistema de aprendizaje de juegos Atari que DeepMind popularizó bastante, donde aprendió a jugar al Breakout a un nivel sobrehumano. Pero, luego, Vicarious cambió unos pocos píxeles y todo se vino abajo, porque el nivel de aprendizaje era demasiado superficial. No tenía el concepto de una raqueta, de una pelota, de un juego de bloques. Un algoritmo simbólico para Breakout podría equilibrar todo eso y de forma muy fácil.
La razón de inspirarse en los seres humanos es porque hay ciertas cosas que las personas hacen mucho mejor que los sistemas del aprendizaje profundo. Eso no significa que los seres humanos sean el modelo correcto. Queremos sistemas que tengan algunas propiedades de los ordenadores y otras propiedades prestadas de las personas. No queremos que nuestros sistemas de inteligencia artificial tengan mala memoria solo porque la gente la tiene. Pero, dado que las personas son el único modelo de un sistema capaz de desarrollar una comprensión profunda de algo, literalmente el único modelo que tenemos, debemos tomar ese modelo en serio.
DL: Sí, entonces el ejemplo de que los lenguajes de programación de todo el mundo se basan en símbolos, resulta así porque están diseñados para que los seres humanos implementen sus ideas y pensamientos.
El aprendizaje profundo no es una réplica del cerebro humano. Tal vez se pueda decir que está inspirado en el mundo neuronal, pero se trata de una pieza de software. Realmente todavía no hemos profundizado tanto con el aprendizaje profundo. Hasta ahora, solo hemos tenido una cantidad limitada de datos de entrenamiento. También tuvimos estructuras limitadas con potencia de cálculo limitada. Pero el punto clave es que el aprendizaje profundo aprende el concepto, aprende las características. No es algo de ingeniería humana. Creo que la gran diferencia entre el enfoque de Gary y el mío consiste en si los ingenieros humanos le dan inteligencia al sistema o si el sistema aprende su propia inteligencia.
Danny, usted menciona que realmente no hemos visto el potencial del aprendizaje profundo en su totalidad debido a las limitaciones en los datos y en el cómputo. Dado que el aprendizaje profundo resulta tan ineficiente, ¿no deberíamos desarrollar nuevas técnicas? Hemos tenido que aumentar drásticamente el cómputo para descubrir las nuevas habilidades del aprendizaje profundo.
DL: Uno de los problemas del aprendizaje profundo es que, hasta ahora, se ha basado en una especie de enfoque convencional: hay que generar un gran conjunto de datos de entrenamiento y luego incorporarlo. Algo que realmente podría mejorar el aprendizaje profundo es un proceso activo de aprendizaje donde la red se entrena para optimizar los datos de entrenamiento. No solo es necesario introducir una enorme cantidad de datos para mejorar el proceso de aprendizaje. Se podrían ir ajustando constantemente los datos de entrenamiento para dirigirlos hacia un área específica.
Gary, usted señala las vulnerabilidades del aprendizaje profundo ante los sesgos y los ataques antagónicos. Danny, usted ha mencionado que los datos sintéticos son una solución en este caso porque "no hay sesgos", y es posible ejecutar millones de simulaciones que supuestamente eliminarían las vulnerabilidades antagónicas. ¿Cuáles son las respuestas a eso de cada uno?
GM: Los datos por sí solos aún no representan una solución. Los datos sintéticos no ayudarán a resolver los sesgos en cuanto los préstamos o en entrevistas de trabajo. El verdadero problema consiste en que estos sistemas tienden a mantener los sesgos que ya existían por motivos históricos. No parece que los datos sintéticos sean la solución, a diferencia de construir sistemas suficientemente sofisticados como para comprender los sesgos culturales que queremos eliminar.
Los ataques antagónicos son algo diferente. Los datos podrían ayudar con algunos de ellos, pero hasta ahora no hemos eliminado los distintos tipos de ataques antagónicos. Le he enseñado un ejemplo de una pelota de béisbol con espuma por encima que fue identificada como un café expreso. Si alguien piensa de antemano hacer en una simulación con pelotas de béisbol y café expreso y las etiqueta cuidadosamente, está bien. Siempre habrá casos en los que nadie haya pensado. Un sistema basado puramente en datos seguirá siendo vulnerable.
DL: Los datos del mundo real están muy sesgados, no importa lo que se haga. Se reúnen datos de un entorno determinado, por ejemplo, para vehículos autónomos, y hay una representación de aproximadamente 90 % de adultos y 10 % de niños en las calles. Esa sería la distribución normal. Pero un sistema de aprendizaje automático se debe entrenar con las mismas cantidades de adultos y niños para evitar chocar contra ellos. Por eso, con los datos sintéticos, básicamente es posible equilibrar esto y evitar el sesgo si se tiene cuidado. Eso no significa que no se puedan crear nuevos sesgos. Hay que tener cuidado con eso. Lo que sí es cierto es que se resuelven los problemas de privacidad, porque no hay personas o niños reales en ninguno de los datos de entrenamiento.
En cuanto a los ejemplos antagónicos, el problema con muchos de ellos consiste en que se desarrollan básicamente con modelos deficientes de visión artificial, son modelos que han sido entrenados con 10 o 20 millones de imágenes, por ejemplo, de ImageNet. Eso está lejos de ser suficiente para generalizar de verdad un modelo. Necesitamos grandes cantidades de conjuntos de datos con increíbles cantidades de aleatorización de entornos para generalizar estos modelos de visión artificial para que realmente no se dejen engañar.
¿Qué es lo que más le entusiasma sobre el futuro de la IA?
GM: Ha habido un verdadero avance hacia los modelos híbridos en el último año. La gente está explorando cosas nuevas que no se hacían antes, y eso es fascinante.
DL: Creo que, en realidad, son los sistemas multimodelo, sistemas compuestos de muchos modelos diferentes de percepción y comportamiento combinados para resolver tareas realmente complejas.