La noche que Ian Goodfellow intentaba ayudar a unos amigos con un problema, no sabía que estaba a punto de hacer uno de los mayores avances de la historia de la inteligencia artificial: las redes generativas antagónicas, que permiten a los ordenadores crear y manipular la realidad
Una noche de 2014, Ian Goodfellow fue a tomarse una copa con un compañero de doctorado para celebrar que se había graduado. En Les 3 Brasseurs (los tres cerveceros), un popular bar de Montreal (Canadá), unos amigos le dijeron que si los podía ayudar con un complicado proyecto en el que estaban trabajando, un ordenador capaz de crear fotos de manera autónoma.
En ese momento los investigadores ya estaban usando redes neuronales (algoritmos que imitan el funcionamiento de la red neuronal del cerebro humano), como modelos generativos para crear datos plausibles. Pero sus resultados no eran demasiado buenos; las imágenes de rostros generadas por un ordenador solían estar borrosas o incluir errores, como no ponerle las orejas a una cara. El plan que proponían los amigos de Goodfellow era utilizar un análisis estadístico complejo de los elementos que componen una fotografía para ayudar a las máquinas a generar imágenes parecidas por sí solas. Pero su idea necesitaba un gran procesamiento numérico, así que Goodfellow les dijo que su plan no iba a funcionar.
En un futuro el rendimiento de las máquinas mejorará mucho gracias a su capacidad de entrenarse con datos en bruto y deducir por sí solas qué información es la más relevante
Mientras le daba vueltas al problema con una cerveza en la mano, Goodfellow tuvo una idea. ¿Qué pasaría si dos redes neuronales entre sí se enfrentaran? La idea no convenció demasiado a sus amigos, pero cuando llegó a casa, donde su novia ya estaba profundamente dormida, decidió intentarlo. Codificó su software durante la madrugada y luego lo probó. Funcionó a la primera.
Lo que Goodfellow inventó esa noche, se llama red generativa antagónica, o GAN (por sus siglas en inglés de generative adversial network). La técnica ha despertado tanto interés entre los especialistas del aprendizaje automático que Goodfellow se ha convertido en toda una estrella de la inteligencia artificial (IA).
Foto: Christie Hemm Klok
En los últimos años, los investigadores de IA han logrado avances impresionantes gracias al aprendizaje profundo. Si le proporciona suficientes imágenes a un sistema de aprendizaje profundo, aprenderá, por ejemplo, a reconocer a un peatón que está a punto de cruzar una calle. Este enfoque es el responsable de que existan automóviles que no necesitan un conductor humano y de la tecnología de conversación de la que dependen los asistentes virtuales como Alexa y Siri.
Supondrá un gran avance en para la rama de la IA conocida como "aprendizaje no supervisado"
Pero aunque a la IA se le daba muy bien reconocer caras, era incapaz de generarlas de forma realista. El objetivo de las GAN es dotar a las máquinas con algo parecido a la imaginación.
La capacidad de imaginar no solo les permitiría dibujar hermosas imágenes o componer música, también reduciría su dependencia de los humanos para aprender cosas sobre el mundo y cómo funciona. Hoy en día los programadores de inteligencia artificial suelen tener que decir a una máquina qué es exactamente lo que aparece en los datos de entrenamiento (qué millones de imágenes contienen a un peatón cruzando una calle y cuáles no). Además de ser un proceso caro, también requiere mucha mano de obra. Esto limita la capacidad de los máquinas para procesar datos que difieran un poco de la información de entrenamiento. En un futuro, su rendimiento mejorará mucho gracias a su capacidad de entrenarse con datos en bruto y deducir por sí solas qué información es la más relevante.
Esto supondría un gran avance en para la rama de la IA conocida como "aprendizaje no supervisado". Un vehículo autónomo podría aprenderse las diferentes condiciones de varios trayectos sin tener que salir del aparcamiento. Un robot podría anticipar los obstáculos que podría encontrarse en un almacén sin que tengan que llevarlo dentro del sitio.
Parte de lo que nos hace humanos es nuestra capacidad de imaginar y reflexionar sobre diferentes escenarios. Y cuando los futuros historiadores tecnológicos echen la vista atrás, es probable que vean a las GAN como un gran paso hacia la creación de máquinas con conciencia humana. El director científico del departamento de Inteligencia Artificial de Facebook, Yann LeCun, definió las GAN como "la mejor idea para el aprendizaje profundo de los últimos 20 años". Otro experto en IA, el exdirector científico de Baidu (China), Andrew NG, dijo que las GAN representan "un avance significativo y fundamental". Esto inspiró a una comunidad global en crecimiento de investigadores.
El señor de las GAN. Parte II: las dos redes
Goodfellow trabaja como investigador científico en Google Brain, en las oficinas centrales de la compañía en California (EE. UU.). Allí fue donde lo conocí hace poco, y el joven aún parecía sorprendido por su fama repentina, le parecía "un poco surrealista". Lo que quizás no sorprenda tanto es que después de su descubrimiento pase la mayor parte de su tiempo trabajando contra aquellos que desean utilizarlo para fines malvados.
La magia de GAN radica en la rivalidad entre las dos redes neuronales; imita juego del gato y el ratón entre un falsificador de arte y un detective que intentan burlarse en repetidas ocasiones. Las dos redes están entrenadas con el mismo conjunto de datos. La primera es la red generativa, que se encarga de producir resultados artificiales (como las fotos) lo más realistas posibles. La segunda red, conocida como discriminadora, compara los productos creados por la generativa con los datos de entrenamiento para intentar decidir cuáles son reales y cuáles son falsas. En función de sus suposiciones, la red generativa reajusta sus parámetros para crear nuevas imágenes. Y así sucesivamente hasta que la red discriminadora es incapaz de distinguir lo real de lo falso.
Foto: Una GAN entrenada con fotos de personas famosas reales produjo su propio conjunto de estrellas imaginarias. En la mayoría de los casos las falsificaciones eran bastante realistas. Crédito: NVIDIA
En un ejemplo que saltó a los medios el año pasado, los investigadores de Nvidia (una compañía de chips que invirtió mucho en inteligencia artificial) diseñaron una GAN para generar imágenes de personas famosas imaginarias a partir de fotos reales. No todas las falsificaciones de la red fueron perfectas, pero algunas eran increíblemente realistas. A diferencia de otros enfoques de aprendizaje automático que requieren decenas de miles de imágenes de entrenamiento, las GAN pueden rendir muy bien con unos pocos cientos de ejemplos.
Esta capacidad de imaginación todavía es algo limitada. Cuando una GAN es entrenada con varias fotos de perros, puede generar una imagen falsa de un perro de manera convincente con un patrón diferente de manchas, por ejemplo; pero no puede crear un animal completamente nuevo. La calidad de los datos originales con los que se entrena también influye en los resultados. Por ejemplo, una GAN comenzó a producir imágenes de gatos con letras al azar integradas en las imágenes. Como los datos de entrenamiento contenían memes de gatos sacados de internet, la máquina dedujo que las palabras formaban parte de lo que significa ser gato.
Foto: Hacer que las GAN funcionen correctamente puede ser complicado. Si hay problemas técnicos, los resultados pueden ser extraños. Crédito: Alec Radford
El investigador del aprendizaje automático de la Universidad de Washington (EE. UU.) Pedro Domingos señala que las GAN también son caprichosas. Si se puede engañar fácilmente al discriminador, la salida de la red generativa no será realista. Y calibrar el duelo de las dos redes neuronales puede ser complicado; lo que explica por qué las GAN a veces producen resultados extraños, como animales con dos cabezas.
A pesar de esto, los desafíos no han desanimado a los investigadores. Desde que Goodfellow y su equipo publicaron en 2014 el primer estudio sobre su descubrimiento, se han escrito muchos artículos relacionados con las GAN. Y hasta un gran admirador de la tecnología diseñó una página web, llamada "GAN zoo", dedicada a realizar un seguimiento de las diferentes versiones de la técnica que se han desarrollado.
Las aplicaciones más obvias son las tareas que necesitan muchos recursos visuales, como los videojuegos y la moda. Por ejemplo, ¿qué aspecto tendría un personaje de videojuego cuando corre bajo la lluvia? Con miras al futuro, Goodfellow cree que las GAN ayudarán a crear avances más importantes. El investigador afirma: "Hay muchas áreas científicas y de ingeniería donde se necesita optimizar algo", y cita ejemplos como medicamentos que deberían ser más efectivos y baterías que tendrían que ser más eficientes. "Esa va a ser la próxima gran ola", exclama.
En el campo de la física de partículas, los científicos utilizan potentes ordenadores para simular las probables interacciones de cientos de partículas subatómicas en máquinas como el Gran Colisionador de Hadrones del CERN (Suiza). Estas simulaciones son lentas y requieren muchísima potencia computacional. Investigadores de la Universidad de Yale y del Laboratorio Nacional Lawrence Berkeley (ambos en EE. UU.) han desarrollado una GAN que, después de haber entrenado con datos de otras simulaciones previas, aprendió a predecir con precisión cómo se comportaría una partícula concreta; algo que tarda menos en hacer que los métodos tradicionales.
Foto: La creación de Goodfellow se puede utilizar para imaginar todo tipo de cosas, incluidos nuevos diseños de interiores. Crédito: Ian Goodfellow.
La investigación médica es otro campo donde las GAN podrían ser muy prometedoras. Las cuestiones de privacidad a veces impiden que los investigadores dispongan de suficientes datos reales del paciente para analizar por qué un medicamente no funcionó, por ejemplo. El investigador de la Universidad de Pensilvania (EE. UU.) Casey Greene cree que las GAN pueden ayudar a resolver este problema generando registros falsos que serían casi igual de buenos que los reales. Esta información se podría compartir de manera más amplia y ayudaría a avanzar en la investigación, mientras que los registros reales están excesivamente protegidos.
El señor de las GAN. Parte III: el retorno de los malvados
Todas las monedas tienen dos caras. Una máquina diseñada para crear falsificaciones realistas es un arma perfecta para los proveedores de noticias falsas que desean manipular el mundo, desde los precios de las acciones hasta las elecciones. La inteligencia artificial ya está siendo usada para poner el rostro de otra persona en el cuerpo de actores porno y poner palabras en boca de políticos. Las GAN no crearon este problema, pero lo empeorarían.
El investigador del análisis forense digital del Dartmouth College (EE. UU.) Hany Farid se especializa en identificar vídeos falsos. Para ello, intenta detectar pequeños cambios en el color de las caras causados por la inhalación y la exhalación, algo que a las GAN se les dificulta imitar. Pero Farid advierte que las GAN también aprenderán a hacerlo, y alerta: "Nos encontramos en una posición débil".
Este juego del gato y el ratón también se producirá en el terreno de la seguridad informática. Ya hay voces que alertan del riesgo de ataques tipo caja negra, en los que se usan GAN para descubrir los modelos de aprendizaje automático con los que muchos programas de seguridad detectan el malware. Si se descubre cómo funciona el algoritmo defensivo, un atacante puede evadirlo e insertar un código falso. El mismo enfoque también podría utilizarse para eludir los filtros de correo no deseado y otras defensas.
"Hay muchas áreas científicas y de ingeniería donde se necesita optimizar algo. Esa va a ser la próxima gran ola"
Goodfellow es muy consciente de los peligros de su creación. El equipo de Google que dirige está centrado en mejorar la seguridad del aprendizaje automático. Pero advierte que la comunidad de la inteligencia artificial debe aprender la lección de otras olas previas de innovación, en las que los técnicos consideraron que la seguridad y la privacidad eran algo secundario. Cuando se dieron cuenta de los riesgos, los malos ya llevaban mucha ventaja. Goodfellow afirma: "Hemos avanzado desde que empezamos, pero esperamos poder dar pasos importantes en seguridad antes de que hayamos llegado demasiado lejos".
En cualquier caso, el padre de las GAN no cree que haya una solución puramente tecnológica contra la falsificación. Considera que tendremos que confiar en las herramientas sociales, como enseñar pensamiento crítico a los niños a través de clases de debate y oratoria. Goodfellow concluye: "En la oratoria y el debate se compite contra otro estudiante y continuamente hay que pensar en cómo redactar afirmaciones engañosas, o cómo crear afirmaciones correctas de manera persuasiva". Es probable que tenga razón, pero su conclusión de que la tecnología no puede solucionar el problema de las noticias falsas, no es algo que muchos quieran escuchar.