Ms Tech | Getty

Inteligencia Artificial

Meta enseña varias habilidades a una IA con aprendizaje autosupervisado

Aunque los humanos lo aprendemos casi todo de esta forma, el campo de la inteligencia artificial ha ignorado bastante esta técnica. La red social la ha usado para que un algoritmo reconozca imágenes, texto y voz, con resultados que igualan o incluso superan a los métodos de aprendizaje convencionales

por Will Douglas Heaven | traducido por Ana Milutinovic
26 Enero, 2022

Si usted es capaz de reconocer a un perro cuando lo ve, entonces probablemente pueda reconocer a un perro cuando se lo describen con palabras. Pero ese no es el caso de la inteligencia artificial (IA) actual. Las redes neuronales profundas se han vuelto muy buenas a la hora de identificar objetos en imágenes y conversar en lenguaje natural, pero no al mismo tiempo: hay modelos de IA que sobresalen en uno u otro, pero no en ambos.

Parte del problema consiste en que estos modelos aprenden diferentes habilidades usando distintas técnicas, y eso es un gran obstáculo para el desarrollo de la IA de propósito general (máquinas capaces de realizar múltiples tareas y adaptarse). También significa que los avances en el aprendizaje profundo de una habilidad a menudo no se pueden transferir a otras.

El equipo de Meta AI (anteriormente Facebook AI Research) está intentando cambiar eso. Los investigadores han desarrollado un algoritmo que se puede utilizar para entrenar una red neuronal para que reconozca imágenes, texto o voz. Ese algoritmo, denominado Data2vec, no solo unifica el proceso de aprendizaje, sino que funciona igual de bien que las técnicas existentes en las tres habilidades. El investigador de Meta AI Michael Auli afirma: "Esperamos que así cambie la forma en la que la gente piensa sobre este tipo de trabajo".

La investigación se basa en un enfoque conocido como aprendizaje autosupervisado (o aprendizaje no supervisado, por humanos, claro), en el que las redes neuronales aprenden a detectar patrones en conjuntos de datos por sí mismas, sin guiarse por ejemplos etiquetados. Así es como los grandes modelos de lenguaje como GPT-3 aprenden de los enormes conjuntos de texto no etiquetado extraído de internet, y eso ha impulsado muchos de los recientes avances en el aprendizaje profundo.

Auli y sus colegas de Meta AI trabajaban en el aprendizaje autosupervisado para el reconocimiento de voz. Pero cuando vieron lo que otros investigadores hacían con imágenes y texto, se dieron cuenta de que todos usaban diferentes técnicas para conseguir los mismos objetivos.

Data2vec utiliza dos redes neuronales, una que aprende como un alumno y otra que enseña como un maestro. Primero la red que enseña se entrena de la forma habitual en imágenes, texto o lenguaje, aprendiendo una representación interna de estos datos que le permite predecir lo que ve cuando se le muestran nuevos ejemplos. Cuando le aparece una imagen de un perro, lo reconoce como un perro.

La novedad reside en que la red que aprende como un alumno luego se entrena para predecir las representaciones internas del maestro. En otras palabras, no se entrena para identificar que está viendo una imagen de un perro cuando se le muestra, sino para adivinar qué ve el maestro cuando se le muestra esa imagen.

Como el alumno no trata de acertar la imagen o la frase real, sino la representación del maestro de esa imagen o frase, el algoritmo no necesita adaptarse a un tipo específico de input.

Data2vec es parte de una gran tendencia en IA hacia los modelos que pueden aprender a comprender el mundo en más de una forma. "Es una idea inteligente. Es un avance prometedor en cuanto los sistemas de aprendizaje generalizados", reconoce el profesor del Instituto Allen para IA de Seattle (EE. UU.) Ani Kembhavi, que trabaja en la visión artificial y el lenguaje.

Un detalle importante es que, aunque el mismo algoritmo de aprendizaje se puede usar para diferentes habilidades, solo puede aprender una a la vez. Cuando aprende a reconocer imágenes, debe empezar de cero para aprender a reconocer el lenguaje. Darle a una IA múltiples habilidades a la vez es difícil, pero eso es algo que el equipo de Meta AI quiere intentar a continuación.

Los investigadores se sorprendieron al descubrir que, en realidad, su enfoque funcionaba mejor que las técnicas existentes para el reconocimiento de imágenes y voz, y en la comprensión de texto funcionaba igual de bien que los principales modelos de lenguaje.

Mark Zuckerberg ya está soñando con posibles aplicaciones de este avance en el metaverso. En una reciente publicación de Facebook dijo: "Al final, todo esto se integrará en las gafas de realidad aumentada con un asistente de inteligencia artificial. Podría ayudarnos a cocinar, avisándonos si nos olvidamos de algún ingrediente, indicándonos bajar el fuego o en otras tareas más complejas".

Para Auli, la conclusión principal es que los investigadores deberían salir de sus silos. Y concluye: "No hace falta centrarse en una sola cosa. Una buena idea podría servir en todos los ámbitos".

Inteligencia Artificial

Meta enseña varias habilidades a una IA con aprendizaje autosupervisado

Minería paralela de datos, la técnica del nuevo traductor de Meta para dominar más de 100 idiomas

Convirtiendo los trinos en datos: esta IA estudia la migración de las aves a través del sonido

Mundos virtuales generativos y modelos que "razonan": qué nos depara la IA en 2025