Ms Tech | Pexels

Inteligencia Artificial

Evocación: el nuevo enfoque para que la IA pueda ver lo que dice

Consiste en combinar modelos de generación de lenguaje con visión artificial para ganar lo mejor de ambas técnicas mediante conjuntos de datos de lenguaje visual. Gracias a ella, la inteligencia artificial aprende a reconocer objetos y cómo se relacionan entre sí, utilizando verbos y preposiciones

por Karen Hao | traducido por Ana Milutinovic
13 Noviembre, 2020

Probablemente ya lo sabe porque lo hemos dicho en innumerables ocasiones: GPT-3, la gigantesca inteligencia artificial (IA) que genera lenguaje asombrosamente parecido al de los humanos, es una maravilla. Pero, también es un gran espejismo, y es fácil comprobarlo con un simple truco: pregúntele por el color de una oveja. Ante la pregunta, el modelo sugerirá tanto el "blanco" como el "negro", en un reflejo de la popular expresión "oveja negra".

Ese es el problema con los modelos de lenguaje: como solo se entrenan en texto, carecen de sentido común. Pero, los investigadores de la Universidad de Carolina del Norte en Chapel Hill (UNC, EE. UU.) han diseñado una nueva técnica para cambiarlo. La llaman "evocación" (vokenization), y confiere a los modelos de lenguaje como GPT-3 la capacidad de "ver" .

No es la primera vez que los modelos de lenguaje se intentan combinar con la visión artificial. En realidad se trata de un área de investigación de IA en rápido crecimiento. La idea consiste en que cada tipo de IA tiene sus propios puntos fuertes. Los modelos de lenguaje como GPT-3 se entrenan a través del aprendizaje no supervisado, que no requiere etiquetado manual de datos, lo que facilita ampliar su escala. En cambio, los modelos de imagen como los sistemas de reconocimiento de objetos, aprenden más directamente de la realidad. En otras palabras, su comprensión no depende del tipo de abstracción del mundo que proporciona el texto. Pueden "ver" que las ovejas en realidad son blancas.

Los modelos de IA que pueden analizar tanto el lenguaje como la información visual también tienen usos muy prácticos. Si queremos construir asistentes robóticos, por ejemplo, necesitarán visión artificial para navegar por el mundo y el lenguaje para comunicarse con los seres humanos.

Pero combinar los dos tipos de IA es más fácil decir que hacer. No es tan sencillo como juntar un modelo de lenguaje existente con un sistema de reconocimiento de objetos. Requiere entrenar un nuevo modelo desde cero con un conjunto de datos que incluye texto e imágenes, también conocido como conjunto de datos de lenguaje visual.

El enfoque más común para tener un conjunto de datos de este tipo consiste en reunir una colección de imágenes con pies de fotos descriptivos. Una imagen como la que se muestra a continuación, por ejemplo, tendría el siguiente pie de foto "Un gato naranja dentro de una maleta lista para cerrarse". Esto difiere de los típicos conjuntos de datos de imágenes, que etiquetarían la misma imagen con un solo sustantivo, como "gato". Por eso, un conjunto de datos de lenguaje e imagen puede enseñar a un modelo de IA no solo cómo reconocer objetos, sino cómo esos objetos se relacionan y actúan entre sí, utilizando verbos y preposiciones.

Pero es fácil ver por qué crear este tipo de conjunto de datos se demoraría una eternidad, por eso hay tan pocos. Un conjunto de datos popular de solo texto como Wikipedia en inglés (que de hecho incluye casi todas las entradas de Wikipedia en inglés) podría contener casi 3.000 millones de palabras. Un conjunto de datos de lenguaje e imagen como Microsoft Common Objects in Context, o MS COCO, tiene solo siete millones. Simplemente no hay suficientes datos para entrenar un modelo de IA para que haga algo útil.

La evocación soluciona este problema, utilizando métodos de aprendizaje no supervisados para escalar la pequeña cantidad de datos de MS COCO al tamaño de Wikipedia en inglés. El modelo resultante de lenguaje e imagen supera a los actuales modelos más avanzados en algunas de las pruebas más difíciles para evaluar la comprensión del lenguaje de la IA.

"No se puede superar la tecnología de vanguardia con un único y pequeño intento. No se trata de una prueba cualquiera. Por eso es tan fascinante", asegura el cofundador y director científico de la start-up de procesamiento de lenguaje natural Hugging Face, Thomas Wolf, que no formó parte de la investigación.

Del token al voquen

Primero aclaremos un poco la terminología. ¿Qué diablos es un "voquen" o evocador (voken)?

En la jerga de la IA, las palabras que se utilizan para entrenar los modelos de lenguaje se conocen como tokens. Así que los investigadores de la UNC decidieron dar el nombre de evocador o voquen (voken) a la imagen asociada con cada token en su modelo de lenguaje e imagen. Vokenizer es como ellos denominan el algoritmo que encuentra ese evocador para cada token, y la vokenization o evocación es todo el proceso.

El objetivo no solo consiste en mostrar lo mucho que a los investigadores de IA les gusta inventar palabras. (Realmente les encanta). También ayuda a explicar la idea básica detrás de la vokenización. En vez de comenzar con un conjunto de datos de imágenes y escribir frases manualmente para que sirvan como pies de foto (un proceso muy lento), los investigadores de la UNC empezaron con un conjunto de datos de lenguaje y utilizaron el aprendizaje no supervisado para emparejar cada palabra con una imagen relevante (más sobre esto más adelante). Se trata de un proceso fácilmente escalable.

Al final, la técnica de aprendizaje sin supervisión, en este caso, representa la contribución del artículo. ¿Cómo encontrar una imagen relevante para cada palabra?

Evocación

Volvamos por un momento a GPT-3, que forma parte de una familia de modelos de lenguaje conocidos como transformadores, que supusieron un gran avance en la aplicación del aprendizaje no supervisado al procesamiento de lenguaje natural (PLN) cuando se introdujeron por primera vez en 2017.

Los transformadores aprenden los patrones del lenguaje humano al observar cómo se usan las palabras en un contexto y crear una representación matemática de cada palabra, conocida como "incrustación de palabras", basada en ese contexto. La incrustación de la palabra "gato" puede mostrar, por ejemplo, que se usa con frecuencia alrededor de las palabras "miau" y "naranja", pero con menos frecuencia cerca de las palabras "ladrar" o "azul".

Así es como los transformadores aproximan los significados de las palabras y lo que permite a GPT-3 escribir frases que parecen tan humanas. Se basa en parte en estas incrustaciones para saber cómo juntar las palabras en frases y las frases en párrafos.

Existe una técnica paralela que también se puede utilizar para las imágenes. En vez de escanear todo el texto en busca de patrones de uso de las palabras, se escanean las imágenes en busca de patrones visuales. Se determina la frecuencia con la que un gato, por ejemplo, aparece en una cama en comparación con un árbol, y crea la incrustación de un "gato" con esta información contextual.

La idea de los investigadores de la UNC fue utilizar ambas técnicas de incrustación en MS COCO. Convirtieron las imágenes en incrustaciones visuales y los pies de fotos en incrustaciones de palabras. Lo realmente bueno de estas incrustaciones es que luego se pueden trasladar a un espacio tridimensional y se puede ver, literalmente, cómo se relacionan entre sí. Las incrustaciones visuales estrechamente relacionadas con las incrustaciones de palabras aparecerán más cerca en un gráfico. En otras palabras, la incrustación visual del gato debería (en teoría) superponerse con la incrustación del gato basada en texto. Es muy bueno.

Parece evidente a dónde va esto. Cuando todas las incrustaciones se colocan en un gráfico y se comparan y relacionan entre sí, es fácil comenzar a juntar las imágenes (evocadores) con palabras (tokens). Y no hay que olvidar que debido a que las imágenes y las palabras se combinan en función de sus incrustaciones, también se relacionan en función del contexto. Esto es útil cuando una palabra tiene significados totalmente diferentes. La técnica lo maneja con éxito al encontrar diferentes vóquens para cada uso de esa palabra.

Por ejemplo:

Aquí está su contacto.

A algunos gatos les encanta el contacto humano.

En ambos ejemplos, el token es la palabra "contacto". Pero en la primera frase, el contexto sugiere que la palabra se refiere a la información de contacto, por lo que el evocador es el ícono de contacto. En la segunda oración, el contexto sugiere que la palabra se refiere al tacto, por lo que el voquen muestra a un gato siendo acariciado.

Los investigadores utilizaron las incrustaciones visuales y de palabras que crearon con MS para entrenar su algoritmo evocador. Una vez entrenado, pudo encontrar evocadores para los tokens en la Wikipedia en inglés. No es perfecto. El algoritmo solo encontró vóquenes para aproximadamente el 40 % de los tokens. Pero eso sigue siendo el 40 % de un conjunto de datos con casi 3.000 millones de palabras.

Con este nuevo conjunto de datos, los investigadores volvieron a entrenar un modelo de lenguaje conocido como BERT, un transformador de código abierto desarrollado por Google previo a GPT-3. Luego probaron el nuevo y mejorado BERT en seis test diferentes de comprensión del lenguaje, incluido SQuAD, el conjunto de datos de respuesta de la Universidad de Stanford (EE. UU.), que pide a los modelos que respondan a preguntas de comprensión lectora sobre una serie de artículos, y SWAG, que intenta confundir los modelos con sutilezas del idioma en inglés para comprobar si se trata simplemente de imitar y memorizar. El nuevo BERT funcionó mejor en todos ellos, lo que según Wolf no es poca cosa.

Los investigadores, Hao Tan, estudiante de doctorado, y su asesor Mohit Bansal, presentarán su nueva técnica de evocación en la próxima Conferencia sobre Métodos Empíricos de Procesamiento de Lenguaje Natural. Si bien su trabajo aún se encuentra en la primera fase, Wolf lo ve como un importante avance conceptual para lograr que el aprendizaje no supervisado funcione para los modelos de lenguaje visual. Un avance similar fue el que ayudó a impulsar drásticamente en el procesamiento de lenguaje natural en el pasado.

Wolf recuerda: "En PLN, tuvimos este gran avance hace más de dos años, y luego, de repente, el procesamiento de lenguaje natural se convirtió en un campo en el que pasaban muchas cosas y se adelantó de alguna manera a todos los demás campos de la IA. Pero tenemos el problema de conectar el texto con otras cosas. Así que es como un robot que solo puede hablar, pero no es capaz de ver, ni oír".

Y concluye: "Este trabajo es un ejemplo en el que lograron conectarlo a otra modalidad y funciona mejor. Es posible imaginar que, tal vez, alguna de estas técnicas pueda utilizarse cuando queramos introducir un modelo de lenguaje realmente potente en un robot. Quizás se use lo mismo para relacionar el razonamiento de un robot con el texto".

Inteligencia Artificial

Evocación: el nuevo enfoque para que la IA pueda ver lo que dice

Del token al voquen

Evocación

Operator de OpenAI marca el camino de los agentes de IA al tomar decisiones autónomas

OpenAI ha multiplicado casi por siete su inversión de 'lobby' ante la llegada de Trump

Minería paralela de datos, la técnica del nuevo traductor de Meta para dominar más de 100 idiomas