El fabricante de chips Nvidia está centrando sus esfuerzos en el procesamiento del lenguaje natural. Su nuevo software, basado en dos enfoques de Google, está diseñado para eso, una novedad tecnológica que, como siempre, tiene un parte buena y una mala
La inteligencia artificial (IA) ha logrado avances impresionantes en la última década, pero las máquinas siguen teniendo problemas para comprender el lenguaje. Para comprobarlo basta con hacerle a Alexa o Siri un par de bromas.
Nvidia, la compañía que fabrica los chips de ordenador que alimentan muchos algoritmos de inteligencia artificial, cree que esto está a punto de cambiar y por eso está intentando capitalizar una explosión anticipada.
Este fabricante de chips está lanzando un software que facilita la creación de programas de inteligencia artificial en su hardware, lo que les permite usar mejor el lenguaje. El nuevo código podría acelerar el desarrollo de nuevos algoritmos de lenguaje y hacer que los chatbots y los asistentes de voz sean más ágiles e inteligentes.
Nvidia ya fabrica los chips más populares para entrenar los modelos de IA de aprendizaje profundo, especializados en tareas como la clasificación de imágenes. Sin embargo, tradicionalmente, ha sido mucho más difícil aplicar los métodos estadísticos de aprendizaje automático como el aprendizaje profundo a la palabra escrita o hablada, porque el lenguaje es muy ambiguo y complejo.
Pero recientemente se ha producido un avance importante. Dos nuevos enfoques de Google para el aprendizaje profundo sobre el lenguaje, conocidos como Transformer y BERT, han demostrado ser especialmente buenos en tareas de traducción, respondiendo a preguntas sobre un texto e incluso generando textos muy creíbles. Esto ha provocado que el interés académico e industrial en el avance del aprendizaje automático que usa el lenguaje haya empezado a aumentar.
"La combinación de Transformer y BERT ha tenido un impacto enorme. Básicamente es lo último en cada punto de referencia, y permite a un estudiante de pregrado crear modelos de clase mundial con solo cinco líneas de código", afirma el profesor de la Universidad de Harvard (EE. UU.) especializado en procesamiento de lenguaje natural Alexander Rush.
A Nvidia se le da muy bien perseguir las últimas tendencias en investigación de IA. Si su última apuesta resulta acertada, entonces los asistentes de voz podrían dejar de limitarse a responder órdenes para empezar a formar frases de manera coherente. Además, los chatbots podrán volverse más inteligentes, mientras que la función de autocompletar, disponible en muchos programas y aplicaciones, podría empezar a sugerir párrafos completos en lugar de solo las siguientes palabras.
El vicepresidente de Aprendizaje Profundo Aplicado de Nvidia, Bryan Catanzaro, afirma: "Tenemos mucha demanda de modelado de lenguaje. Y si nos fijamos en el ritmo del progreso del lenguaje, parece un lugar obvio en el que invertir".
Para desarrollar su nuevo software, Nvidia optimizó numerosas partes del proceso utilizado para entrenar modelos de lenguaje en sus GPU. Esto aceleró el entrenamiento de los modelos de IA (de varios días a menos de una hora), aceleró el rendimiento de los modelos de lenguaje entrenados (de 40 milisegundos a poco más de 2 milisegundos) y permitió entrenar modelos de lenguaje mucho más grandes (el modelo de Nvidia, llamado Megatron, es muchas veces mayor que cualquiera hecho anteriormente, con 8.600 millones de parámetros).
Autocompletar de forma ética
No obstante, los avances en el lenguaje pueden tener un lado oscuro. Aumentar la inteligencia de estos algoritmos podría permitir producir noticias falsas más convincentes y personalizadas, publicaciones en redes sociales y artículos. Otros grupos de investigación han demostrado cómo los poderosos modelos de lenguaje pueden crear texto increíblemente realista tras procesar grandes cantidades de texto de internet.
El plan de Nvidia para prevenir un posible uso indebido es simple: no lanzará el mayor modelo de lenguaje que ha desarrollado, y confiará en que los investigadores usen sus herramientas con cuidado. Catanzaro afirma: "Estamos lanzando un código que muestra cómo usar GPU para entrenar estos modelos grandes. Creemos que la comunidad usará este código de manera responsable, pero teniendo en cuenta que entrenar los modelos de este tamaño requiere una gran potencia informática, lo que lo pone fuera del alcance para la mayoría de las personas".
Incluso si el progreso continúa a buen ritmo, es probable que pase mucho tiempo antes de que las máquinas lleguen a conversar con nosotros. El lenguaje es engañosamente difícil de entender para las máquinas, en parte debido a su complejidad compositiva: las palabras se pueden reorganizar para crear significados ilimitados. Comprender el significado de una frase también suele requerir algún tipo de comprensión del mundo con sentido común, algo que los ordenadores no tienen.
"Estamos viendo un renacimiento en las capacidades del procesamiento del lenguaje natural", opina el CEO del Instituto Allen de Inteligencia Artificial (Ai2), Oren Etzioni, una organización sin ánimo de lucro dedicada a las últimas investigaciones de IA. Esto se traducirá en mejores chatbots y asistentes de voz, asegura, aunque sufrirán una falta de sentido común. "Tener un asistente de voz tan útil como un hábil conserje de hotel aún está más allá del horizonte", sostiene.
Ai2 lanzó recientemente una herramienta llamada Grover que utiliza los avances de procesamiento del lenguaje natural para capturar texto que parece haber sido generado por la IA. Etzioni señala que los bots ya engañan a las personas en Facebook y Twitter. El experto concluye: "El texto falso generado automáticamente ya está aquí, y es probable que aumente exponencialmente".