Inteligencia Artificial

Los algoritmos de Google ya decodifican el lenguaje a nivel lingüista profesional

La empresa de búsquedas ha lanzado la receta secreta que emplea para darle sentido al lenguaje ambiguo. Podría ayudar a los desarrolladores a diseñar 'apps' que realmente nos entiendan

por Will Knight | traducido por Teresa Woods
17 Mayo, 2016

Los algoritmos de Google ya pueden analizar la estructura y el significado del lenguaje sencillo de forma tan experta como un lingüista profesional. Este dominio de la gramática y la sintaxis ayuda a la empresa a proporcionar unos resultados de búsqueda más precisos, y tendrá una creciente importancia mientras un número cada vez mayor de sus servicios pasan a depender del control por voz.

Desde la semana pasada, Google tiene abierto el acceso a estos algoritmos a los desarrolladores de software externos. Las herramientas proporcionadas ayudarán a los programadores a desarrollar apps y servicios basados en el lenguaje natural que sean menos propensos a los frustrantes malentendidos típicos los bots de conversación actuales. Y debería ayudar a que los desarrolladores adopten las nuevas técnicas de aprendizaje de máquinas que Google está refinando.

Los smartphones de Google ya pueden ser controlados por voz, por supuesto, y se cree que la empresa está desarrollando dispositivos domésticos, similares al Echo de Amazon, que dependen en mayor grado de las interacciones por voz. Por lo que publicar una herramienta que aumenta el acceso al procesamiento del lenguaje estratégicamente tiene mucho sentido.

El líder de Google en el entendimiento del lenguaje y aprendizaje de máquina, Fernando Pereira, explica: "La mayoría de nuestros usuarios interactúan con nosotros mediante el lenguaje. Lanzan consultas, escritas o habladas. Y para servir bien al usuario, tenemos que lograr que nuestros sistemas entiendan lo que quieren los usuarios".

Una de las herramientas publicadas la semana pasada, llamada SyntaxNet, puede aprender a entender el significado de las palabras y frases a partir de su contexto y uso común. Funciona mediante el marco de aprendizaje profundo anteriormente publicado por Google, llamado TensorFlow. Y representa el componente más complejo y sofisticado desarrollado con TensorFlow hasta la fecha.

Google también ha lanzado un analizador sintáctico ya entrenado, llamado Parsey McParseface (un portavoz dice que la empresa estaba luchando para ponerle el nombre cuando alguien sugirió este pegadizo apodo). Los textos proporcionados al analizador serán automáticamente descompuestos en los distintos componentes sintácticos como pronombres, verbos, sujetos y objetos. Esto facilita que un ordenador analice correctamente consultas o instrucciones ambiguas.

Google normalmente depende de datos y el aprendizaje de máquinas. de hecho otros enfoques, como el de Facebook, intentan entrenar ordenadores para analizar el lenguaje al alimentarlos con grandes cantidades de datos sin etiquetar (ver El hombre que enseña a las máquinas a entender el lenguaje). Pero el proyecto de entendimiento del lenguaje de Google, descrito en un trabajo publicado en línea, en lugar de eso se ha centrado en las competencias humanas. Durante más de ocho años, unos lingüistas profesionales han estado anotando textos para la empresa. Y recientemente se han logrado progresos al alimentar una gran red neuronal de aprendizaje profundo con esas anotaciones.

Entender el lenguaje resulta increíblemente difícil para los ordenadores porque el lenguaje a menudo es ambiguo. Una búsqueda tan sencilla como "Encontrar gatos con gorros" podría interpretarse como una petición o bien de gatos que llevan gorro o de gatos dentro de gorros. Mientras que los humanos empleamos nuestros conocimientos generales para la desambiguación de tales frases, la tecnología de Google emplea el aprendizaje de máquinas. Su sistema de aprendizaje profundo, entrenado con textos sintácticos, juzga cuál sería la estructura correcta más probable para la frase. En el caso de gatos con gorros, supone que la búsqueda está dirigida a felinos que vayan a la última moda.

El jefe de producto de Google responsable de encontrar aplicaciones comerciales para las investigaciones de la empresa sobre la comprensión del lenguaje natural, Dave Orr, me hizo una demostración de la tecnología. Alimentó una versión interna del analizador sintáctico con varios artículos de MIT Technology Review. Cometió un par de errores triviales, por ejemplo, al confundir la palabra "will" (partícula para expresar un verbo en futuro) al principio de una frase con mi nombre de pila. Pero en general, pareció anotar las frases con una precisión impresionante, identificando estructuras sintácticas que captaban correctamente el significado del titular o subtítulo. "Es el mejor analizador sintáctico jamás desarrollado", afirma Orr. "Creemos que se aproxima al nivel humano".

De forma intencionada, Google combina su sistema de lenguaje natural con una base de datos de informaciones semánticas llamada Gráfico del Conocimiento. Esto le permite reconocer objetos, personas, lugares y otros conceptos concretos y responder de forma adecuada. A menudo el sistema también es capaz de clasificar correctamente nuevas palabras al compararlas con las otras palabras que aparecen en contextos similares. Actualmente, la tecnología funciona en 15 idiomas. El análisis de algunos idiomas presenta un mayor reto lingüístico, lo que dificulta el entrenamiento, explica Orr.

Sin embargo, la tecnología aún se encuentra lejos de ser capaz de entender inglés a la perfección. Pereira apunta: "Nuestros sistemas rinden mejor en textos bien estructurados y editados. La irregularidad de las redes sociales y las búsquedas resulta más difícil. Hemos logrado progresos en esa frente, pero queda mucha margen de mejora aún".

También quedan muchas ambigüedades que requieren un nivel humano de sentido común. Pereira precisa: "Cosas que aprendemos de nuestras experiencias, y de los consejos que recibimos de nuestros iguales y familias. Ese tipo de capacidad muy desarrollada de resolver problemas es donde se encuentran totalmente perdidos nuestros sistemas".

El profesor de la Universidad de Standford (EEUU) Noah Goodman, que estudia la comprensión del lenguaje natural, dice que la mejorada comprensión sintáctica sólo representa el principio de lo que necesitarán los ordenadores para dominar el lenguaje. "La sintáxis desde luego es una parte importante del lenguaje. Pero entre eso y la semántica, y entre la semántica superficial hasta poder deducir el significado hay un salto muy grande".

Inteligencia Artificial

Los algoritmos de Google ya decodifican el lenguaje a nivel lingüista profesional

Minería paralela de datos, la técnica del nuevo traductor de Meta para dominar más de 100 idiomas

Convirtiendo los trinos en datos: esta IA estudia la migración de las aves a través del sonido

Mundos virtuales generativos y modelos que "razonan": qué nos depara la IA en 2025