.

Computación

La inteligencia artificial de Google aprende a leer con el 'Daily Mail'

1

El proyecto de aprendizaje profundo DeepMind usa textos periodísticos para mejorar el procesamiento del lenguaje natural

  • por The Physics Arxiv Blog | traducido por Teresa Woods
  • 21 Junio, 2015

Una revolución en el campo de la inteligencia artificial está sacudiendo la informática. La técnica se llama aprendizaje profundo y se puede aplicar a todo, desde el reconocimiento de voces y caras, hasta sectores como la moda y la economía.

Pero existe un área que aún no se ha beneficiado de la inteligencia artificial: el procesamiento de lenguajes naturales - la habilidad de leer un documento y posteriormente responder preguntas sobre él. Esto se debe en parte a que las máquinas de aprendizaje profundo primero tienen que aprender su oficio de enormes bases de datos que han sido cuidadosamente creadas para este propósito. Sin embargo, las que existen no tienen suficiente tamaño para emplearse para el entrenamiento de las máquinas de aprendizaje profundo.

Hoy esto cambia, gracias al trabajo de Karl Moritz Hermann de Google DeepMind en Londres (Inglaterra) y su equipo. Estos investigadores dicen que el estilo particular de escribir noticias online del Daily Mail y CNN les permite utilizarlas para este propósito. Y el número elevado de artículos disponibles online da lugar por primera vez una base de datos de las que pueden aprender los ordenadores para luego poder contestar preguntas sobre el contenido. En otras palabras, DeepMind está utilizando artículos del Daily Mail y CNN para enseñar a las máquinas a leer.

La revolución del aprendizaje profundo se debe a dos avances clave. El primero está relacionado con las redes neuronales artificiales (RNA), donde los informáticos han desarrollado nuevas técnicas para el entrenamiento de redes con muchas capas, una complicada tarea debido al número de parámetros que deben ajustarse. Las nuevas técnicas básicamente producen redes "listas para usar", preparadas para el aprendizaje.

Pero una RNA sirve de poco sin una base de datos de la que pueda aprender. Tal base de datos tiene que haber sido anotada meticulosamente para que la máquina disponga de un estándar de oro del que aprender. Por ejemplo, para el reconocimiento de caras, la base de datos de entrenamiento debe contener fotografías en las que las caras y su ubicación dentro del enmarcado estén claramente identificadas. Y para que las imágenes cubran el mayor número posible de gestos faciales, la base de datos tiene que ser enorme.

Esto se ha hecho posible recientemente gracias a servicios de crowdsourcing como Mechanical Turk de Amazon. Varios equipos han creado este tipo de base de datos de estándares de oro mostrando imágenes a las personas, y pidiéndoles que rodeen las caras que aparezcan en ellas con un cuadro que las limite.

Pero crear este tipo de base de datos anotada para la palabra escrita es mucho más difícil. Claro que se pueden extraer frases que contengan puntos importantes. Pero no sirven de gran ayuda porque cualquier algoritmo aprende rápidamente a buscar la misma frase dentro del texto, una tarea trivial para un ordenador.

En vez de eso, la anotación debe describir el contenido del texto pero sin que aparezca dentro de él. Para entender la correlación, un algoritmo de aprendizaje debe buscar más allá de la simple existencia de palabras y frases, llegando a identificar también las conexiones gramaticales y relaciones casuales.

Por fácil que pueda sonar, construir una base de datos así en absoluto resulta fácil. Los informáticos han generado pequeñas versiones a mano, pero son demasiado diminutas para cumplir con el propósito de las RNA. Y resulta poco factible crear bases de datos más grandes a mano porque a los humanos generalmente se nos da mal anotar texto con precisión, salvo que se trate de editores especializados.

Aquí entran en escena las páginas web del Daily Mail, MailOnline, y CNN online. Estas páginas desglosan los puntos de mayor interés de cada articulo en apartados independientes del texto completo del artículo. "Es de vital importancia que estos apartados sean abstractivos y no copien simplemente frases del texto completo", dice el equipo de Hermann.

De entrada, esto sugiere un nuevo método de creación de bases de datos anotadas: utilizar los artículos de noticias como el texto, y los apartados como las anotaciones.

Sin embargo, el equipo de DeepMind va más allá. Señalan que aún así, es posible obtener la respuesta a muchas preguntas mediante el uso de enfoques sencillos de búsquedas de palabras.

Dan el siguiente ejemplo de un tipo de problema conocido como una pregunta incrustada, del tipo Cloze (sin traducción del inglés), para la resolución de la cual a menudo se empleaban algoritmos de aprendizaje profundo. Aquí el objetivo es identificar el valor que representa X dentro de estos titulares modificados del Daily Mail: a) El sujetador de alta tecnología que ayuda a vencer el X de pecho; b) ¿Podría la sacarina ayudar a vencer el X?; c) ¿Pueden los aceites de pescado ayudar a combatir el X de próstata?

Hermann y su equipo señala que un sencillo tipo de algoritmo de búsqueda de datos llamado búsqueda de n-gramas es capaz de encontrar la respuesta fácilmente buscando la palabras que aparecen junto a estas frases con mayor frecuencia. La respuesta, claro está, es la palabra "cáncer".

Para entorpecer este tipo de soluciones, el equipo de Hermann convierten el dato objetivo en anónimo, reemplazando los actores de una frase por una descripción genérica. Veamos un ejemplo de un texto original del Daily Mail: El productor de la cadena 'BBC' supuestamente agredido por Jeremy Clarkson no denunciará al presentador de "Top Gear", según afirmó su abogado el pasado viernes. Clarkson, que presentó uno de los programas de televisión con mayor audiencia del mundo, fue despedido de la BBC el pasado miércoles tras la resolución de una investigación interna realizada por la cadena de televisión británica que concluyó que había 'agredido física y verbalmente sin provocación previa' al productor Oisin Tymon.

Una versión anónima de este texto se leería así:

El productor de la cadena 'ent381' supuestamente agredido por 'ent212' no denunciará al presentador de 'ent153', según afirmó su abogado el pasado viernes. 'ent212', que presentó uno de los programas de televisión con mayor audiencia del mundo, fue despedido de la 'ent381' el pasado miércoles tras la resolución de una investigación interna realizada por la cadena de televisión británica que concluyó que había 'agredido física y verbalmente sin provocación previa' al productor 'ent193'.

De esta manera, la siguiente pregunta incrustada del tipo Cloze se puede convertir desde el extracto "El productor X no denunciará a Jeremy Clarkson, según las afirmaciones de su abogado" para que se lea "Productor X no denunciará a ent212, según afirmó su abogado" para poder identificar el valor del n-grama X.

Y la respuesta requerida por la consulta cambia de "Oisin Tymon" a "ent212".

De esta manera, el actor anónimo sólo puede ser identificado mediante la comprensión de las conexiones gramaticales y relaciones casuales que existen entre las diferentes entes de la noticia.

La base de datos resultante es vasta; consiste de 110.000 artículos de CNN online y 218.000 artículos de la página web del Daily Mail.

Habiendo creado este tipo de base de datos por primera vez, el equipo de Hermann no ha podido resistirse a utilizarla para poner a prueba varias técnicas de aprendizaje profundo. Comparan técnicas convencionales del procesamiento de lenguajes naturales, como medir la distancia entre conjuntos de palabras, y enfoques más modernos de redes neuronales.

Los resultados demuestran la potencia que han adquirido las redes neuronales. El equipo de Hermann dice que las mejores RNA pueden contestar con éxito el 60% de las preguntas realizadas. También afirman que estas máquinas pueden contestar todas las preguntas que tengan una estructura sencilla, mientras rinden peor con las preguntas con estructuras gramaticalmente complejas.

No obstante, hay algunas salvedades. La más evidente es que los artículos del Daily Mail y CNN online tienen una estructura de base muy específica que difiere de otros estilos no periodísticos de escritura. Y no está claro cómo influye exactamente esta estructura subyacente en los resultados.

Como tampoco está claro cómo se comparan estas máquinas a las capacidades humanas, algo que sería sencillo de averiguar empleando servicios como Mechanical Turk. Esto daría contexto a los postulados de DeepMind, implícitos en el título del ensayo, de que estas máquinas están aprendiendo a comprender lo que leen.

Igualmente constituye un trabajo interesante que prepara el terreno para avances fascinantes en un futuro próximo. Se avecina la lectura artificial; la única incógnita es cuándo llegará.

Computación

Las máquinas cada vez más potentes están acelerando los avances científicos, los negocios y la vida.

  1. Google anuncia un hito hacia la computación cuántica sin errores

    Una técnica llamada “código de superficie” permite a los bits cuánticos de la empresa almacenar y manipular datos fielmente durante más tiempo, lo que podría allanar el camino a ordenadores cuánticos útiles

  2. El vídeo es el rey: bienvenido a la era del contenido audiovisual

    Cada vez aprendemos y nos comunicamos más a través de la imagen en movimiento. Esto cambiará nuestra cultura de manera inimaginable

    Dos personas creando contenido en formato vídeo
  3. Esta empresa quiere superar a Google e IBM en la carrera cuántica con un superordenador de fotones

    La empresa quiere construir una computadora que contenga hasta un millón de cúbits en un campus de Chicago