Para que una inteligencia artificial funcione bien hay que entrenarla con multitud de datos que no siempre son fáciles de encontrar, sobre todo en PLN. Estos cuatro proyectos destacan por su ingenio para recopilarlos de fuentes como recetas de cocina, textos en 'spanglish' y hasta la Wikipedia
Los datos son el alimento que nutre el avance de la inteligencia artificial (IA) y son los responsables de algunos grandes inventos que ahora damos por sentado, como los subtítulos de YouTube, las recomendaciones de música de Spotify y esos anuncios espeluznantes que nos acosan en internet.
Pero a la hora de recopilar datos útiles, los expertos en IA a menudo tienen que ser creativos. Esto pasa bastante en el procesamiento de lenguaje natural (PNL), una rama de la IA dedicada a enseñar a los ordenadores a analizar y entender el lenguaje humano. En la Conferencia anual sobre los Métodos Empíricos en PNL, los expertos presentaron una amplia gama de investigaciones basadas en datos que habían sido recopilados de forma bastante ingeniosa. A continuación resumimos nuestros cuatro proyectos favoritos.
'Spanglish'
Entre los artículos sobre el PNL multilingüe publicados este año, figura uno de Microsoft centrado en el procesamiento del "lenguaje de código mixto". Es decir, el objetivo es que una máquina entienda un texto o un discurso oral que alterna dos idiomas. Dado que más de la mitad de la población mundial es multilingüe, esta área es importante, aunque está muy poco estudiada.
Para abordar su proyecto, los investigadores comenzaron con el spanglish (que mezcla español e inglés), pero carecían del suficiente texto en spanglish necesario para entrenar a la máquina. Aunque oralmente se usa con cada vez más frecuencia, resulta difícil encontrar textos escritos que mezclen ambas lenguas. Para superar ese desafío, los investigadores desarrollaron un programa que incluyera el inglés en el traductor de Microsoft Bing y metieron algunas frases de la traducción al español en el texto original en inglés. El programa se aseguraba de que las palabras y frases intercambiadas tuvieran el mismo significado. De esa forma, pudieron crear todo el spanglish que necesitaban.
El modelo NLP resultante superó a los modelos anteriores que habían sido entrenados en cada idioma de forma aislada. Los investigadores esperan que su trabajo ayude a desarrollar chatbots multilingües capaces de hablar de forma natural en un lenguaje de código mixto.
Libros de cocina
Además de ser geniales para cocinar, las recetas pueden convertirse en una herramienta ideal para entrenar a una máquina. Todas siguen un patrón similar de instrucciones paso a paso, y con frecuencia incluyen imágenes que se corresponden con el texto, una excelente fuente de datos estructurados para que las máquinas de aprendizaje comprendan el texto y las imágenes al mismo tiempo. Es por eso que los investigadores de la Universidad Hacettepe (Turquía) recopilaron un gran conjunto de datos a partir de unas 20.000 recetas ilustradas de cocina. Esperan que se convierta en una nueva herramienta para comparar el rendimiento de la comprensión conjunta de imagen y texto.
Su tecnología, a la que han bautizado como RecipeQA, se basará en investigaciones previas centradas en la comprensión de lectura automática y en la comprensión visual por separado. En la primera área, la máquina debe comprender una pregunta y un pasaje de texto relacionado para encontrar la respuesta (ver Un algoritmo lee Harry Potter para explicarte sus hechizos). En la segunda, la máquina debe buscar la respuesta en una foto relacionada. Tener texto y fotos en paralelo aumenta la complejidad de la tarea porque las fotos y el texto pueden compartir información complementaria o redundante.
Frases cortas
Google quiere que la IA enriquezca nuestros escritos. Con este objetivo, los investigadores crearon el conjunto de datos más grande hasta el momento para dividir frases largas en otras más pequeñas con un significado equivalente. ¿Dónde podríamos encontrar esas enormes cantidades de datos de edición? En Wikipedia, por supuesto.
De las abundantes ediciones de los textos de Wikipedia, el equipo recopiló ejemplos en los que los editores dividieron una frase muy larga en varias más cortas. El resultado: encontraron 60 veces más ejemplos distintos de división de frases y 90 veces más palabras de vocabulario que las que se encontraron en el anterior conjunto de datos de referencia para esta tarea. Además, su conjunto de datos abarca varios idiomas.
Cuando entrenaron a un modelo de aprendizaje automático con sus nuevos datos, el algoritmo logró una presión del 91 % (este porcentaje refleja la proporción de frases que reescritas por la máquina que conservaron su significado original y eran gramaticalmente correctas). En comparación, un modelo entrenado en datos anteriores alcanzó solo una presión del 32 %. Cuando combinaron ambos conjuntos de datos y entrenaron a un tercer algoritmo, este obtuvo una precisión del 95 %. Los investigadores concluyeron que si encontraban más fuentes de datos serían capaces de mejorar el sistema aún más.
Sesgos en redes sociales
Varios estudios han demostrado que el lenguaje puede ser un gran predictor de la raza, género y edad del usuario. Con esa idea en mente, los investigadores de la Universidad Bar-Ilan (Israel) y el Instituto Allen de Inteligencia Artificial (EE. UU.) intentaron entrenar a una IA para que eliminara los sesgos de un texto al erradicar esos indicadores integrados.
Para adquirir suficientes datos para representar los patrones lingüísticos en diferentes características demográficas, recurrieron a Twitter. Recolectaron un montón de tuits de usuarios distribuidos equitativamente entre blancos no hispanos y negros no hispanos; entre hombres y mujeres; y entre personas de 18 a 34 años y mayores de 35 años.
Luego utilizaron una red generativa antagónica para ver si podían eliminar automáticamente los indicadores demográficos inherentes en los tuits. Una red neuronal intentó predecir la demografía, mientras que la otra trató de modificar el texto para que fuera completamente neutral, con el objetivo de reducir la precisión de predicción del primer modelo al 50 % (o a la casualidad). Al final, el enfoque logró reducir bastante los indicadores lingüísticos de raza, género y edad, pero no lo consiguió del todo.