El Wikibook-bot recorre la Wikipedia en busca de los artículos más relevantes sobre cualquier asunto y los clasifica y ordena para crear manuales de forma automática. El siguiente paso del equipo será analizar qué acogida tienen estos libros entre las personas
Con sus más de 6.000 páginas, el libro Aprendizaje automático: la guía completa es muy voluminoso. El texto ofrece una introducción completa a la tecnología, con capítulos actualizados sobre las redes neuronales artificiales, algoritmos genéticos y visión artificial.
Pero no se trata de una publicación cualquiera. Se trata de un Wikilibro, un manual al que cualquiera puede acceder y editar, compuesto de artículos en Wikipedia, la vasta enciclopedia online. Esto supone una fortaleza. La información de colaborativa abierta y distribuida (crowdsourcing) se actualiza constantemente con los últimos avances y se edita sistemáticamente para corregir errores y ambigüedades.
Pero también tiene un punto débil. La Wikipedia es enorme. Decidir qué contenido hay que incluir en este manual es una tarea difícil y, tal vez, por eso el libro es tan grande. Con más de 550 capítulos, no es una lectura ligera.
Eso plantea una cuestión interesante. Dados los avances en inteligencia artificial (IA) de los últimos años, ¿hay alguna estrategia que permita editar automáticamente el contenido de Wikipedia para crear un conjunto coherente que resulte útil a modo de manual?
El investigador de la Universidad Ben-Gurion del Negev (Israel) Shahar Admati y sus colegas han desarrollado una forma de generar Wikilibros automáticamente con aprendizaje automático. Llaman a su máquina el Wikibook-bot. Su investigación detalla: "La novedad de nuestra técnica es que está pensada para crear un Wikilibro completo, sin intervención humana”.
Su enfoque es relativamente sencillo. Comenzaron identificando una serie de Wikilibros existentes que actuarían como conjunto de datos de entrenamiento. Entontraron 6.700 Wikilibros incluidos en un conjunto de datos disponible en Wikipedia para este tipo de estudios académicos.
Dado que estos Wikilibros representan la regla de oro tanto para el entrenamiento como para las pruebas, el equipo necesitaba garantizar su calidad. El artículo continúa: "Elegimos centrarnos en los Wikilibros que fueron vistos al menos 1000 veces, basándonos en la suposición de que los Wikilibros más populares tienen una calidad razonable". Este filtro dejó un total de 490 Wikilibros, de los que se seleccionaron 407, en función de distintos factores como el de tener más de 10 capítulos. Este fue el conjunto final con el que el equipo creó su IA.
Luego, el equipo dividió la tarea de crear un Wikilibro en varias partes, cada una de las cuales requería una habilidad de aprendizaje automático diferente. El trabajo comenzó con un humano que definió el título del libro que el sistema tendría que crear. El título debía describir algún concepto, así surgió Aprendizaje automático: la guía completa.
La primera tarea consistió en clasificar todo el conjunto de artículos de Wikipedia para determinar cuáles eran suficientemente relevantes para ser incluidos. "Esto fue un reto debido al gran volumen de artículos disponibles en Wikipedia y por la necesidad de seleccionar los más relevantes entre los millones que hay", detallan Admati y sus compañeros.
Para ayudar con esta tarea, el equipo usó la estructura de red de Wikipedia: los artículos a menudo están hipervinculazos a otros artículos. Es razonable suponer que probablemente el artículo vinculado sea más relevante.
Así que comenzaron con un pequeño grupo de artículos que mencionaban el concepto de clave del libro en el título. Luego identificaron todos los artículos que estaban a un máximo de tres pasos de estos artículos clave.
¿Pero cuántos de estos artículos vinculados debían incluirse en el libro? Para decidirlo, comenzaron con los títulos de los 407 Wikilibros creados por humanos y realizaron el análisis de tres pasos. Luego, calcularon cuánto del contenido de los libros creados por personas se incluyó en el enfoque automatizado. Resulta que el enfoque automatizado a menudo incluía gran parte del contenido original del Wikibook pero, también, mucho más. Así que el equipo necesitaba alguna otra forma de seguir filtrando el contenido.
De nuevo, la ciencia de redes entró en juego. Cada Wikilibro generado por humanos tiene una estructura de red propia, determinada por la cantidad de enlaces que aparecen desde otros artículos, la cantidad de enlaces a los que se apunta, la lista de la clasificación de los artículos incluidos en la página, etcétera.
Así que el equipo creó un algoritmo que analizaba a cada artículo seleccionado automáticamente para un tema determinado y luego decidía si al incluirlo en un Wikilibro haría que la estructura de la red fuera más similar a los libros generados por las personas o no. Si resultaba que no, el artículo quedaba descartado.
El siguiente paso fue organizar los artículos en capítulos. Se trataba básicamente de una tarea de agrupamiento; para explorar la red formada por todo el conjunto de artículos y descubrir cómo dividirla en grupos coherentes. Hay varios algoritmos de agrupamiento disponibles para este tipo de tareas.
El último paso era determinar el orden en el que debían aparecer los artículos en cada capítulo. Para hacerlo, el equipo organizó los artículos en parejas y utilizó un modelo de red para determinar cuál debía aparecer primero. Al repetir esto para todas las combinaciones de parejas de artículos, el algoritmo fue capaz de establecer un orden preferido para los artículos y, por lo tanto, para los capítulos.
De esta manera, el equipo pudo producir versiones automatizadas de Wikilibros creados por humanos. Es difícil juzgar y comparar estos libros automatizados con los generados por personas. Seguro que contienen gran parte del mismo material, a menudo en un orden similar, lo que es un buen comienzo.
Pero Adamti y sus compañeros quieren ampliar la utilidad de su enfoque. Planean producir una variedad de Wikilibros sobre temas que aún no están cubiertos por los libros generados por humanos. Luego, controlarán las visitas a la página y las ediciones de estos libros para ver su popularidad y cuánto se editan, en comparación con los libros generados por personas. La investigación detalla: "Será una prueba en el mundo real para nuestro planteamiento".
Es un trabajo interesante que tiene el potencial de producir valiosos manuales sobre una amplia gama de temas, e incluso para crear otros textos como actas de conferencias. Aún no se sabe qué valor tendrán para los lectores humanos. Pero intentaremos descubrirlo.
Ref: arxiv.org/abs/1812.10937: Wikibook-Bot—Automatic Generation of a Wikipedia Book