La red social ha lanzado Dynabench, un nuevo tipo de prueba para evaluar los avances de la IA. Su enfoque consiste en que cualquiera acceda a la herramienta para hacer preguntas a los modelos disponibles y puntuar sus respuestas. Cada examen será tan difícil como decida la persona que lo haga
Los llamativos y mediáticos éxitos de la inteligencia artificial (IA) en la última década se suelen atribuir a una gran cantidad de datos y mucha potencia informática. Pero las evaluaciones comparativas también desempeñan un papel crucial a la hora de impulsar su avance.
Se trata de pruebas con las que los investigadores analizan su IA para ver lo avanzada que está. Por ejemplo, ImageNet, el conjunto de datos públicos de 14 millones de imágenes, establece un objetivo para el reconocimiento de imágenes. MNIST hizo lo mismo para el reconocimiento de escritura a mano y GLUE (General Language Understanding Evaluation en inglés o Evaluación de Comprensión del Lenguaje General), para el procesamiento del lenguaje natural, lo que ha dado lugar a los revolucionarios modelos de lenguaje como GPT-3.
Pero los objetivos fijos son fáciles de superar. ImageNet se está actualizando y GLUE ha sido sustituido por SuperGLUE, un conjunto de tareas lingüísticas más difíciles. Aun así, antes o después, los investigadores comunicarán que su IA ha alcanzado niveles sobrehumanos, superando a las personas en este o aquel desafío. Y eso representa un problema si queremos que las evaluaciones comparativas sigan impulsando el progreso.
Por eso, Facebook ha lanzado un nuevo tipo de prueba que enfrenta a las IA contra los humanos, quienes deben hacer todo lo posible para engañarlas. La prueba denominada Dynabench será tan difícil como la gente decida que sea.
Las evaluaciones comparativas pueden resultar muy engañosas, asegura el investigador que dirigió al equipo de Facebook AI Research que desarrolló esta herramienta, Douwe Kiela. Centrarse demasiado en ellas puede hacer que los objetivos más amplios se pierdan de vista. La prueba puede convertirse en una tarea.
El experto señala: "Se acaba teniendo un sistema que supera a los humanos en una prueba concreta, pero no resulta mejor en la tarea general. Esto es muy engañoso, porque parece que hemos llegado mucho más lejos de donde realmente estamos".
Kiela cree que, en la actualidad, este problema afecta especialmente al campo del procesamiento del lenguaje natural (PLN, o PNL, por sus siglas en inglés). Un modelo de lenguaje como GPT-3 parece inteligente porque se le da muy bien el lenguaje. Pero es difícil decir qué nivel de comprensión real tienen estos sistemas.
Para Kiela, es como intentar medir la inteligencia humana. Podemos someter a las personas a las pruebas de cociente intelectual (CI), pero eso no demuestra si realmente comprenden un tema. Para conseguirlo, hay que hablar con ellos, hacerles preguntas.
Dynabench funciona de forma parecida, con personas que interrogan a las IA. Lanzado lanzado online hace dos semanas, invita a la gente a visitar el sitio web y hacer preguntas a los modelos disponibles. Por ejemplo, podríamos dar una página de Wikipeda a un modelo de PLN para luego hacerle preguntas y puntuar sus respuestas.
De alguna manera, el enfoque se parece a cómo la gente ya juega con GPT-3 para probar sus límites, o a la manera en la que los chatbots son evaluados para el Premio Loebner, un concurso en el que los bots intentan hacerse pasar por humanos. Pero con Dynabench, los errores que surjan durante las pruebas se introducirán automáticamente en los modelos futuros, mejorándolos continuamente.
Por ahora, Dynabench se centrará en los modelos de lenguaje porque es uno de los tipos de IA con los que humanos interactúan con más facilidad. "Todo el mundo habla un idioma. No hace falta ningún conocimiento real de cómo examinar estos modelos", destaca Kiela.
Pero este enfoque también debería funcionar para otros tipos de redes neuronales, como los sistemas de reconocimiento de voz o imágenes. Para probarlo solo se necesitaría una forma para que la gente suba sus propias imágenes o dibujen algo.
Kiela concluye: "La idea a largo plazo es abrirlo para que cualquiera sea capaz de desarrollar su propio modelo y recopilar sus propios datos. Queremos convencer a la comunidad de IA de que existe una mejor manera de medir el progreso. Con suerte, dará como resultado un avance más rápido y una mejor comprensión de por qué los modelos de aprendizaje automático aún fallan".