El análisis de 300.000 textos para viñetas del 'New Yorker' da pistas sobre su origen pero las máquinas aún no lo pueden imitar
Durante los últimos meses, los investigadores de la inteligencia artificial han dado pasos de gigante para igualar el rendimiento humano en todo tipo de tareas que, hasta ahora, se habían considerado casi imposibles para los ordenadores. Cosas como el reconocimiento de caras y de otros objetos, por ejemplo.
Pero aún existen algunas áreas que siguen presentando grandes dificultades para las máquinas, y el humor es una de ellas. Disponer de un sentido de humor es una cualidad personal única que es famosa por la dificultad de definirla. Lo que hace reírse a una persona y a otra fruncir el ceño puede resultar casi imposible de predecir.
Esto se debe en parte a que el humor depende de tantos parámetros, muchos de los cuales son internos y predispuestos a cambiar de un momento a otro. Lo que puede parecer gracioso ahora puede que más tarde, o mañana, no lo parezca tanto.
No obstante, varios lingüistas y psicólogos han sugerido que los buenos chistes comparten propiedades comunes, y que un análisis sistemático debería desvelarlas. La cuestión es cómo llegar hasta estas primitivas de humor y si puede ayudar el aprendizaje de máquinas.
Hoy nos proporciona una especie de respuesta el trabajo de Dragomir Radev de la Universidad de Michigan y unos colaboradores de Yahoo Labs, la Universidad de Columbia y la revista New Yorker (todos en EEUU). Han estado estudiando los textos y bocadillos asociados con las viñetas.
El New Yorker notoriamente publica una viñeta sin texto cada semana, y pide a sus lectores que manden sus sugerencias para el texto que acompañará a la viñeta. Entonces los editores eligen tres de estas sugerencias y piden a los lectores que voten al mejor.
Esto ha generado una enorme base de datos de textos de viñeta. Esta semana, Radev y su equipo han publicado su estudio sobre 300.000 textos escritos para 50 viñetas del New Yorker desde 2005.
Su método es sencillo. Primero analizan el conjunto de textos para cada viñeta utilizando varias técnicas lingüísticas estándar. El criterio incluye el nivel de sentimiento positivo o negativo, si los textos se centraban en humanos (en otras palabras, si se referían a personas), lo claro que está que se refiere a objetos representados en la viñeta, y así.
El equipo de Radev también empleó la teoría de redes para estudiar los textos. Enumeraron los temas mencionados en cada texto, y entonces crearon una red que conectaba los textos que mencionaron los mismos temas. Esto les permitió emplear herramientas estándar de análisis de red para encontrar, por ejemplo, el nodo más importante de cada red, una propiedad conocida como la centralidad.
Cada uno de estos métodos produjo una clasificación de los textos. Radev y su equipo escogieron los textos más valorados y los compararon con el estándar de oro: textos que los lectores del New Yorker habían elegido como el más gracioso. Esto lo pudieron hacer gracias al crowdsourcing de opinión mediante Mechanical Turk de Amazon, preguntando a siete "turkeros" que eligiesen al más gracioso de dos textos o que los puntuaran por igual.
El equipo de Radev dice que los resultados arrojan algo de luz sobre la naturaleza de los textos graciosos. "Hemos encontrado que los métodos que seleccionan consistentemente los textos más graciosos son el sentimiento negativo, humano-centrismo, y centralidad léxica", afirman.
Es un estudio curioso que resulta difícil de evaluar. Los investigadores reconocen que no sorprende la correlación entre textos graciosos y los sentimientos negativos; el humano-centrismo también es una propiedad esperada del humor. El significado de la centralidad léxica está menos claro.
Precisamente allí reside el problema de este tipo de investigaciones. Es fácil imaginar que un objetivo de este tipo de trabajo sea crear una máquina capaz de elegir automáticamente el mejor texto de entre miles que participan en la competición del New Yorker cada semana. Pero estos equipos parecen estar tan lejos como siempre de conseguirlo. ¿Alguno de estos métodos automáticos escogió de forma fiable el texto elegido por los lectores? Radev y su equipo no se han pronunciado al respecto, por lo que presumiblemente no.
Un objetivo más ambicioso sería encontrar la manera de escribir mejores textos para las viñetas, quizás de forma automática. ¿La conclusión de este trabajo al respecto? Espera sentado.
Y quizás esto sea un alivio. Al menos existe una cualidad humana que va más allá del alcance de las técnicas de aprendizaje de máquinas.
En su defensa, el equipo de Radev está poniendo su corpus de viñetas y textos asociados a disposición de otros investigadores. Así que si existe alguien que crea que puede hacerlo mejor, lo puede intentar.
Ref: arxiv.org/abs/1506.08126 : Humor in Collective Discourse: Unsupervised Funniness Detection in the New Yorker Cartoon Caption Contest