El software ha sido entrenado con 3.000 imágenes graciosas, las cuales identifica en función de sus elementos inesperados o incongruentes, y otras 3.000 versiones sin esos elementos
El humor es una cualidad esencialmente humana. La mayoría de la gente sabe cuando una frase, un hecho, una foto o un vídeo es gracioso. Pero no siempre resulta fácil afirmar por qué estas cosas nos hacen gracia.
Así que podría decirse que el humor es uno de los últimos bastiones que distinguirá a los humanos de las máquinas. Los ordenadores, según las creencias convencionales, no tendrán ninguna posibilidad de desarrollar el sentido de humor hasta que puedan entender las sutilezas de nuestros ricos entornos sociales y culturales. E incluso las máquinas de inteligencia artificial más potentes se encuentran muy lejos de eso.
Puede que esa creencia tenga que cambiar pronto debido a Arjun Chandrasekaran del Instituto Politécnico y la Universidad Estatal de Virginia (EEUU) y sus compañeros. El equipo afirma haber entrenado un algoritmo de aprendizaje de máquinas para reconocer escenas graciosas y hasta crearlas. Afirman que su máquina puede predecir con precisión cuándo una escena es graciosa y cuándo no, aunque no entiende nada del contexto social de lo que ve.
Los psicólogos tienen un entendimiento relativamente pobre de los mecanismos subyacentes al humor. La mayoría de las teorías sobre el humor sugieren que sus componentes clave son cualidades como el carácter inesperado, la incongruencia y el dolor, entre otros elementos. Cuando se encuentra alguno (o todos) de estos elementos en frases, fotos y vídeos, aumentan las probabilidades de evocar una sonrisa.
El equipo de Chandrasekaran limita su estudio a las fotos. Y para no complicar las cosas, se centran en fotos creadas con un programa de clip art que contiene 20 modelos humanos de "muñeco de papel" de varias edades, sexos y razas con brazos y piernas movibles y ocho expresiones faciales diferentes. También contiene 31 animales con varias poses y alrededor de 100 objetos de interiores y exteriores como puertas, ventanas, mesas, el Sol, nubes, árboles, y así.
Una pieza clave de cualquier proceso de aprendizaje de máquinas es la creación de una base de datos que contenga buenos ejemplos de lo que el algoritmo pueda aprender. No es una tarea fácil, especialmente cuando se trata de algo tan subjetivo como el humor.
Este equipo abordó este aspecto al pedir a los trabajadores del servicio Mechanical Turk de Amazon que crearan escenas graciosas mediante el uso del programa de clip art, junto con una corta frase que describe por qué creen que las escenas son graciosas. También pidieron a estas personas - turkeros, como se les ha denominado - crear escenas no graciosas.
De esta manera, el equipo amasó una base de datos de 6.400 imágenes, la mitad de las cuales eran graciosas y la otra mitad no. Calibraron esta base de datos al pedir a otros turkeros que puntuasen la comicidad de cada escena, y encontraron que la mayoría correspondían a sus categorías intencionadas, aunque algunas escenas no graciosas acabaron siendo graciosas de forma no intencionada y viceversa.
Después de un análisis más profundo, resultó que las escenas calificadas como las más graciosas normalmente se asociaban con animales o personas haciendo algo inusual.
Eso indujo al equipo a pensar en otras maneras de alterar la comicidad de una imagen. Una manera de hacerlo es reemplazar el objeto o persona que hace algo inusual por otro objeto o persona. Así que pidieron a los turkeros que reemplazaran los objetos por otros que fueran tan similares como fuera posible al primer objeto, pero que eliminaran la comicidad de la escena. "Esto nos ayuda a entender las finas semánticas que hacen que una categoría específica de objetos contribuya al humor", explican.
De esta manera, alteraron cada una de las 3.000 imágenes graciosas de cinco maneras distintas para crear una base de datos de 15.000 contrapartidas no graciosas de imágenes graciosas.
Con esta base de datos, el equipo de Chandrasekaran empezó la tarea de entrenar un algoritmo de aprendizaje de máquinas para reconocer la diferencia entre imágenes graciosas y no graciosas (reservando el 20% de la base de datos para poner el algoritmo a prueba más adelante).
Le encargó dos tareas a la máquina. La primera era predecir la comicidad de una escena y la segunda, alterar la comicidad de una escena al reemplazar un objeto que contenía.
Los resultados representan una lectura interesante. En general, el algoritmo rinde bastante bien a la hora de predecir la comicidad de una escena. Desde luego con mejores resultados que si contestara al azar.
La tarea de alterar la comicidad de una escena consiste en dos partes. La primera es reconocer los elementos de la escena que contribuyen al humor y el segundo es elegir un sustituto para el objeto que reduzca su gracia.
En la primera tarea, el algoritmo ha hecho unos progresos interesantes. "Observamos que el modelo aprende que, en general, los objetos animados como animales y humanos son unas fuentes más probables de humor en comparación con los objetos inanimados y por tanto, tiende a reemplazar estos objetos", escribe el equipo de Chandrasekaran.
El algoritmo hace progresos en la segunda tarea también. "Elimina el humor de la mayoría de las escenas al elegir reemplazar objetos que contribuyen al humor por otros objetos que concuerdan bien con el entorno", afirma el equipo. "Por ejemplo, el algoritmo puede reemplazar el objeto inusual en un entorno de interiores con una planta que no desentona o una mariposa en escenas de exteriores".
Y las técnicas funcionan bien. "En las evaluaciones humanas, las escenas modificadas [por nuestro algoritmo] para eliminar la comicidad se consideraron menos graciosas que la escena original en un 95% de las veces", escriben. La máquina rindió peor a la hora de añadir humor a las escenas, pero eso representa claramente algo en lo que trabajar en un futuro.
Por supuesto, una pregunta importante es exactamente qué está aprendiendo hacer la máquina. En este trabajo, la comicidad puede ser un indicador de otra cosa completamente distinta. De hecho, si el trabajo del equipo de Chandrasekaran fuera reescrito reemplazando cada instancia de la palabra "comicidad" con la palabra "rareza" o "incongruidad" o "inesperado", los resultados no serían menos válidos.
No obstante, el equipo empleó un enfoque interesante que podría dar paso a algunas aplicaciones fascinantes. La capacidad de juzgar el humor de una escena podría ayudar a los investigadores a desarrollar mejores herramientas de edición de fotos, herramientas que escogen fotos graciosas para compartirlas en redes sociales, o incluso cámaras inteligentes que puedan escoger los mejores momentos para sacar una foto graciosa.
También forma parte de un nuevo campo de humor computacional, que utiliza la inteligencia de máquinas para hacernos reír. Quizás algún día las máquinas hasta compartan el chiste con nosotros.
Ref:arxiv.org/abs/1512.04407: We Are Humor Beings: Understanding and Predicting Visual Humor