Inteligencia Artificial
Un examen más duro que el de Turing revela que las máquinas aún son estúpidas
El Reto del Esquema Winograd presenta frases ambiguas que los ordenadores deben entender, pero el rendimiento de los dos mejores fue prácticamente comparable al del azar
Usuario: Siri, llámame una ambulancia.
Siri: De acuerdo, a partir de ahora te llamaré "una ambulancia".
Apple arregló este error poco después de lanzar su primer asistente virtual en 2011. Pero una nueva competición demuestra que los ordenadores aún carecen del sentido común necesario para evitar esas ridículas confusiones.
Los resultados de la competición fueron presentados en una conferencia académica celebrada esta semana en Nueva York (EEUU), y proporcionan una idea de cuánto trabajo hace falta aún para lograr que los ordenadores sean realmente inteligentes.
Crédito: Max Bode.
El Reto del Esquema Winograd pide a los ordenadores entender frases ambiguas que pero normalmente resultan sencillas de analizar para los humanos. Desambiguar las frases del esquema Winograd requiere sentido común. En la siguiente frase: "Los concejales de la cuidad negaron la licencia a los manifestantes porque temían la violencia", no está lógicamente claro quién es el sujeto del verbo "temían", aunque los humanos lo entienden por el contexto más amplio.
Los programas que participaron en el reto fueron poco mejores que el azar a la hora de escoger el significado correcto de las frases. Los dos mejores acertaron un 48% de las veces, frente al 45% si las respuestas se elegían atoriamente. Para optar al gran premio de 25.000 dólares (unos 22.500 euros), los participantes tendrían que alcanzar al menos una precisión del 90%. Las dos mejores marcas fueron de Quan Liu, un investigador de la Universidad de Ciencia y Tecnología de China, y Nicos Issak, un investigador de la Universidad Abierta de Chipre.
"No sorprende que las máquinas apenas superaran al azar", dice el psicólogo de investigación de la Universidad de Nueva York (EEUU) Gary Marcus, que fue uno de los consejeros de la competición. Eso se debe a que dotar a los ordenadores de conocimientos sobre el sentido común es notoriamente difícil. Codificar los conocimientos a mano requiere una cantidad de tiempo imposible, y no es fácil que los ordenadores aprendan del mundo real mediante análisis estadísticos del texto. La mayoría de los participantes del Reto del Esquema Winograd intentaron emplear alguna combinación de entendimiento gramático codificado a mano y una base de conocimientos de hechos y datos.
Marcus, que también es cofundador de una nueva start-up de inteligencia artificial (IA), Geometric Intelligence, dice que es reseñable que Google y Facebook no participaran en el evento, aunque los investigadores de esas empresas han sugerido que están logrando importantes progresos en el entendimiento del lenguaje natural. "Podría haber pasado que entraran despreocupadamente en la sala, consiguieran un 100% y dijeran: '¡Já!'", sugiere, y añade: "Pero eso me habría sorprendido".
La competición no sólo sirve para medir los progresos en la IA; también demuestra lo difícil que resultará desarrollar bots de conversación más intuitivos y graciosos, y entrenar a los ordenadores para que extraigan más informaciones de los textos escritos.
Investigadores de Google, Facebook, Amazon y Microsoft están fijando sus miras en el lenguaje. Están empleando las últimas técnicas de aprendizaje de máquinas, especialmente las redes neuronales de aprendizaje profundo, para desarrollar bots de conversación más inteligentes e intuitivos (ver El hombre que enseña a las máquinas a entender el lenguaje). De hecho, a medida que estos programas se vuelven más comunes, junto a los increíbles progresos en áreas como el reconocimiento de imágenes y del lenguaje, podríamos pensar que a las máquinas empiezan a dárseles bastante bien entender el habla humano.
Uno de los dos concursantes que ganaron el primer premio sí empleó un enfoque vanguardista del aprendizaje de máquinas. El equipo de Liu, que incluyó investigadores de la Universidad York en Montreal (Canadá) y del Consejo Nacional de Investigaciones de Canadá, empleó el aprendizaje profundo para entrenar al ordenador para reconocer la relación entre distintos acontecimientos, como "jugar al baloncesto" y "ganar" o "lesionarse", a partir de miles de textos escritos.
La investigadora de Leidos Corporation, una empresa de consultoría tecnológics, y una de las organizadoras de la competición Leora Morgenstern, afirma: "Me sentí encantada de ver el uso del aprendizaje profundo". Pero advierte de que incluso en caso de confirmarse estas afirmaciones, la precisión aún distaría mucho de igualar al rendimiento humano.
Las frases de Winograd empezaron a ser utilizadas para medir la comprensión de máquinas por el investigador de la Universidad de Toronto (Canadá) Hector Levesque. Recibieron su nombre por Terry Winograd, un pionero del campo y profesor de la Universidad de Stanford (EEUU) que construyó uno de los primeros programas informáticos de conversación.
El reto fue propuesto en 2014 como una mejora del test de Turing. El antepasado de la computación y de la inteligencia artificial Alan Turing, que durante la década de 1950 se preguntaba si algún día las máquinas llegarían a pensar de la misma manera que los humanos, sugirió una manera sencilla de poner a prueba la inteligencia de una máquina. Su idea consiste en que una máquina intente engañar a una persona para que crea que conversa con otra persona real por medio de una conversación de texto.
El problema con el test de Turing es que a menudo resulta fácil para un programa engañar a una persona para que crea que habla con otra persona con el uso de unos sencillos trucos y evasiones.
La competición podría tener importantes implicaciones prácticas. "Surgirá cuando empecemos a dar servicio a los diálogos", apunta el investigador Charlie Ortiz de Nuance, una empresa que desarrolla software de reconocimiento de voz e interfaces de voz y que patrocinó el Reto del Esquema Winograd. Ortiz dice que se necesitará del razonamiento de sentido común incluso para mantener unas sencillas conversaciones con ordenadores. "A la hora de hacer compras, si digo: 'Quiero comprar una funda para mi guitarra; deberá ser fuerte'. ¿Qué debe ser fuerte, la funda o la guitarra?"
Marcus añade que el sentido común se volverá más importante a medida que los electrodomésticos inteligentes y dispositivos portables se vuelvan más comunes. El experto explica: "Cuando quieres preguntarle algo a tu reloj, no te presenta una lista de 50 opciones. Cuando empiezas a hablar con tu coche o reloj, y prescindes de la modalidad de teclado quieres disponer de un conjunto conectado de frases. La gente tiende a volver a consultar las cosas de forma natural, y tendremos que solucionar estos problemas para que funcione".