Inteligencia Artificial
Ya puede apuntar 'leer los labios' en 'cosas que la IA hace mejor que los humanos'
Dos estudios nuevos emplean aprendizaje de máquinas para entender qué dicen las personas en un vídeo sin necesidad de escucharlas
Leer los labios de una persona resulta especialmente difícil porque depende tanto del contexto de la conversación y los conocimientos lingüísticos como de las pistas visuales. Pero los investigadores están demostrando que el aprendizaje de máquinas puede discernir el habla de vídeos sin sonido de manera más eficiente que los humanos expertos en lectura de labios.
Un equipo del departamento de informática de la Universidad de Oxford (Reino Unido) ha desarrollado un nuevo sistema de inteligencia artificial (IA) llamado LipNet. Como informó Quartz, su sistema se ha construido con un conjunto de datos conocido como GRID, el cual está compuesto por cortes de vídeo con personas que hablan a cámara y leen frases de tres segundos. Cada frase está basada en una serie de palabras que siguen el mismo patrón.
Crédito: Joon Son Chung.
El equipo utilizó ese conjunto de datos para entrenar una red neuronal, similar al tipo que a menudo se utiliza para el reconocimiento de voz. En este caso, sin embargo, la red neuronal identifica variaciones de la forma de la boca y aprende a relacionar esos datos con una explicación de lo que se está diciendo. La IA no analiza las imágenes por partes, sino que las considera en conjunto, lo que le permite comprender mejor el contexto de la frase que está siendo analizada. Es importante, porque hay menos formas de boca que sonidos producidos por la voz humana.
El sistema logró identificar el 93,4% de las palabras correctamente durante las pruebas realizadas. Los voluntarios humanos que realizaron las mismas tareas sólo identificaron correctamente el 52,3% de las palabras.
No obstante, y como informa New Scientist, otro equipo del departamento de ciencia de ingeniería de la Universidad de Oxford, que ha estado colaborando con Google DeepMind, ha abordado una tarea bastante más compleja. En lugar de utilizar un conjunto de datos ordenado y regular como GRID, ha utilizado una serie de 100.000 cortes de vídeo de la cadena televisiva BBC. Estos vídeos tienen un abanico mucho más amplio de lenguaje, con mayores variaciones en la iluminación y las posiciones de las cabezas.
Con un enfoque similar al primer proyecto, el equipo de la Universidad de Oxford y DeepMind ha desarrollado un sistema de IA capaz de identificar el 46,8% de todas las palabras correctamente. También lo hace mucho mejor que los humanos, quienes registraron tan sólo el 12,4% de las palabras sin equivocarse. Hay muchas razones que explican un acierto tan bajo, desde la iluminación y la orientación de la persona hasta una mayor complejidad lingüística.
Diferencias aparte, tanto un experimento como otro demuestran cómo la IA resulta mucho más efectiva que los humanos para leer los labios. No resulta difícil imaginar aplicaciones potenciales para este tipo de programas de software. En el futuro, Skype podría completar la conversación cuando un usuario se encuentre en un ambiente ruidoso. O, por ejemplo, las personas con problemas de audición podrían acercar su smartphone para "escuchar" lo que dice alguien.
(Para saber más: Quartz, New Scientist, Oxford Machine Learning Reading Group, arXiv, The Challenges and Threats of Automated Lip Reading)