.

Inteligencia Artificial

Ya puede apuntar 'leer los labios' en 'cosas que la IA hace mejor que los humanos'

1

Dos estudios nuevos emplean aprendizaje de máquinas para entender qué dicen las personas en un vídeo sin necesidad de escucharlas

  • por Jamie Condliffe | traducido por Teresa Woods
  • 23 Noviembre, 2016

Leer los labios de una persona resulta especialmente difícil porque depende tanto del contexto de la conversación y los conocimientos lingüísticos como de las pistas visuales. Pero los investigadores están demostrando que el aprendizaje de máquinas puede discernir el habla de vídeos sin sonido de manera más eficiente que los humanos expertos en lectura de labios.

Un equipo del departamento de informática de la Universidad de Oxford (Reino Unido) ha desarrollado un nuevo sistema de inteligencia artificial (IA) llamado LipNet. Como informó Quartz, su sistema se ha construido con un conjunto de datos conocido como GRID, el cual está compuesto por cortes de vídeo con personas que hablan a cámara y leen frases de tres segundos. Cada frase está basada en una serie de palabras que siguen el mismo patrón.

La inteligencia artificial lee los labios mejor que analistas humanos, según la Universidad de Oxford y Google DeepMind_MIT Technology Review en español
Crédito: Joon Son Chung.

El equipo utilizó ese conjunto de datos para entrenar una red neuronal, similar al tipo que a menudo se utiliza para el reconocimiento de voz. En este caso, sin embargo, la red neuronal identifica variaciones de la forma de la boca y aprende a relacionar esos datos con una explicación de lo que se está diciendo. La IA no analiza las imágenes por partes, sino que las considera en conjunto, lo que le permite comprender mejor el contexto de la frase que está siendo analizada. Es importante, porque hay menos formas de boca que sonidos producidos por la voz humana.

El sistema logró identificar el 93,4% de las palabras correctamente durante las pruebas realizadas. Los voluntarios humanos que realizaron las mismas tareas sólo identificaron correctamente el 52,3% de las palabras.

No obstante, y como informa New Scientist, otro equipo del departamento de ciencia de ingeniería de la Universidad de Oxford, que ha estado colaborando con Google DeepMind, ha abordado una tarea bastante más compleja. En lugar de utilizar un conjunto de datos ordenado y regular como GRID, ha utilizado una serie de 100.000 cortes de vídeo de la cadena televisiva BBC. Estos vídeos tienen un abanico mucho más amplio de lenguaje, con mayores variaciones en la iluminación y las posiciones de las cabezas.

Con un enfoque similar al primer proyecto, el equipo de la Universidad de Oxford y DeepMind ha desarrollado un sistema de IA capaz de identificar el 46,8% de todas las palabras correctamente. También lo hace mucho mejor que los humanos, quienes registraron tan sólo el 12,4% de las palabras sin equivocarse. Hay muchas razones que explican un acierto tan bajo, desde la iluminación y la orientación de la persona hasta una mayor complejidad lingüística.

Diferencias aparte, tanto un experimento como otro demuestran cómo la IA resulta mucho más efectiva que los humanos para leer los labios. No resulta difícil imaginar aplicaciones potenciales para este tipo de programas de software. En el futuro, Skype podría completar la conversación cuando un usuario se encuentre en un ambiente ruidoso. O, por ejemplo, las personas con problemas de audición podrían acercar su smartphone para "escuchar" lo que dice alguien.

(Para saber más: Quartz, New Scientist, Oxford Machine Learning Reading Group, arXiv, The Challenges and Threats of Automated Lip Reading)

Inteligencia Artificial

 

La inteligencia artificial y los robots están transformando nuestra forma de trabajar y nuestro estilo de vida.

  1. La IA generativa puede convertir tus recuerdos en fotos que nunca existieron

    El proyecto Synthetic Memories ayuda a familias de todo el mundo a recuperar un pasado que nunca se fotografió

    Una imagen en blanco y negro generada por ai de una mujer y un niño mirando por una ventana
  2. "La pregunta es cuánta participación humana se necesita para que algo sea arte"

    Alex Reben hace arte con (y sobre) IA. Hablé con él sobre lo que la nueva ola de modelos generativos significa para el futuro de la creatividad humana

    Detalle de un cuadro de una cabeza deformada en la que unas enormes orejas en la parte frontal de la cara tapan los ojos y una lengua brillante con textura de fresa sobresale de la boca abierta.
  3. Compensación y atribución para los creadores, la apuesta de Adobe por una IA generativa diferente

    La empresa afirma que es la prueba de que los modelos de IA de calidad no tienen por qué incluir polémicos contenidos protegidos por derechos de autor

    Imagen generada mediante IA de una mano que utiliza una cuchilla de precisión para cortar un dibujo de la realidad