El equipo ha creado una base de datos con más de 11.000 imágenes simuladas con distintos tipos de ojos, direcciones e iluminación
El contacto visual es una de las formas más poderosas de la comunicación no verbal. Para que avatares y robots lo puedan aprovechar, los informáticos necesitarán conseguir mayor entendimiento, monitorización y reproducción de este comportamiento.
Pero es más fácil hablar del seguimiento de ojos que conseguirlo. Quizás el enfoque más prometedor sea el entrenamiento de un algoritmo de aprendizaje artificial para que pueda reconocer la dirección que toma la mirada de una persona mediante el estudio de una enorme base de datos de imágenes de ojos en las que la dirección de la mirada ya se conoce.
El problema surge de la carencia de tales bases de datos existentes. Y son difíciles de crear: imagina fotografiar a una persona que mira en todas direcciones, utilizando todo tipo de ángulos y bajo condiciones variantes de iluminación. Y entonces se repite el proceso con otra persona, con una forma distinta de ojos y de cara, y así. Tal proyecto implicaría muchas horas de dedicación además de un coste elevado.
Ahora Erroll Wood de la Universidad de Cambridge (Reino Unido) y su equipo afirman haber solucionado este problema con la creación de una enorme base de datos de justo el tipo de imágenes de ojos que requieren los algoritmos de aprendizaje artificial. Esto les permite entrenar una máquina para que reconozca la dirección de una mirada con mayor precisión de la que se había podido conseguir con anterioridad.
¿Cómo lo han conseguido? El truco reside en que han creado la base de datos de forma artificial. Empezaron por construir un modelo detallado y virtual de un ojo, el párpado y el contorno de ojo. Después incorporaron este modelo a varias caras distintas, representando así a gente de distintos tonos de piel, edades y formas de ojo y las fotografiaron - de forma virtual.
Las fotos se clasifican por cuatro variables: la posición de la cámara, la dirección de la mirada, la iluminación, y el modelo de ojo empleado. Para crear su base de datos, Wood y sus compañeros empezaron con un modelo de ojo y una iluminación determinados, y comenzaron con la mirada dirigida en una dirección concreta. Entonces variaron la posición de la cámara, sacando las fotos de una amplia gama de ángulos en torno a la cabeza.
Después, movieron los ojos a otra posición, y repitieron las variaciones en la posición de la cámara. Y así, sucesivamente.
El resultado es una base de datos de más de 11.000 imágenes, que cubren variaciones de 40 grados en el ángulo de la cámara, y cambios en la dirección de la mirada de 90 grados. Eligieron al azar el color de ojos y la iluminación de cada imagen sacada.
Por último, el equipo de Wood utilizó los datos para entrenar una red neuronal artificial profunda para reconocer la dirección de la mirada. Y probaron el algoritmo resultante con un conjunto de imágenes sacadas de forma espontánea en entornos naturales. "Hemos demostrado que nuestro método tiene mejor rendimiento que otros de última generación para la estimación de direccionalidad de mirada basada en la apariencia de conjuntos de datos mixtos", dicen los investigadores.
Es un trabajo interesante. Las técnicas de aprendizaje profundo están arrasando en el mundo de la informática gracias a dos avances. El primero es un mayor entendimiento de las redes neurales en sí, lo que ha permitido a los informáticos mejorarlas de forma significativa.
El segundo es la creación de enormes conjuntos de datos anotados que pueden utilizarse para la formación de estas redes. Muchos de estos nuevos conjuntos de datos se han creado mediante métodos de crowdsourcing, la externalización abierta de tareas, como el Mechanical Turk de Amazon.
Pero el equipo de Wood utilizó un enfoque distinto. Su conjunto de datos es completamente sintético, creado por ordenador. Así que será interesante ver las otras aplicaciones de este método sintético para la creación de conjuntos de datos para otros tipos de aprendizaje profundo.
Ref: arxiv.org/abs/1505.05916: Rendering of Eyes for Eye-Shape Registration and Gaze Estimation