Computación

China derrota a Google en aprendizaje profundo para reconocer imágenes

El superordenador de Baidu, Minwa, ha batido el récord mundial y planea aplicar su software en aplicaciones para 'smartphone'

por Tom Simonite | traducido por Francisco Reyes
14 Mayo, 2015

Foto: El gigante chino de las búsquedas, Baidu, asegura haber inventado un potente superordenador con el que dar nuevo impulso a una técnica de inteligencia artificial que aumenta la potencia del software para entender el habla, las imágenes y el lenguaje escrito.

El nuevo ordenador, llamado Minwa y ubicado en Pekín (China), cuenta con 72 potentes procesadores y 144 procesadores gráficos o GPU. El lunes por la tarde, Baidu publicó un documento en el que afirmaba que el ordenador había sido utilizado para entrenar un software de aprendizaje de máquinas que ha logrado un nuevo récord en el reconocimiento de imágenes, superando el resultado anterior establecido por Google.

"Nuestra compañía está a la cabeza de la carrera de la inteligencia computacional", señaló uno de los científicos de Baidu que trabaja en el proyecto, Ren Wu, durante su intervención el martes en la Embedded Vision Summit. La potencia de cálculo de Minwa probablemente lo colocaría entre los 300 ordenadores más potentes del mundo si no estuviera especializado en el aprendizaje profundo, afirmó Wu. "Creo que este es el superordenador más rápido dedicado al aprendizaje profundo", señaló. "Tenemos mucho poder en nuestras manos, mucho más que nuestros competidores".

La potencia de cálculo es importante en el mundo del aprendizaje profundo, que ha logrado grandes avances en el reconocimiento del habla, la imagen y los rostros, y ha mejorado los servicios de búsqueda de imágenes y de reconocimiento de voz que ofrecen Google y Baidu.

La técnica es una versión mejorada de un enfoque que se estableció por primera vez hace décadas, mediante el que los datos son procesados por una red de neuronas artificiales que gestionan la información de forma ligeramente inspirada en los cerebros biológicos. El aprendizaje profundo implica el uso de redes neuronales más grandes que las anteriores, ordenadas en capas jerárquicas y entrenadas con colecciones significativamente más grandes de datos, como por ejemplo fotos, documentos de texto y voz grabada.

Hasta ahora, los conjuntos y redes de datos más grandes siempre parecen ser mejores para la tecnología, afirmó Wu. Esa es una de sus diferencias respecto a las técnicas de aprendizaje de máquinas anteriores, que habían comenzado a producir rendimientos cada vez menores con grandes conjuntos de datos. "Una vez que aumentas la escala de los datos más allá de cierto punto, no puedes ver ninguna mejora", explica el investigador. "Con el aprendizaje profundo, sigue subiendo". Baidu asegura que Minwa hace que sea práctico crear una red neuronal artificial con cientos de miles de millones de conexiones, una cifra cientos de veces mayor que cualquier red construida con anterioridad.

Un documento publicado el lunes tiene como objetivo proporcionar una muestra de lo que es capaz esta potencia adicional de Minwa. Describe cómo se ha utilizado el superordenador para entrenar una red neuronal que ha establecido un nuevo récord de un benchmark estándar del software de reconocimiento de imágenes. El Desafío de Clasificación ImageNet, tal y como se conoce, implica el entrenamiento de software con una colección de 1,5 millones de imágenes etiquetadas en 1.000 categorías distintas, para luego pedir que el software utilice lo que ha aprendido para etiquetar 10.000 imágenes no ha visto antes.

El software se compara en base a la frecuencia con la que sus cinco conjeturas principales de una imagen en particular no dan con la respuesta correcta. El sistema entrenado con el nuevo ordenador de Baidu se equivocó solamente un 4,58% de las veces. El mejor resultado anterior fue del 4,82%, reportado por Google en marzo. Un mes antes, Microsoft informó haber logrado un 4,94%, convirtiéndose en la primera compañía en mejorar el promedio de rendimiento humano, situado en el 5,1%.

Wu afirmó que con Minwa había sido posible entrenar el sistema mediante imágenes de mayor resolución. También permitió el uso de una técnica que convirtió los 1,2 millones de imágenes de entrenamiento originales en 2.000 millones distorsionándolas, dándoles la vuelta y modificando los colores. Al usar este mayor conjunto de entrenamiento se logró mejorar la precisión, evitando que el sistema se obsesionara demasiado con los detalles exactos de las imágenes de entrenamiento, afirmó Wu. El sistema resultante debería ser mejor a la hora de manejar fotos de la vida real, afirmó.

Tal y como podrían sugerir estos pequeños márgenes de victoria en el desafío ImageNet, el aprendizaje profundo ya está listo para enfrentarse a desafíos más difíciles que el reconocimiento de imágenes, como por ejemplo interpretar vídeo y describir imágenes en frases (ver El software de Google dice que en esa foto sale "un grupo de jóvenes jugando al frisbee). Wu afirmó que además de pensar en cómo hacer que Minwa sea aún más grande y cómo utilizarlo con vídeo y texto, los investigadores de Baidu están trabajando en formas de reducir el tamaño de sus redes neuronales entrenadas para poder funcionar en dispositivos móviles.

Mostró un video de un prototipo de aplicación para teléfono inteligente capaz de reconocer distintas razas de perro, usando una versión condensada de una red de aprendizaje profundo entrenada con un predecesor de Minwa. "Si sabes cómo aprovechar la potencia de cálculo de la GPU de un teléfono, puedes hacer el reconocimiento sobre la marcha directamente desde el sensor de imagen", afirmó.

Computación

China derrota a Google en aprendizaje profundo para reconocer imágenes

Google anuncia un hito hacia la computación cuántica sin errores

El vídeo es el rey: bienvenido a la era del contenido audiovisual

Esta empresa quiere superar a Google e IBM en la carrera cuántica con un superordenador de fotones