Inteligencia Artificial

El sistema de aprendizaje profundo de Baidu entiende el lenguaje casi mejor que las personas

La empresa de internet dominante en China presenta Deep Speech 2 supera las habilidades humanas para entender mandarín e inglés

por Will Knight | traducido por Teresa Woods
21 Diciembre, 2015

La empresa líder en China de búsquedas de internet, Baidu, ha desarrollado un sistema de voz capaz de reconocer el habla inglesa y mandarina mejor que las personas, en algunos casos.

El nuevo sistema, llamado Deep Speech 2, es especialmente significativo por su dependencia completa del aprendizaje de máquinas para la traducción. Donde los sistemas más antiguos de reconocimiento de voz incluyen muchos componentes desarrollados a mano para ayudar con el procesamiento de audio y la transcripción, el sistema de Baidu aprendió a reconocer palabras desde cero, simplemente al escuchar miles de horas de audio transcrito.

La tecnología depende de una potente técnica conocida como aprendizaje profundo, que incluye el entrenamiento de una enorme red virtual de múltiples capas de neuronas para reconocer patrones dentro de vastas cantidades de datos. La app de Baidu para smartphone permite que los usuarios busquen por voz, y también incluye un asistente personal controlado por voz llamado Duer (ver Baidu se lanza al control por voz con su asistente personal Duer). Las consultas hechas por voz son más populares en China porque requiere más tiempo introducir el texto, y porque algunos usuarios no saben utilizar Pinyin, el sistema fonético para transcribir el mandarín utilizando caracteres del latín.

"Históricamente, la gente veía al chino y al inglés como dos idiomas completamente diferentes, así que había una necesidad de diseñar unas prestaciones muy diferentes", explica Andrew Ng, un antiguo profesor de la Universidad de Stanford (EEUU) e investigador de Google, y ahora el científico jefe de la empresa china. "Los algoritmos de aprendizaje ahora son tan generales que simplemente te los puedes aprender".

El aprendizaje profundo tiene sus raíces en ideas desarrolladas por primera vez hace más de 50 años, pero durante los últimos años unas nuevas técnicas matemáticas, junto con la mayor potencia computacional y enormes cantidades de datos de entrenamiento, han dado paso a unos progresos asombrosos, especialmente en tareas que requieran algún tipo de percepción audio o visual. La técnica ya ha mejorado el rendimiento del reconocimiento de voz y el procesado de imágenes, y algunas grandes empresas como Google, Facebook y Baidu la están aplicando a los masivos conjuntos de datos que poseen.

El aprendizaje profundo también está siendo adaptado para cada vez más tareas. Facebook, por ejemplo, emplea el aprendizaje profundo para identificar caras dentro de las fotos que suben sus usuarios. Y hace poco ha hecho progresos en el uso del aprendizaje profundo para analizar textos escritos (ver El hombre que enseña a las máquinas a entender el lenguaje). Google ahora emplea el aprendizaje profundo en más de 100 proyectos distintos, desde búsquedas hasta coches autónomos.

En 2013, Baidu lanzó su propio esfuerzo por aprovechar esta nueva tecnología, el Instituto de Aprendizaje Profundo, coubicado en la sede principal de la empresa en Pekín (China) y en Silicon Valley (EEUU). Deep Speech 2 fue principalmente desarrollado por un equipo radicado en California (EEUU).

Al desarrollar Deep Speech 2, Baidu también ha creado una nueva arquitectura de hardware para el aprendizaje profundo que se ejecuta siete veces más rápido que la versión anterior. El aprendizaje profundo generalmente depende de los procesadores gráficos, porque estos resultan buenos para las intensivas computaciones en paralelo que incluye.

La rapidez alcanzada les "permitió hacer la experimentación en una escala mucho más grande de lo que nadie había logrado con anterioridad", afirma Jesse Engel, un investigador científico de Baidu y uno de más de 30 investigadores nombrados en un trabajo que describe Deep Speech 2. "Fuimos capaces de buscar por muchas arquitecturas [de redes neuronales], y reducir la tasa de error de palabra en un 40%".

Ng añade que esto ha producido recientemente algunos resultados impresionantes. "Para frases cortas, fuera de contexto, parece que estamos superando los niveles humanos de reconocimiento", dice.

Añade: "En mandarín, existen muchos dialectos regionales que son hablados por poblaciones mucho más pequeñas, así que existen menos datos. Esto podría ayudarnos a reconocer mejor estos dialectos".

Inteligencia Artificial

El sistema de aprendizaje profundo de Baidu entiende el lenguaje casi mejor que las personas

Minería paralela de datos, la técnica del nuevo traductor de Meta para dominar más de 100 idiomas

Convirtiendo los trinos en datos: esta IA estudia la migración de las aves a través del sonido

Mundos virtuales generativos y modelos que "razonan": qué nos depara la IA en 2025