Asistentes de voz con la forma de una niña robot utilizan la tecnología de iFlytek para saludar y dirigir a los visitantes.

Inteligencia Artificial

Aunque la IA aún no sabe lo que dice, 500 millones de chinos hablan con ella para casi todo

La tecnología de reconocimiento de voz de iFlytek se ha infiltrado en casi todos los sectores del país y ya se utiliza para cosas como ayudar a la conducción, recibir a pacientes en hospitales, crear registros médicos y traducir la comunicación entre interlocutores de distintos idiomas

por Yiting Sun | traducido por Patricia R. Guevara
26 Septiembre, 2017

Cuando Gang Xu, un ciudadano de Beijing de 46 años, necesita comunicarse con su arrendatario canadiense para consultar cosas sobre el pago de su alquiler o las facturas, abre una aplicación llamada iFlytek Input en su teléfono inteligente y pulsa un icono con aspecto de micrófono; entonces, comienza a hablar. El software convierte sus mensajes verbales chinos en mensajes de texto en inglés y los envía al inquilino canadiense. También traduce al chino los mensajes escritos por el inquilino, creando un ciclo de conversación bilingüe.

En China, más de 500 millones de personas utilizan iFlytek Input para superar obstáculos en la comunicación, como al que se enfrenta Xu. Algunos también lo usan para enviar mensajes de texto a través de comandos de voz mientras conducen, o para comunicarse con un interlocutor de otro dialecto chino. La aplicación fue desarrollada por iFlytek, una compañía china de inteligencia artificial (IA) que aplica aprendizaje profundo en una amplia gama de campos como el reconocimiento de voz, el procesamiento de lenguaje natural, la traducción automática y la minería de datos. Esta empresa se ha alzado con el puesto número 6 de la selección de las 50 empresas más inteligentes de 2017 de MIT Technology Review.

Los sistemas judiciales utilizan su tecnología de reconocimiento de voz para transcribir procedimientos muy extensos; los negocios de centros de llamadas utilizan sus herramientas de síntesis de voz para generar respuestas automatizadas; y Didi, una popular aplicación china de taxis, utiliza la tecnología de iFlytek para transmitir órdenes a los conductores.

Para que Xu sea capaz de comunicarse con su inquilino canadiense han sido necesarios varios progresos impresionantes en el reconocimiento de voz y la traducción instantánea. Sin embargo, la comprensión del idioma y la traducción sigue siendo una tarea muy desafiante para las máquinas.

Xu recuerda un malentendido cuando trató de preguntar a su inquilino cuándo saldría del trabajo para firmar la renovación del contrato. Pero el mensaje de texto enviado por la aplicación decía: "¿A qué hora vas a trabajar hoy?". En retrospectiva, cree que este error probablemente se debió a la redacción de su pregunta: "¿hasta qué hora trabajará hoy?". Xu, que todavía depende de la app para comunicarse, afirma: "A veces, en función del contexto, no puedo hacer llegar mi mensaje".

La historia de Xu pone de relieve por qué es tan importante para una empresa como iFlytek reunir tantos datos como sea posible sobre las interacciones del mundo real. La aplicación, que es gratuita, ha estado recopilando datos desde su lanzamiento en 2010.

La plataforma de desarrolladores de iFlytek, llamada iFlytek Open Platform, proporciona tecnologías de IA basadas en voz a más de 400.000 desarrolladores en diversas industrias como la domótica y el internet móvil. La empresa tiene un valor de 80.000 millones de yuanes (más de 10.000 millones de euros) y tiene ambiciones internacionales, incluida una filial en los Estados Unidos y un intento por expandirse a otros idiomas que no sean chinos. Mientras tanto, la empresa está cambiando la forma en que muchas industrias, como la conducción, la atención de la salud y la educación, interactúan con sus usuarios en China.

Foto: iFlytek tiene su sede en Hefei, China.

En agosto, iFlytek lanzó un asistente de voz para conductores llamado Xiaofeiyu (Pequeño Pez Volador). Para garantizar una conducción segura, no tiene pantalla ni botones. Una vez conectado a internet y al smartphone del conductor, puede realizar llamadas, reproducir música, buscar direcciones y restaurantes mediante comandos de voz. A diferencia de los asistentes de voz destinados a los hogares, Xiaofeiyu fue diseñado para reconocer las voces en un ambiente ruidoso.

El vicepresidente de AISpeech, otra empresa china que trabaja en tecnologías de interacción hombre-máquina basadas en voz, Min Chu, dice que los asistentes de voz para los conductores son en cierto modo más prometedores que los altavoces inteligentes y los asistentes virtuales integrados en los smartphones. Cuando los ojos y las manos del conductor están ocupados, es cuando más sentido tiene confiar en comandos de voz. Además, una vez que los conductores se acostumbren a hacer cosas con la voz, el asistente también podrá convertirse en un proveedor de contenido, recomendando opciones de entretenimiento en lugar de tratar las solicitudes de forma pasiva. De esta manera, podría aparecer un nuevo modelo de negocio.

En la industria de la atención médica, aunque la inteligencia artificial tiene el potencial de reducir los costes y mejorar los resultados de los pacientes, muchos hospitales son reacios a dar el paso por miedo a perturbar un sistema ya tenso que tiene pocos médicos pero muchos pacientes. En el Hospital Provincial de Anhui (China), que está probando una serie de ensayos utilizando IA, las tecnologías basadas en voz están transformando muchos aspectos de su servicio. Diez auxiliares de voz en forma de niñas robóticas utilizan la tecnología de iFlytek para saludar a los visitantes en el vestíbulo del departamento de pacientes externos y aliviar el trabajo de los sobrecargados recepcionistas. Los pacientes pueden decirle al asistente cuáles son sus síntomas para que averigüe qué departamento puede ayudarles.

Según los datos recogidos por el hospital desde junio, el asistente de voz dirigió a los pacientes al departamento correcto en el 84% de los casos.

Los médicos del hospital también están usando iFlytek para dictar a una app móvil los signos vitales de un paciente, los medicamentos que toma y otras piezas de información. El sistema convierte estos datos en registros escritos. La aplicación utiliza la tecnología de impresión por voz como un sistema de firma que no se puede falsificar. Además, está recopilando datos que mejorarán sus algoritmos con el tiempo.

Aunque las técnicas de IA basadas en voz se están volviendo más útiles en diferentes escenarios, su avance sigue teniendo por delante un desafío fundamental: las máquinas no comprenden las respuestas que generan, advierte el profesor de la Universidad de Pekín (China) Xiaojun Wan, que investiga el procesamiento del lenguaje natural. La IA responde a las consultas de voz buscando una respuesta relevante dentro de la gran cantidad de datos de los que se alimentó, pero no tiene una comprensión real de lo que dice.

En otras palabras, la tecnología de procesamiento de lenguaje natural que sustenta a los asistentes de voz hoy en día se basa en un conjunto de reglas rígidas, y da lugar a situaciones como la del malentendido que le sucedió a Xu. Cambiar la forma en que la que las máquinas procesan el lenguaje ayudará a las empresas a crear dispositivos de voz basados en inteligencia artificial, que se convertirán en una parte integral de nuestra vida diaria. "Quien haga un gran avance en el procesamiento del lenguaje natural disfrutará de una ventaja en el mercado", concluye Chu.

Créditos

iFlytek

Inteligencia Artificial

Aunque la IA aún no sabe lo que dice, 500 millones de chinos hablan con ella para casi todo

Créditos

DeepSeek cuestiona la idea de que la IA necesita más energía

El hambre de energía de la IA alimenta el resurgir nuclear

La carrera por la IA entre EE UU y China pone en peligro la paz mundial