.

Otros

Di hola, o ni hao, a la Siri china

1

YuDian, conocida como la Siri china, está disponible para cualquiera que tenga un teléfono inteligente en el país asiático.

  • por Phil Muncaster | traducido por Lía Moya (Opinno)
  • 20 Noviembre, 2012

Es probable que no hayas oído hablar de iFlyTek. La empresa tampoco es un nombre conocido en el mercado chino. Pero tiene agarrada con fuerza el 80 por ciento de la cuota de mercado de la tecnología de reconocimiento del habla en la República Popular, encabezando un ecosistema de más de 10.000 socios y desarrolladores y con cifras de usuarios en los cientos de millones.

La empresa la fundaron Liu Qingfeng y otros cinco estudiantes de la Universidad de Ciencia y Tecnología de China en 1999. Esta institución está reconocida como uno de los principales centros de investigación del país. Aprovecharon investigaciones llevadas a cabo en el Centro Nacional de I+D en Computación Inteligente y en el Laboratorio de Comunicación Hablada entre Humanos y Máquinas.

iFlyTek ha desarrollado una serie de productos de conversión texto-voz y, más recientemente, de reconocimiento del habla y una plataforma de tecnología del habla en nube llamada Voice Cloud. Con el paso de los años, la fiabilidad del software ha ido mejorando y la tecnología ha encontrado su lugar en una gama cada vez mayor de productos.

En su plataforma Voice Cloud se alojan instrumentos para el reconocimiento del habla, la síntesis del habla, aplicaciones de reconocimiento de voz y, desde marzo de este año, comprensión del habla así como “iFlyTek YuDian”—conocida como la Siri china- para cualquiera que tenga un teléfono con acceso a Internet.

Ian Fogg, analista de IHS iSuppli, afirma que el mercado de tecnología del habla sigue estando relativamente poco desarrollado, pero los proveedores, incluyendo a Google y Nuance han dado grandes pasos en los últimos años usando el poder de la computación en nube para ayudar a procesar preguntas mediante el reconocimiento del habla. “El antiguo modelo era una aplicación de reconocimiento de voz como Dragon Naturally Speaking, pero la pega era que tenías que entrenarlo para que reconociera tu voz”, explica.

Liu admite que iFlyTek tiene “la misma tecnología básica” que Nuance y Google, pero sostiene que su plataforma abierta y la habilidad china hacen que su software sea mejor que los productos estadounidenses.  

La plataforma Voice Cloud ha ido mejorando su fiabilidad con el aumento del número de usuarios, que ha pasado de un millón en la primera mitad de 2011 a unos impresionantes 100 millones en la actualidad, según afirma Liu.

“Estamos en una posición ventajosa respecto a otros competidores en lo que respecta al idioma y el mercado chinos porque tenemos más datos del habla, actualizados a diario por los 100 millones de usuarios de nuestra nube del habla”, afirma Liu.

El chino es especialmente difícil de entender bien en el reconocimiento y la síntesis del habla por la naturaleza tonal del idioma. Es decir, la misma palabra puede significar cosas distintas dependiendo del tono con el que se pronuncia. En cantonés, la palabra gau tiene toda una serie de significados, por ejemplo, “nueve” y “perro”.

En consecuencia, iFlyTek ha creado un “modelo de sistema de dos flujos” que separa la información sobre entonación del espectro para mejorar la fiabilidad, según el director de investigación Hu Yu. La empresa también afirma tener innovadores sistemas que reconocen el habla incluso en condiciones de ruido o en canales con distorsiones.

Liu explica que uno de los valores clave de iFlyTek es su disposición a trabajar con instituciones de investigación externas a la empresa, entre las que está la Universidad de Ciencia y Tecnología de China, la Universidad Tsing Hua y el Instituto de Lingüística de la Academia China de Humanidades.

“La tecnología del habla es típicamente interdisciplinar, incluye muchos temas distintos, como la informática, la acústica, la fonética y la lingüística, entre otros”, afirma. “Con el apoyo del Ministerio de Ciencia y Tecnología de China construimos el Laboratorio Nacional de Ingeniería para el Procesado de Información Hablada, que es el único laboratorio nacional a nivel mundial en el campo del habla y el lenguaje”.

Por último, su extensa red de 10.000 socios y desarrolladores ha asegurado que la tecnología esté disponible en una amplia gama de aparatos, canales y aplicaciones. El mayor operador de redes mundial, China Mobile, compró hace poco un 15 por ciento de la empresa, ampliando aún más su alcance.

Estas asociaciones también han ayudado a la equivalente a Siri, YuDian, a servir mejor a su base de usuarios proporcionándole “ricos recursos de información”, como por ejemplo, información de ocio, viajes y entradas.

Pronto, la tecnología de la empresa podría estar recibiendo órdenes en mercados que no son el chino. Para quienes se muestren escépticos respecto a la capacidad de manejar el inglés de una empresa china, Liu muestra encantado una impresionante lista de premios recibidos por la tecnología de iFlyTek.

Ha ganado el concurso internacional de síntesis del habla Blizzard Challenge durante siete años consecutivos, de 2006 a 2012, el primer puesto en la evaluación de reconocimiento del habla del Instituto Nacional de Estándares y Tecnología de Estados Unidos en 2008 y 2010, el primer puesto en la evaluación de reconocimiento del idioma del mismo instituto norteamericano en 2009 y 2012. Liu afirma que la empresa también ha “finalizado con éxito” I+D en varios idiomas más, entre ellos, japonés, coreano, francés, español y ruso.

Ahora que China representa el mayor mercado mundial para teléfonos inteligentes, existe un claro potencial de crecimiento.

Sin embargo, Daniel Hong, analista jefe de Ovum, afirma que iFlyTek “parece centrado en su mercado cautivo, que es muy grande y donde aún queda mucho margen para crecer”. Fogg, el analista de IHS también cree que el tamaño del mercado chino podría distraer a la empresa a corto plazo.  

Mark Natkin, fundador de la consultora tecnológica con sede en Pekín Marbridge Consulting, se muestra más optimista. “Creo que si son capaces de aprovechar las características únicas del mercado chino y coger impulso, ya tendrán una cierta inercia, lo que en muchos casos conduce a la expansión internacional”, afirma. 

Michael Morgan, analista senior de ABI Research observa que gracias a que por ahora se ha centrado en China, iFlyTek ha podido evitar conflictos legales relacionados con la propiedad intelectual con empresas como Nuance. “A largo plazo, iFlyTek podría aprovechar su experiencia con el idioma local para establecer relaciones con fabricantes de teléfonos locales y crear un negocio lo suficientemente grande como para dar el salto a lo global”, afirma Morgan.

Ahora que ya cuenta con Huawei, ZTE y Lenovo como socios, ese impulso global podría llegar antes de lo esperado, puesto que estos gigantes de la fabricación locales quieren hacer crecer su negocio en el exterior.

Gartner cree que para 2020, la voz será el canal de interacción entre humanos y ordenadores en el 50 por ciento de todas las interacciones de atención al cliente para la Web y los móviles.

Otros

  1. La difícil tarea de señalar quién debe pagar por el cambio climático

    Los mayores contaminadores del mundo, en cifras.

  2. Esto es lo que está sobre la mesa en la conferencia del clima (COP29) de este año

    Las conversaciones se centran en la financiación climática, pero los resultados de las elecciones de EE UU son de gran importancia

  3. Qué va a suceder con los derechos reproductivos en EE UU tras la reelección de Trump

    Siete estados se disponen a implementar leyes que respalden el acceso al aborto, pero el futuro de los derechos reproductivos en EE UU no está claro