El programa Scribe utiliza seres humanos a través de Internet para generar subtítulos de voz en menos de cinco segundos.
El informático Jeffrey Bigham ha creado un programa de reconocimiento de voz que combina lo mejor de las máquinas y las personas.
Aunque los programas de reconocimiento de voz como Siri de Apple y Dragon de Nuance son bastante buenos a la hora de escuchar voces familiares y palabras claramente dictadas, la tecnología todavía no es capaz de subtitular eventos que presenten nuevas personas, acentos, frases y ruidos de fondo. A la gente se le da bastante bien comprender palabras en estas situaciones, pero la mayoría de nosotros no somos lo suficientemente rápidos como para transcribir el texto en tiempo real (por eso los taquígrafos profesionales pueden llegar a cobrar más de 100 dólares, o 78 euros, a la hora). Scribe, creado por Bigham, aumenta la capacidad de los rápidos ordenadores y les aporta la precisión de los seres humanos, con la esperanza de procesar subtítulos y transcripciones a gran velocidad.
Este rapidísimo experimento de computación a través de multitudes podría ser de gran ayuda para personas sordas o con dificultades auditivas. También podría proporcionar nuevas formas de mejorar aplicaciones de reconocimiento de voz como Siri en áreas donde tienen problemas.
Los algoritmos de Scribe usan grupos de trabajadores humanos (algo conocido como crowdsourcing) para que escriban fragmentos de lo que escuchan a lo largo de un discurso. Al subir el volumen o reducir la velocidad de los fragmentos de audio, el programa puede dirigir a los trabajadores a distintas secciones únicas, aunque superpuestas, de un discurso, y después darles unos segundos para recuperarse antes de pedirles que lo escriban de nuevo.
Mediante el uso de algoritmos de procesamiento de lenguaje natural, Scribe une los fragmentos escritos y crea una transcripción completa. Las superposiciones redundantes pueden ayudarle a eliminar errores. (Esta técnica de computación tan abrupta y de alta velocidad es similar al modo de funcionamiento de muchas máquinas de secuenciación de ADN, afirma Bigham). Puede producir una transcripción o un título con un retraso tan corto de hasta tres segundos, con solo tres o cinco trabajadores.
El único requisito es que los trabajadores puedan escuchar y escribir, por lo que incluso en grupo cuestan menos que un taquígrafo y no necesitan ser avisados con días de antelación, señala. Eso podría ser de gran ayuda para un estudiante sordo que, por ejemplo, quiera asistir a una clase nueva en línea que no haya sido subtitulada.
Bigham y su colega de la Universidad de Rochester (EE.UU.), Walter Lasecki, han puesto a prueba Scribe con trabajadores localizados a través del servicio Mechanical Turk de Amazon, donde la gente se registra para realizar tareas simples. El equipo de Bigham ha pagado a estos trabajadores un mínimo de 6 dólares por hora (4,66 euros). El equipo también contrató a estudiantes universitarios por 10 dólares a la hora (7,76 euros). El trabajo procedente de las personas en ambos grupos pareció ser solo ligeramente menos preciso que el de un taquígrafo profesional, aseguró Bigham. Y en algunos casos, los trabajadores en grupo transcribieron con más precisión términos de jerga que un único mecanógrafo profesional podría no llegar a oír.
"Lo que Scribe está empezando a mostrar es la capacidad de trabajar juntos como parte de un grupo para hacer tareas de difícil rendimiento mejor de lo que las pueda hacer una persona sola", asegura.
Bigham está desarrollando Scribe para que sea una aplicación, y espera que pueda ayudar a que las personas sordas usen a grupos de trabajadores para hacer transcripciones rápidamente. Para dar soporte a un gran número de usuarios, también está considerando otorgar licencias de la tecnología o crear una start-up.
No es la primera vez que alguien ha pensado en utilizar trabajo humano barato y coordinado por ordenador para fortalecer las debilidades tradicionales de los programas de inteligencia artificial u otro tipo de software. Twitter está contratando a gente en Mechanical Turk para ayudar a que su motor de búsqueda clasifique temas que de pronto empiecen a crear tendencias. Bigham también ha creado un sistema de asistencia personal basado en trabajo en grupo llamado Chorus, que podría llegar a ser más inteligente que Siri pero más barato que cualquier individuo empleado por horas.
Esto no quiere decir que el trabajo humano siempre supere a los sistemas automatizados a la hora de transcribir el habla. Aditya Parameswaran, investigadora de la Universidad de Stanford (EE.UU.) que también trabaja en métodos de computación asistidos por humanos, indica que a medida que los algoritmos de aprendizaje mejoren, las técnicas de crowdsourcing como esta serán útiles sobre todo para aumentar la precisión de los ordenadores, en lugar de hacer que los seres humanos realicen el grueso del trabajo.