IBM lo ha dotado de diversas capacidades, desde la comprensión y traducción hasta la visión artificial, en su esfuerzo por crear un producto comercializable
Watson, el sistema informático de IBM que juega a Jeopardy!, combinó dos áreas independientes de las investigaciones de inteligencia artificial con resultados ganadores. El procesamiento de lenguajes naturales se mezcló con el análisis estadístico de conjuntos vastos de textos para encontrar las respuestas probables a las crípticas preguntas de Jeopardy!
Ahora IBM tiene por objetivo añadir otra técnica poderosa de la inteligencia artificial, conocida como aprendizaje profundo, a la versión comercial de Watson. Esto podría hacer que la plataforma sea considerablemente más inteligente y más útil, y apunta hacia una prometedora dirección futura para las investigaciones de inteligencia artificial.
En sus esfuerzos por comercializar Watson (ver El éxito de Watson depende de que las empresas aprendan a hablar con él), IBM ha puesto algunas de las características desarrolladas para el reto de Jeopardy!, al igual que otras nuevas características, a disposición de los desarrolladores mediante una interfaz de programación de aplicaciones (API, de sus siglas en inglés) en la nube. Ahora ha añadido tres características de aprendizaje profundo al API de Watson: la traducción, la conversión del lenguaje hablado a texto, y la conversión de texto en lenguaje hablado.
Estas tres capacidades podrían utilizarse, por ejemplo, para desarrollar apps o páginas web que ofrezcan servicios de traducción o transcripción. Pero los desarrolladores también podrían conectarlos a otros servicios de Watson que analizan preguntas y buscan respuestas dentro de grandes volúmenes de texto. Esto podría dar paso a una app que haga posible buscar dentro de gran número de documentos con preguntas habladas.
La empresa también ha dicho que colaborará con Yoshua Bengio, un profesor de la Universidad de Montreal (Canadá), una figura prominente dentro del campo del aprendizaje profundo.
El aprendizaje profundo implica el entrenamiento de un ordenador para que reconozca patrones que a menudo son complejos y abstractos mediante la introducción de grandes cantidades de datos por redes sucesivas de neuronas artificiales, y el refinamiento de la manera de reaccionar a los datos de esas redes. Durante los últimos años, este enfoque ha demostrado ser muy eficaz a la hora de reconocer palabras habladas u otras fuentes de audio, o para la clasificación de información visual (ver Aprendizaje profundo).
Se han conseguido unos avances rápidos dentro del aprendizaje profundo en los últimos años gracias a la disponibilidad de grandes cantidades de datos clasificados, sobre todo online, y porque los poderosos procesadores gráficos en paralelo se han demostrado particularmente eficaces en la realización de los cómputos requeridos. Algunas de las empresas tecnológicas más importantes del mundo están deseando encontrar aplicaciones comercialmente relevantes para el aprendizaje profundo (ver Facebook lanza un proyecto avanzado de IA para encontrar el sentido de tus actualizaciones y ¿Quiere Google acaparar el mercado del aprendizaje profundo?). Google y Facebook también han contratado a líderes del aprendizaje profundo para aplicar la tecnología a sus negocios.
Sin embargo, aunque los resultados del aprendizaje profundo a menudo son espectaculares, los sistemas responsables están extremadamente especializados, y pueden fallar de maneras sorprendentes porque no comprenden el mundo de una manera significativa. Si se consiguiese juntar el aprendizaje profundo con otras técnicas de la inteligencia artificial de forma eficaz, podría dar lugar a sistemas más completos y útiles.
"Te puedes imaginar muchos casos de uso diferentes", dice Jerome Pesenti, el vicepresidente de las Tecnologías Base de Watson. "Digamos que tienes un producto de banca o del sector de los seguros, puedes hablar por teléfono y decir ‘Oye, este es mi problema’, y disponer de algo que realmente interactúa contigo, o que te redirige a un humano de verdad cuando el sistema no sabe contestar. Es el tipo de sistema que estamos lanzando ahora".
La combinación de distintos ámbitos de las investigaciones de inteligencia artificial podría convertirse en una tendencia importante en los próximos años.
"Uno de los retos de la inteligencia artificial moderna es volver a construir un campo que casi se ha fragmentado entre estas metodologías", dice James Hendler, el director del Instituto Politécnico Rensselaer (RPI) para la Exploración de Datos y Aplicaciones en Nueva York (EEUU). RPI tiene acceso a una versión temprana de Watson que fue donada a la universidad por IBM, y Hendler imparte asignaturas que se basan en esta tecnología. "La clave de Watson", dice, "es que se trata de forma inherente de coger muchas soluciones distintas e integrarlas para llegar a una decisión".
Aplicar los conocimientos procedentes de un área, como la visión, a otro, como el habla, se conoce como un enfoque multimodal. Podría hacer que los sistemas de inteligencia artificial del futuro sean mucho más útiles, y podría aportar conocimientos fundamentales acerca de la naturaleza de la inteligencia.
Cuando se trate de la comercialización de tales avances, puede que IBM, gracias a Watson, lleve la delantera en la integración de nuevas técnicas de manera útil. Pesenti dice que su equipo ya está haciendo progresos en esta área. "Si te hablo de un perro, es difícil disponer de una comprensión de lo que es un perro sin haber tenido alguna experiencia con ese perro, que obtienes mediante una vista multimodal de lo mismo", dice. "Creemos que en el futuro esto supondrá una parte muy, muy grande de nuestra estrategia".