Geometric Intelligence afirma que XProp adquiere nuevas capacidades más rápidamente que el resto de productos como los de Google y Microsof y que requiere la mitad de datos
El año pasado, Microsoft y Google demostraron que sus algoritmos de reconocimiento de imágenes habían rendían mejor que los humanos. Las dos empresas han creado, de forma independiente, softwares capaces de superar la puntuación humana en una prueba estándar para reconocer imágenes de 1.000 objetos distintos, desde mezquitas hasta mosquitos.
Pero lograr que sus máuinas vencieran a los humanos, el software de cada empresa tuvo que estudiar 1,2 millones de imágenes etiquetadas. Un niño puede aprender a reconocer un nuevo tipo de objeto o animal con tan sólo un ejemplo.
La start-up Geometric Intelligence afirmó el lunes haber desarrollado un software de aprendizaje de máquinas que aprende mucho más rápido. El CEO, Gary Marcus, afirmó en la conferencia digital EmTech de MIT Technology Review que su software XProp requiere bastantes menos ejemplos que la forma dominante de software de aprendizaje de máquinas, conocido como aprendizaje profundo, para aprender a dominar una nueva tarea visual.
Marcus no ha desvelado cómo funciona XProp, pero sí mostró un gráfico que compara el rendimiento de XProp con el de otro programa de aprendizaje profundo sin nombrar en una prueba que reta al software a aprender a reconocer dígitos escritos a mano.
Ambos sistemas podían rendir de forma más precisa con un entrenamiento más exhaustivo. Pero el software XProp de Geometric Intelligence sacaba mayor provecho de los ejemplos de entrenamiento con los que fue alimentado.
Foto: Gary Marcus. Crédito: Jeremy Portje.
Por ejemplo, después de ver tan sólo unos 150 ejemplos de cada número, sólo se equivocaba al reconocer alrededor del 2% de los nuevos dígitos. El software de aprendizaje profundo necesitó estudiar unos 700 ejemplos de cada número para lograr un rendimiento similar.
Eso no significa necesariamente que XProp vaya a resultar útil. Reconocer los dígitos escritos a mano es un problema más o menos resuelto. Los datos de entrenamiento abundan y los mejores resultados de software de aprendizaje profundo tienen unas tasas de error de alrededor de tan sólo el 0,2%. La ventaja demostrada por XProp respecto al software de aprendizaje profundo en los datos mostrados por Marcus se reducía según aumentaba la cantidad de datos de entrenamiento.
Pero Marcus dijo que XProp también ha obtenido resultados similares en una base de datos de fotos de números de inmuebles recopilados por el proyecto Google Street View y otras pruebas de reconocimiento de imágenes. Esto sugiere que la técnica de la empresa podría ser ampliamente aplicable.
Existe un amplio consenso entre los investigadores de aprendizaje de máquinas sobre la necesitad de nuevas técnicas que requieran menos datos (ver Nace el ordenador capaz de leer un texto escrito a mano).
Marcus aseguró: "El aprendizaje profundo consume una gran cantidad de datos, nosotros lo hacemos más rápido. Podemos disminuir a la mitad el número de datos requeridos, a veces por un ratio mayor".
Como profesor de psicología de la Universidad de Nueva York (EEUU), Marcus ha dedicado décadas al estudio de cómo aprenden los niños. Por ello se siente escéptico sobre la perspectiva de que los recientes avances en áreas como el reconocimiento de voz e imágenes habilitados por el aprendizaje profundo vayan a dar paso necesariamente a progresos en áreas más complejas como entender el lenguaje (ver Un niño de dos años inspira una IA más humana).
Grandes empresas de computación como Google han sido capaces de desarrollar potentes programas de software de reconocimiento de voz e imágenes. Pero para ello han invertido e lo grande en recopilar gigantes colecciones de datos etiquetados de entrenamiento. Marcus no niega que la tecnología vaya a dar paso a productos exitosos (ver Si los asistentes virtuales triunfan, Google podría ser la gran vencedora ). Pero cree que será necesario desarrollar algoritmos menos hambrientos de datos para que el software se aproxime a la manera en la que los humanos pueden aprender a realizar tareas nuevas o adaptarse a circunstancias cambiantes.
Frente al público de EmTech, Marcus afirmó: "Viviemos en la era de big data, y existe esta idea de que simplemente podemos echar más datos al problema. Pero para algunos problemas simplemente no existen suficientes datos".
El lenguaje es un ejemplo, añadió. Con un número infinito de posibles frases, entrenar software con ejemplos etiquetados de todos los posibles significados que ha de reconocer simplemente no es posible. Marcus también señaló los coches autónomos como un ejemplo donde podría no bastar el aprendizaje de máquinas tan necesitado de datos.
Si un coche ha de experimentar las situaciones una y otra vez para dominarlas, entrenarlo para que lidie con cada posible situación de tráfico y meteorológica podría llevarnos un largo tiempo, apuntó.