El aprendizaje 'less than one-shot', o LO-shot, puede enseñar a un modelo de inteligencia artificial a identificar más tipos de objetos que el número de clases de ejemplos con los que ha sido entrenado. Podría lograr que la IA sea más accesible para empresas e industrias y mejorar la privacidad de los datos
El aprendizaje automático generalmente requiere muchísimos datos de ejemplo. Para que un modelo de inteligencia artificial (IA) reconozca a un caballo, hay que mostrarle miles de imágenes de caballos. Esto hace que la tecnología requiera muchos recursos computacionales para funcionar supone una enorme diferencia frente al proceso de aprendizaje humano. Un niño necesita ver solo un puñado de ejemplos de un objeto, o incluso solo uno, para aprender a reconocerlo de por vida.
De hecho, los niños a veces no necesitan ningún ejemplo para identificar algo. Si se les muestran fotos de un caballo y un rinoceronte, y se les explica que un unicornio es algo entre un animal y el otro, los niños podrían reconocer a la criatura mítica en la imagen de un libro la primera vez que la vean.
Un nuevo artículo de la Universidad de Waterloo en Ontario (Canadá) sugiere que los modelos de IA también podrían ser capaces de hacerlo, bajo un proceso que han bautizado como aprendizaje "less than one-shot" o LO-shot. Según su definición, con esta técnica, un modelo de IA debería poder reconocer con precisión más objetos que la cantidad de ejemplos en los que fue entrenado. El enfoque podría representar un gran avance para este campo, que se vuelve cada vez más caro e inaccesible a medida que los conjuntos de datos utilizados crecen sin parar.
Cómo funciona el aprendizaje "less than one-shot"
Los investigadores primero demostraron su enfoque con el popular conjunto de datos de visión artificial conocido como MNIST, que contiene 60.000 imágenes de entrenamiento de dígitos escritos a mano del 0 al 9 y que se utiliza a menudo para probar nuevas ideas en el campo.
En un artículo anterior, investigadores del MIT (EE. UU.) habían introducido una técnica para "destilar" conjuntos de datos gigantes en grupos más pequeños y, como prueba de concepto, comprimieron el conjunto de datos MNIST a sólo 10 imágenes. Dichas imágenes no fueron seleccionadas del conjunto de datos original, sino que se diseñaron y optimizaron cuidadosamente para contener una cantidad de información equivalente al conjunto completo. Como resultado, cuando un modelo de IA se entrene exclusivamente con esas 10 imágenes, podría lograr casi la misma precisión que otro entrenado en todas las imágenes del MNIST.
Foto: Imágenes de muestra del conjunto de datos MNIST. Créditos: Wikimedia
Foto: Las 10 imágenes "destiladas" de MNIST que pueden entrenar a un modelo de IA para lograr una precisión de reconocimiento del 94 % de los dígitos manuscritos. Créditos: Tongzhou Wang 'et al'.
Los investigadores de Waterloo querían llevar el proceso de destilación más allá. Si es posible reducir 60.000 imágenes a 10, ¿por qué no comprimirlas a cinco? Se dieron cuenta de que el truco consistía en crear imágenes que combinaran varios dígitos y marcarlas con etiquetas híbridas o "suaves" (como el ejemplo del caballo y rinoceronte, ambos con rasgos de unicornio).
El estudiante de doctorado en la Universidad de Waterloo y autor principal del artículo, Ilia Sucholutsky, explica: "Si pensamos en el número 3, vemos que también se parece al 8 pero no tiene nada que ver con el 7. Las etiquetas suaves intentan capturar estas partes compartidas. Así que, en vez de decirle a la máquina: 'Esta imagen es el dígito 3', le decimos: 'Esta imagen representa el 60 % del dígito 3, 30 % del dígito 8 y 10 % del dígito 0'".
Los límites del aprendizaje LO-shot
Cuando los investigadores lograron usar con éxito las etiquetas suaves para conseguir el aprendizaje LO-shot con MNIST, empezaron a preguntarse hasta dónde podría llegar esta idea. ¿Existe un límite en la cantidad de categorías que se pueden enseñar a un modelo de IA para identificar a partir de un pequeño número de ejemplos?
Sorprendentemente, la respuesta parece ser que no. Con etiquetas suaves cuidadosamente diseñadas, en teoría, incluso solo dos ejemplos podrían codificar cualquier número de categorías. "Con dos puntos, es posible separar 1.000 clases, 10.000 clases, un millón de clases", asegura Sucholutsky.
Foto: Agrupar las manzanas (puntos verdes y rojos) y naranjas (puntos naranjas) por peso y color. Créditos: Adaptado de una diapositiva de "MACHINE LEARNING 101" de Jason Mayes
Esto es lo que los investigadores han demostrado en su último artículo, a través de una exploración puramente matemática. Desarrollan el concepto con uno de los algoritmos de aprendizaje automático más simples, conocido como k-nearest neighbors (kNN), que clasifica los objetos mediante un enfoque gráfico.
Para comprender cómo funciona kNN, un ejemplo sería la tarea de clasificar las frutas. Si queremos entrenar a un modelo kNN para entender la diferencia entre las manzanas y las naranjas, primero hay que elegir las características que utilizaríamos para representar cada fruta. Si eligiéramos el color y el peso, deberíamos introducir un punto de datos con el color de cada fruta como valor x y su peso como valor y en el kNN.
Luego, el algoritmo kNN agruparía todos los puntos de datos en un gráfico 2D y crearía una línea divisoria entre las manzanas y las naranjas. En este punto, la gráfica se dividiría claramente en dos clases, y el algoritmo ya podría decidir si los nuevos puntos de datos representan una u otra fruta en función del lado de la línea en el que se encuentren.
Para explorar el aprendizaje LO-shot con el algoritmo kNN, los investigadores crearon una serie de pequeños conjuntos de datos sintéticos y diseñaron cuidadosamente sus etiquetas suaves. Luego dejaron que kNN trazara las líneas limítrofes que detectaba y descubrieron que dividió el gráfico con éxito en más clases que puntos de datos. Los investigadores también tenían un alto nivel de control sobre dónde aparecían las líneas divisorias. Con varios ajustes en las etiquetas suaves, consiguieron que el algoritmo kNN dibujara patrones precisos en forma de flores.
Foto: Los investigadores utilizaron ejemplos con etiquetas suaves para entrenar al algoritmo kNN a codificar unas líneas limítrofes cada vez más complejas, dividiendo el gráfico en muchas más clases que puntos de datos. Cada una de las áreas coloreadas en los gráficos representa una clase diferente, mientras que los gráficos circulares laterales muestran la distribución de las etiquetas suaves para cada punto de datos. Créditos: Ilia Sucholutsky 'et al'.
Por supuesto que esta exploración teórica tiene limitaciones. Si bien la idea del aprendizaje LO-shot debería poder transferirse a algoritmos más complejos, la tarea de diseñar ejemplos con etiquetas suaves se vuelve sustancialmente más difícil. El algoritmo kNN es interpretable y visual, y por eso es posible que los humanos diseñen las etiquetas, pero las redes neuronales son complicadas e impenetrables, lo que significa que no es tan factible realizar lo mismo.
La destilación de datos, que funciona para diseñar ejemplos de etiquetas suaves para las redes neuronales, también tiene una gran desventaja: requiere empezar con un conjunto de datos gigante para reducirlo a otro más eficiente.
Sucholutsky ya está trabajando para descubrir otras formas de diseñar estos pequeños conjuntos de datos sintéticos, ya sea a mano o con otro algoritmo. Sin embargo, a pesar de estos desafíos de investigación adicionales, el artículo proporciona las bases teóricas para el aprendizaje LO-shot. "La conclusión es que, en función del tipo de conjuntos de datos que haya, probablemente sea posible obtener enormes mejoras de eficiencia".
Esto es lo que más le interesa al estudiante de doctorado del MIT Tongzhou Wang, que dirigió la investigación anterior sobre la destilación de datos. En referencia a la contribución de Sucholutsky, afirma: "El trabajo se basa en un objetivo realmente novedoso e importante: en los poderosos modelos que aprenden a partir de pequeños conjuntos de datos".
El investigador del Instituto de Ética de la IA de Montreal (Canadá) Ryan Khurana comparte esta opinión: "Lo más significativo es que el aprendizaje de 'less than one-shot' reduciría radicalmente los requisitos de datos para construir un modelo funcional". Esto podría lograr que la IA se vuelva más accesible para empresas e industrias que hasta ahora se han visto obstaculizadas por los requisitos de datos del campo. También podría mejorar la privacidad de los datos, porque se usaría menos información de las personas para entrenar a los modelos.
Sucholutsky subraya que, aunque la investigación no ha hecho más que empezar, está ilusionado. Admite que cada vez que empieza a presentar su artículo a otros investigadores, su reacción inicial es la de que su idea es imposible. Pero, cuando se dan cuenta de que no lo es, se abre un mundo completamente nuevo.