.

Andrea Daquino

Inteligencia Artificial

TR10: Datos sintéticos para IA

1

Los datos sintéticos pueden crear realidades con las mismas características que los objetos originales, un enfoque que puede contribuir a entrenar IA en áreas con datos reales escasos o sensibles por su privacidad

  • por Will Douglas Heaven | traducido por Ana Milutinovic
  • 28 Febrero, 2022

• ¿Qué? Los beneficios de la IA se concentran en áreas donde hay datos disponibles. Los datos sintéticos prometen llenar los huecos.

• ¿Quién? Synthetic Data Vault, Syntegra, Datagen, Synthesis AI.

¿Cuándo? Ahora.

El pasado año, Science Nigeria señaló que los ingenieros que querían entrenar algoritmos de visión artificial podían elegir entre una gran cantidad de conjuntos de datos con ropa occidental, pero no había ninguno con ropa africana. El equipo abordó ese desequilibrio usando inteligencia artificial (IA) para generar imágenes artificiales de moda africana, un conjunto de datos completamente nuevo desde cero.

Tales conjuntos de datos sintéticos o muestras generadas por ordenador con las mismas características estadísticas que el objeto original, son cada vez más comunes en el mundo hambriento de datos del aprendizaje automático. Estos datos falsos se pueden utilizar para entrenar IA en áreas donde los datos reales son escasos o demasiado sensibles para su uso, como en el caso de informes médicos o datos financieros personales.

La idea de los datos sintéticos no es nueva: los coches sin conductor han sido entrenados en calles virtuales, pero en el último año la tecnología se ha generalizado, con una gran cantidad de start-ups y universidades ofreciendo dichos servicios. Datagen y Synthesis AI, por ejemplo, proporcionan rostros humanos digitales bajo demanda. Otras empresas ofrecen datos sintéticos para finanzas y seguros. El proyecto Synthetic Data Vault, lanzado en 2021 por Data to AI Lab del MIT, produce herramientas de código abierto para crear una amplia variedad de tipos de datos.

Este auge en los conjuntos de datos sintéticos está impulsado por las redes generativas antagónicas o GAN, un tipo de IA capaz de generar ejemplos realistas pero falsos, ya sea de imágenes o de informes médicos.

Los defensores afirman que los datos sintéticos evitan el sesgo que abunda en muchos conjuntos de datos, pero solo será tan imparcial como los datos reales utilizados para generarlo. Por ejemplo, si una red GAN se entrena en menos rostros negros que blancos podría crear un conjunto de datos sintéticos con una mayor proporción de rostros negros, pero esos rostros pueden acabar siendo menos reales debido a los limitados datos originales.

Inteligencia Artificial

 

La inteligencia artificial y los robots están transformando nuestra forma de trabajar y nuestro estilo de vida.

  1. Minería paralela de datos, la técnica del nuevo traductor de Meta para dominar más de 100 idiomas

    La aplicación presentada por Meta nos acerca a la creación de un dispositivo de traducción universal similar al Pez de Babel de La guía del autoestopista galáctico, de Douglas Adams

    Minería paralela de datos, la técnica del nuevo traductor de Meta para dominar más de 100 idiomas
  2. Convirtiendo los trinos en datos: esta IA estudia la migración de las aves a través del sonido

    Tras décadas de frustración, las herramientas de aprendizaje automático están revelando a los ecologistas un tesoro de datos acústicos

  3. Mundos virtuales generativos y modelos que "razonan": qué nos depara la IA en 2025

    Ya sabemos que los agentes y los pequeños modelos lingüísticos serán las grandes tendencias del futuro. No obstante, destacamos otras cinco tendencias que deberías seguir de cerca este año

    Qué nos depara la IA en 2025