.

Andrea Daquino

Inteligencia Artificial

TR10: Datos sintéticos para IA

1

Los datos sintéticos pueden crear realidades con las mismas características que los objetos originales, un enfoque que puede contribuir a entrenar IA en áreas con datos reales escasos o sensibles por su privacidad

  • por Will Douglas Heaven | traducido por Ana Milutinovic
  • 28 Febrero, 2022

• ¿Qué? Los beneficios de la IA se concentran en áreas donde hay datos disponibles. Los datos sintéticos prometen llenar los huecos.

• ¿Quién? Synthetic Data Vault, Syntegra, Datagen, Synthesis AI.

¿Cuándo? Ahora.

El pasado año, Science Nigeria señaló que los ingenieros que querían entrenar algoritmos de visión artificial podían elegir entre una gran cantidad de conjuntos de datos con ropa occidental, pero no había ninguno con ropa africana. El equipo abordó ese desequilibrio usando inteligencia artificial (IA) para generar imágenes artificiales de moda africana, un conjunto de datos completamente nuevo desde cero.

Tales conjuntos de datos sintéticos o muestras generadas por ordenador con las mismas características estadísticas que el objeto original, son cada vez más comunes en el mundo hambriento de datos del aprendizaje automático. Estos datos falsos se pueden utilizar para entrenar IA en áreas donde los datos reales son escasos o demasiado sensibles para su uso, como en el caso de informes médicos o datos financieros personales.

La idea de los datos sintéticos no es nueva: los coches sin conductor han sido entrenados en calles virtuales, pero en el último año la tecnología se ha generalizado, con una gran cantidad de start-ups y universidades ofreciendo dichos servicios. Datagen y Synthesis AI, por ejemplo, proporcionan rostros humanos digitales bajo demanda. Otras empresas ofrecen datos sintéticos para finanzas y seguros. El proyecto Synthetic Data Vault, lanzado en 2021 por Data to AI Lab del MIT, produce herramientas de código abierto para crear una amplia variedad de tipos de datos.

Este auge en los conjuntos de datos sintéticos está impulsado por las redes generativas antagónicas o GAN, un tipo de IA capaz de generar ejemplos realistas pero falsos, ya sea de imágenes o de informes médicos.

Los defensores afirman que los datos sintéticos evitan el sesgo que abunda en muchos conjuntos de datos, pero solo será tan imparcial como los datos reales utilizados para generarlo. Por ejemplo, si una red GAN se entrena en menos rostros negros que blancos podría crear un conjunto de datos sintéticos con una mayor proporción de rostros negros, pero esos rostros pueden acabar siendo menos reales debido a los limitados datos originales.

Inteligencia Artificial

 

La inteligencia artificial y los robots están transformando nuestra forma de trabajar y nuestro estilo de vida.

  1. Los nuevos asistentes de OpenAI y Google auguran la próxima batalla de la IA 

    Prometen estar muy por delante de herramientas como Siri o Alexa. 

    collage de capturas de pantalla de las demos GPT4o y Project Astra
  2. Astra, la apuesta de Google para ampliar la capacidad de la IA verá la luz a finales de año

    Los usuarios podrán interactuar con el asistente de inteligencia artificial mediante audio y vídeo cuando se lance a finales de este año. 

    Captura de pantalla de la demo de Astra en la que el usuario dibuja una flecha roja en la pantalla del teléfono donde la cámara del teléfono muestra la parte superior de un altavoz en un escritorio de la habitación, y Astra responde diciendo que el altavoz de agudos “produce sonidos de alta frecuencia”
  3. AlphaFold 3 de Google DeepMind puede predecir cómo interactúan el ADN, el ARN y otras moléculas

    AlphaFold 3 puede predecir cómo interactúan el ADN, el ARN y otras moléculas, lo que consolida aún más su papel de liderazgo en el descubrimiento de fármacos y la investigación. ¿A quién beneficiará? 

    Modelo AlphaFold 3 de Google Deepmind