.

Andrea Daquino

Inteligencia Artificial

TR10: Datos sintéticos para IA

1

Los datos sintéticos pueden crear realidades con las mismas características que los objetos originales, un enfoque que puede contribuir a entrenar IA en áreas con datos reales escasos o sensibles por su privacidad

  • por Will Douglas Heaven | traducido por Ana Milutinovic
  • 28 Febrero, 2022

• ¿Qué? Los beneficios de la IA se concentran en áreas donde hay datos disponibles. Los datos sintéticos prometen llenar los huecos.

• ¿Quién? Synthetic Data Vault, Syntegra, Datagen, Synthesis AI.

¿Cuándo? Ahora.

El pasado año, Science Nigeria señaló que los ingenieros que querían entrenar algoritmos de visión artificial podían elegir entre una gran cantidad de conjuntos de datos con ropa occidental, pero no había ninguno con ropa africana. El equipo abordó ese desequilibrio usando inteligencia artificial (IA) para generar imágenes artificiales de moda africana, un conjunto de datos completamente nuevo desde cero.

Tales conjuntos de datos sintéticos o muestras generadas por ordenador con las mismas características estadísticas que el objeto original, son cada vez más comunes en el mundo hambriento de datos del aprendizaje automático. Estos datos falsos se pueden utilizar para entrenar IA en áreas donde los datos reales son escasos o demasiado sensibles para su uso, como en el caso de informes médicos o datos financieros personales.

La idea de los datos sintéticos no es nueva: los coches sin conductor han sido entrenados en calles virtuales, pero en el último año la tecnología se ha generalizado, con una gran cantidad de start-ups y universidades ofreciendo dichos servicios. Datagen y Synthesis AI, por ejemplo, proporcionan rostros humanos digitales bajo demanda. Otras empresas ofrecen datos sintéticos para finanzas y seguros. El proyecto Synthetic Data Vault, lanzado en 2021 por Data to AI Lab del MIT, produce herramientas de código abierto para crear una amplia variedad de tipos de datos.

Este auge en los conjuntos de datos sintéticos está impulsado por las redes generativas antagónicas o GAN, un tipo de IA capaz de generar ejemplos realistas pero falsos, ya sea de imágenes o de informes médicos.

Los defensores afirman que los datos sintéticos evitan el sesgo que abunda en muchos conjuntos de datos, pero solo será tan imparcial como los datos reales utilizados para generarlo. Por ejemplo, si una red GAN se entrena en menos rostros negros que blancos podría crear un conjunto de datos sintéticos con una mayor proporción de rostros negros, pero esos rostros pueden acabar siendo menos reales debido a los limitados datos originales.

Inteligencia Artificial

 

La inteligencia artificial y los robots están transformando nuestra forma de trabajar y nuestro estilo de vida.

  1. El gobierno de EE UU pone bajo la lupa a las empresas de IA por publicidad engañosa

    La Comisión Federal de Comercio (FTC) de Estados Unidos ha tomado medidas contra varias empresas de IA por mentir y realizar publicidad engañosa, una lucha que continuará durante el próximo mandato de Donald Trump

    La Comisión Federal de Comercio (FTC) de Estados Unidos ha tomado medidas contra varias empresas de IA
  2. Las emisiones de la IA están a punto de dispararse aún más

    Las emisiones de los centros de datos se han triplicado desde 2018. A medida que modelos de IA más complejos como Sora de OpenAI comiencen a generalizarse, es probable que esas cifras se disparen

    Ordenador portátil echando humo
  3. La IA llega al campo de batalla para redefinir la toma de decisiones en la guerra moderna

    Anduril, fabricante de drones y misiles con IA, ha firmado un acuerdo con el Pentágono de EE UU para integrar sus sistemas en conflictos armados y optimizar la toma de decisiones, un aspecto que ya ha generado preocupación en organismos internacionales como Human Rights Watch

    La IA llega al campo de batalla