Cortesía del Laboratorio Lincoln del MIT

Inteligencia Artificial

El problema de que la IA confunda una zona inundada con un váter

Los sistemas de rescate ante emergencias ahorrarían tiempo y recursos si supieran con antelación qué les espera al llegar. La inteligencia artificial podría conseguirlo analizando las imágenes aéreas de la zona, pero hasta ahora no había ninguna entrenada para identificar lo que salía en ellas

por Karen Hao | traducido por Ana Milutinovic
10 Septiembre, 2019

El investigador del Laboratorio Lincoln del MIT (EE. UU.) Andrew Weinert y sus colegas estaban muy frustrados. Después de que el huracán María azotara Puerto Rico, estaban trabajando arduamente para ayudar a la Agencia Federal para el Manejo de Emergencias de EE. UU. (FEMA) a evaluar los daños. Contaban con un conjunto de datos perfecto: 80.000 fotografías aéreas de la región captadas por la Patrulla Aérea Civil justo después del desastre.

Pero había un problema: eran demasiadas imágenes para clasificarlas manualmente, y los sistemas comerciales de reconocimiento de imágenes eran incapaces de identificar nada significativo. En un ejemplo particularmente destacable, ImageNet, el estándar de oro para la clasificación de imágenes, recomendó etiquetar una imagen de una gran zona inundada como inodoro. Weinert lamenta: "Había una información increíble en las fotos, pero no podíamos acceder a ella".

Pronto se dieron cuenta de que este no era el único problema. En cualquier situación de desastre a gran escala, los equipos de emergencia como FEMA podrían ahorrar tiempo y recursos revisando las condiciones en el terreno antes de llegar a él. Pero la mayoría de los sistemas de visión artificial están entrenados con imágenes normales y cotidianas, así que no pueden seleccionar de manera fiable los detalles relevantes en las zonas de desastre.

Esto obligó al equipo a reunir y etiquetar un nuevo conjunto de vídeos e imágenes específicas para escenarios de respuesta de emergencia. Ahora han publicado el conjunto de datos junto a un artículo con la esperanza de que, en el futuro, se use para entrenar sistemas de visión artificial para desastres.

El conjunto de datos incluye más de 620.000 imágenes y 96,5 horas de vídeo de los 50 estados de EE. UU. La mayoría de ellos se obtuvieron de bases de datos gubernamentales o vídeos con licencia Creative Commons en YouTube. Otra pequeña fracción fue captada por el personal de Lincoln Lab.

Imágenes del conjunto de datos.

Foto: Imágenes del conjunto de datos.

Para que fuera realmente útil para los equipos de respuesta a emergencias, los investigadores consideraron varios escenarios que probablemente no funcionarían con los sistemas comunes de clasificación de imágenes. Por ejemplo, recopilaron imágenes de coches inundados, ya que la mayoría de los sistemas reconocerían el agua y etiquetarían el vehículo como un bote, un simple síntoma de sus datos de entrenamiento.

También pasaron bastante tiempo analizando la mejor manera de etiquetar las imágenes. Querían que las anotaciones ofrecieran a los equipos de socorro un contexto útil para sus misiones, y también necesitaban que el esquema de anotaciones fuera lo suficientemente simple para que el sistema de etiquetado de datos funcionara rápidamente con un mínimo de errores. Así que imitaron la estructura organizativa de ImageNet, que agrupa las fotos en categorías muy específicas de objetos, como animales, luego perros y luego labrador retriever. Sin embargo, en lugar de categorías de objetos, los investigadores agruparon las fotos en función de las específicas características de un desastre: ¿hay daños? ¿Sí o no? ¿Hay agua? ¿Sí o no? ¿Debería haber agua allí? ¿Sí o no?

Dichas calificaciones permitirán a los investigadores de visión artificial clasificar fácilmente el conjunto de datos y seleccionar segmentos relevantes para entrenar a los sistemas de reconocimiento de imágenes relacionados con los desastres. Esos sistemas luego ayudarían al personal de socorro a procesar rápidamente las imágenes de nuevos escenarios de desastres para hacerse una idea de cuáles son las peores áreas de impacto, de los tipos de condiciones que se encontrarán en el terreno y de qué suministros necesitan preparar para su misión.

Weinert explica que el trabajo todavía está en progreso, pero está ilusionado con su potencial. El responsable detalla: "Si pudiéramos encontrar una manera de decir: 'Así es como se deben calificar las imágenes de respuesta a desastres', Amazon, Task Rabbit y todas las demás entidades en la nube" podrían empezar a usarlo como un estándar de la industria, y desarrollar más sistemas de reconocimiento de desastres.

Los investigadores han puesto el conjunto de datos a disposición del Instituto Nacional de Estándares y Tecnología de EE. UU. y han comenzado a colaborar con otras organizaciones para organizar concursos de reconocimiento de imágenes relacionadas con este uso. Weinert concluye: "Estamos buscando maneras de ponerlo en las manos de los investigadores de visión artificial".

Inteligencia Artificial

El problema de que la IA confunda una zona inundada con un váter

Deep Research, la herramienta de OpenAI que realiza investigaciones complejas en minutos

El modelo o3-mini de OpenAI, una IA más eficiente y con capacidad de "razonar"

DeepSeek cuestiona la idea de que la IA necesita más energía