Facebook ha anunciado al ganador de un concurso de sistemas de inteligencia artificial para detectar vídeos ultrafalsificados de forma automática. Pero su precisión del 65 % sigue siendo insuficiente para ganar esta batalla. Puede que en el futuro ni siquiera las personas sean capaces de detectarlos
Las ultrafalsificaciones o deepfakes han captado muchísima atención, tanto de la sociedad como de los investigadores. Hay algo especialmente inquietante en estas imágenes generadas por inteligencia artificial (IA) de personas que parecen decir o hacer algo que no es verdad.
Con tantas herramientas para crear deepfakes ampliamente disponibles y relativamente fáciles de usar, a muchos les preocupa que se usen para difundir bulos peligrosos. Los políticos pueden acabar pronunciando las palabras de otras personas o participando en situaciones en las que no han estado, por ejemplo.
El miedo existe, pero la verdad es que, para un ojo humano, los deepfakes todavía resultan relativamente fáciles de detectar. Y según el estudio de la empresa de ciberseguridad DeepTrace Labs realizado en octubre de 2019, que sigue siendo el más completo hasta ahora, los contenidos ultrafalsificados no han sido utilizados en ninguna campaña de desinformación. No obstante, el mismo informe también señala que la cantidad de deepfakes publicados online crece rápidamente, con alrededor de 15.000 en los siete meses previos al estudio. En la actualidad, ese número será mucho mayor.
A las empresas de redes sociales les preocupa la posibilidad de que los deepfakes pronto inunden sus plataformas. Pero detectarlos automáticamente resulta difícil. Para abordar ese problema, Facebook quiere usar IA para luchar en contra de las falsificaciones generadas por IA y ha lanzado el mayor conjunto de datos de deepfakes (más de 100.000 vídeos creados con 3.426 actores y una serie de existentes técnicas de intercambio de caras) con el objetivo de entrenar su IA para detectar los vídeos manipulados.
El CTO de Facebook, Mike Schroepfer, detalla: "Los deepfakes no representan un gran problema actualmente. Pero la dura lección que aprendí en los últimos dos años es no quedarse desprevenido. Quiero estar bien preparado para todas las cosas malas que no ocurren hasta que pasan".
Facebook también ha comunicado el ganador de su concurso Deepfake Detection Challenge, en el que 2.114 participantes presentaron alrededor de 35.000 modelos entrenados en su conjunto de datos. El mejor modelo, desarrollado por el ingeniero de aprendizaje automático de la empresa de mapeo Mapbox Selim Seferbekov, pudo acertar si un vídeo era un deepfake con un 65 % de precisión cuando se probó en un conjunto de 10.000 vídeos nunca vistos antes, incluyendo una mezcla de vídeos nuevos generado por Facebook y los existentes tomados de internet.
Para complicar más las cosas, el conjunto de entrenamiento y el de la prueba incluyen vídeos con los que un sistema de detección podría confundirse, como personas que dan tutoriales de maquillaje y vídeos que han sido modificados al pegar texto y formas sobre las caras de los hablantes, cambiando la resolución u orientación o ralentizados.
En vez de aprender las técnicas forenses, como buscar huellas digitales en los píxeles de un vídeo después del proceso de generación de deepfakes, los cinco mejores modelos parece que han aprendido a notar cuándo algo parecía "fuera de lugar", como lo haría un humano.
Para conseguirlo, los ganadores utilizaron un nuevo tipo de red neuronal convolucional (CNN, por sus siglas en inglés) desarrollada el año pasado por los investigadores de Google, denominada EfficientNets. Las CNN se usan habitualmente para analizar imágenes y son buenas para detectar caras o reconocer objetos. No obstante, mejorar su precisión más allá de un cierto punto suele requerir ajustes específicos. EfficientNets ofrece una forma más estructurada de sintonización, facilitando el desarrollo de los modelos más precisos. Pero no está claro exactamente qué es lo que los ayuda a superar a otras redes neuronales en esta tarea, destaca Seferbekov.
Facebook no tiene planes de usar ninguno de los modelos ganadores en su plataforma. Por un lado, una precisión del 65 % aún no es lo suficientemente útil. Algunos modelos lograron más del 80 % de precisión con los datos de entrenamiento, pero su resultado empeoró con los vídeos nunca vistos. La parte más difícil del desafío era generalizar los nuevos vídeos, que podían incluir diferentes caras intercambiadas usando distintas técnicas, explica Seferbekov.
Él cree que una manera de mejorar la detección sería centrarse en las transiciones entre los fotogramas, rastreándolos a lo largo del tiempo. "Incluso los deepfakes de muy alta calidad tienen algunos parpadeos entre los fotogramas", sostiene. Las personas detectan bien estas inconsistencias, especialmente en las grabaciones de rostros. Pero descubrir estos defectos reveladores automáticamente requerirá más cantidad de datos de entrenamiento y mayor variedad y mucha más potencia informática. Seferbekov intentó rastrear estas transiciones de fotogramas, pero no lo logró. "La unidad central de procesamiento fue un verdadero obstáculo", afirma.
Facebook sugiere que la detección de deepfakes también se puede mejorar con el uso de las técnicas que van más allá del análisis de una imagen o de un vídeo en sí, como comprobar su contexto o procedencia.
El director del proyecto Witness que apoya a activistas de derechos humanos en su uso de tecnologías de vídeo, Sam Gregory, aplaude la inversión de las plataformas de redes sociales en la detección de deepfakes. Witness es miembro de la Alianza para la IA, que asesoró a Facebook en su conjunto de datos. Gregory está de acuerdo con Schroepfer en que hace falta prepararse para lo peor, y subraya: "No hemos tenido el apocalipsis de los deepfakes, pero estas herramientas son una adición muy desagradable a la violencia de género y a la desinformación". Por ejemplo, el informe de DeepTrace Labs descubrió que el 96 % de los deepfakes eran de pornografía no consensuada, en la que las caras de otras personas se pegan sobre las de los actores en los vídeos porno.
Teniendo a millones de personas capaces de crear y compartir vídeos falsos, poder confiar en lo que vemos es más importante que nunca. Las noticias falsas se difunden a través de Facebook como si fueran incendios forestales, y la mera posibilidad de tener deepfakes siembra dudas, haciéndonos más propensos a cuestionar imágenes tanto reales como las falsas. Además, la detección automática pronto podría ser nuestra única opción. "En el futuro habrá deepfakes que los seres humanos no seremos capaces de distinguir", concluye Seferbekov.