La empresa ha compartido Sora con un pequeño grupo de evaluadores de seguridad, pero el resto de nosotros tendremos que esperar para saber más
OpenAI ha creado un nuevo y sorprendente modelo de video generativo llamado Sora que puede tomar una breve descripción de texto y convertirla en un clip de película detallado de alta definición de hasta un minuto de duración.
Basado en cuatro videos de muestra que OpenAI ha compartido con MIT Technology Review antes del anuncio de hoy, la empresa con sede en San Francisco ha superado los límites de lo que es posible con la generación de texto a video (una nueva y candente línea de investigación que señalamos como una de las 10 Tecnologías Emergentes para 2024.
"Creemos que crear modelos capaces de entender el vídeo y todas las complejas interacciones de nuestro mundo es un paso importante para los sistemas de IA del futuro", afirma Tim Brooks, científico de OpenAI.
Pero hay un descargo de responsabilidad. OpenAI nos dio un anticipo de Sora (que significa cielo en japonés) en condiciones de estricto secreto. En una maniobra poco habitual, la empresa sólo compartiría información sobre Sora si accedíamos a esperar a que se hicieran públicas las noticias sobre el modelo para recabar la opinión de expertos externos. [OpenAI no ha publicado ningún informe técnico ni ha demostrado que el modelo funcione realmente. Y dice que no lanzará Sora en breve].
Los primeros modelos generativos que podían producir videos a partir de fragmentos de texto aparecieron a fines de 2022. Pero los primeros ejemplos de Meta , Google y una startup llamada Runway tenían fallos y baja definición. Desde entonces, la tecnología ha mejorado rápidamente. El modelo gen-2 de Runway, lanzado el año pasado, puede producir clips cortos de una calidad similar a la de las animaciones de los grandes estudios. Pero la mayoría de estos ejemplos siguen durando sólo unos segundos.
Los vídeos de muestra de Sora, de OpenAI, son de alta definición y están llenos de detalles. OpenAI también dice que puede generar vídeos de hasta un minuto de duración. Un vídeo de una calle de Tokio muestra que Sora ha aprendido cómo encajan los objetos en 3D: la cámara se adentra en la escena para seguir a una pareja que pasa por delante de una hilera de tiendas.
OpenAI también afirma que Sora maneja bien la oclusión. Uno de los problemas de los modelos existentes es que pueden no seguir la pista de los objetos cuando desaparecen de la vista. Por ejemplo, si un camión pasa por delante de una señal de tráfico, puede que la señal no vuelva a aparecer después.
En un vídeo de una escena submarina de papel maché, Sora ha añadido lo que parecen cortes entre distintas piezas de metraje, y el modelo ha mantenido un estilo coherente entre ellas.
No es perfecto. En el vídeo de Tokio, los coches de la izquierda parecen más pequeños que las personas que caminan a su lado. También aparecen y desaparecen entre las ramas de los árboles. "Queda mucho por hacer en términos de coherencia en el tiempo. Por ejemplo, si alguien desaparece de la vista durante mucho tiempo, no vuelve. El modelo se olvida de que debería estar allí", detalla Brooks.
Provocación tecnológica
Por impresionantes que sean, no cabe duda de que los vídeos de muestra mostrados aquí se han seleccionado para mostrar lo mejor de Sora. Sin más información, es difícil saber hasta qué punto son representativos del rendimiento típico del modelo.
Puede que tardemos en saberlo. El anuncio de Sora por parte de OpenAI es una provocación tecnológica y la empresa afirma que no tiene planes de lanzarlo al público. En su lugar, OpenAI empezará hoy a compartir por primera vez el modelo con probadores de seguridad externos.
En concreto, la empresa está preocupada por los posibles usos indebidos de vídeos falsos pero fotorrealistas. "Estamos teniendo cuidado con el despliegue y asegurándonos de que tenemos todas las bases cubiertas antes de poner esto en manos del público en general", explica Aditya Ramesh, científico de OpenAI, que creó el modelo DALL-E de texto a imagen de la empresa.
Pero OpenAI tiene previsto lanzar el producto en el futuro. Además de los probadores de seguridad, la empresa también está compartiendo el modelo con un grupo selecto de creadores de vídeo y artistas para obtener información sobre cómo hacer que Sora sea lo más útil posible para los profesionales creativos. "El otro objetivo es mostrar a todo el mundo lo que hay en el horizonte y dar un anticipo de lo que serán capaces de hacer estos modelos", afirma Ramesh.
Para crear Sora, el equipo adaptó la tecnología de DALL-E 3, la última versión del modelo de texto a imagen insignia de OpenAI. Como la mayoría de los modelos de texto a imagen, DALL-E 3 utiliza lo que se conoce como modelo de difusión. Estos modelos se entrenan para convertir una maraña de píxeles aleatorios en una imagen.
Sora adopta este enfoque y lo aplica a vídeos en lugar de imágenes fijas. Pero los investigadores también añadieron otra técnica a la mezcla. A diferencia de DALL-E o la mayoría de los otros modelos de vídeo generativo, Sora combina su modelo de difusión con un tipo de red neuronal llamada transformador.
Los transformadores son excelentes para procesar largas secuencias de datos, como palabras. Eso los ha convertido en la salsa especial dentro de grandes modelos de lenguaje como GPT-4 de OpenAI y Gemini de Google DeepMind. Pero los vídeos no están hechos de palabras. En cambio, los investigadores tuvieron que encontrar una manera de cortar los vídeos en trozos que pudieran tratarse como si lo fueran. El enfoque que se les ocurrió fue dividir los vídeos en el espacio y el tiempo. "Es como si tuvieras una pila de todos los fotogramas de vídeo y cortaras pequeños cubos de ella", dice Brooks.
El transformador dentro de Sora puede luego procesar estos fragmentos de datos de video de la misma manera que el transformador dentro de un modelo de lenguaje grande procesa palabras en un bloque de texto. Los investigadores dicen que esto les permitió entrenar a Sora en muchas más variedades de contenido que otros modelos de texto a video, incluidas diferentes resoluciones, duraciones, relaciones de aspecto y orientación. "Esto realmente ayudó al modelo y no sabemos de ningún otro trabajo que haya hecho esto", señala Brooks.
“Desde una perspectiva técnica, parece un avance muy significativo”, afirma Sam Gregory, director ejecutivo de Witness, una organización de derechos humanos que se especializa en el uso y mal uso de la tecnología de vídeo. “Pero la moneda tiene dos caras. Las capacidades expresivas ofrecen el potencial para que muchas más personas se conviertan en narradores utilizando vídeo. Y también existen posibilidades reales de uso indebido”, considera.
OpenAI es muy consciente de los riesgos que conlleva un modelo de vídeo generativo. Ya estamos viendo el uso indebido a gran escala de imágenes deepfake . El vídeo fotorrealista lleva esto a otro nivel.
Gregory señala que se podría utilizar esta tecnología como para desinformar sobre zonas de conflicto o protestas. La variedad de estilos también es interesante, afirma. Si se pudieran generar imágenes temblorosas que parecieran tomadas con un teléfono, parecerían aún más auténticas.
La tecnología aún no está ahí, pero el video generativo pasó de cero a Sora en solo 18 meses. "Vamos a entrar en un universo en el que habrá contenido totalmente sintético, contenido generado por humanos y una mezcla de ambos", afirma Gregory.
El equipo de OpenAI planea aprovechar las pruebas de seguridad que realizó el año pasado para DALL-E 3. Sora ya incluye un filtro que se ejecuta en todas las indicaciones enviadas al modelo y que bloqueará las solicitudes de imágenes violentas, sexuales o que fomenten el odio, así como Imágenes de personas conocidas. Otro filtro observará fotogramas de videos generados y bloqueará material que viole las políticas de seguridad de OpenAI.
OpenAI asegura que también está adaptando un detector de imágenes falsas desarrollado para DALL-E 3 para usarlo con Sora. Y la compañía incorporará etiquetas C2PA estándar de la industria , metadatos que indican cómo se generó una imagen, en toda la producción de Sora. Pero estas medidas están lejos de ser infalibles. Los detectores de imágenes falsas son impredecibles. Los metadatos son fáciles de eliminar y la mayoría de redes sociales los quitan de las imágenes que suben sus usuarios de forma predeterminada.
"Definitivamente, necesitaremos recibir más comentarios y aprender más sobre los riesgos que hay que abordar en relación a los vídeos antes de que tenga sentido lanzar esto", explica Ramesh.
Brooks está de acuerdo: "Una de las razones por las que publicamos esta investigación ahora es para empezar a tener información y poder trabajar en saber cómo implementarlo de manera segura", señala.