SHY KIDS

Inteligencia Artificial

Cómo tres cineastas crearon los impresionantes últimos vídeos de Sora

OpenAI ha publicado una nueva serie de vídeos realizados con Sora, su generador de texto a vídeo. He aquí cómo se hicieron

por Will Douglas Heaven | traducido por
02 Abril, 2024

En el último mes, un puñado de cineastas han probado Sora. Los resultados, publicados esta semana por OpenAI, son asombrosos. Los cortometrajes suponen un gran salto incluso respecto a los vídeos de demostración que OpenAI seleccionó para presentar su nuevo modelo generativo hace solo seis semanas. He aquí cómo lo hicieron tres de los realizadores.

"Air Head" de Shy Kids

Shy Kids es un grupo de pop y un colectivo de cineastas de Toronto que describe su estilo como "punk-rock Pixar". El grupo ya ha experimentado antes con la tecnología de vídeo generativo. El año pasado hizo un vídeo musical para una de sus canciones utilizando una herramienta de código abierto llamada Stable Warpfusion. Está bien, pero de baja resolución y con fallos. La película que hizo con Sora, titulada "Air Head", podría pasar por un vídeo real, si no tuviera a un hombre con un globo por cara.

Uno de los problemas de la mayoría de las herramientas de vídeo generativo es que es difícil mantener la coherencia entre fotogramas. Cuando OpenAI pidió a Shy Kids que probara Sora, el grupo quería ver hasta dónde podían llegar. "Pensamos que sería un experimento divertido e interesante: ¿podríamos crear un personaje consistente?", dice Walter Woodman, miembro de Shy Kids. "Creemos que, en su mayor parte, fue un éxito".

Los modelos generativos también pueden tener problemas con detalles anatómicos como manos y caras. Pero en el vídeo hay una escena que muestra un vagón de tren lleno de pasajeros, y las caras son casi perfectas. "Es alucinante lo que puede hacer", dice Woodman. "Esas caras del tren eran todas de Sora".

¿Se ha resuelto el problema del vídeo generativo con las caras y las manos? No del todo. Seguimos viendo partes del cuerpo deformadas. Y el texto sigue siendo un problema (en otro vídeo, de la agencia creativa Native Foreign, vemos un taller de reparación de bicicletas con el letrero "Biycle Repaich"). Pero todo en "Air Head" es producto bruto de Sora. Después de editar juntos muchos clips diferentes producidos con la herramienta, Shy Kids hizo un montón de posprocesado para que la película tuviera un aspecto aún mejor. Por ejemplo, utilizaron herramientas de efectos visuales para arreglar algunos planos de la cara de globo del protagonista.

Woodman también cree que la música (que escribieron e interpretaron) y la voz en off (que también escribieron e interpretaron) contribuyen a elevar aún más la calidad de la película. La mezcla de estos toques humanos con la producción de Sora es lo que hace que la película parezca viva, dice Woodman. "La tecnología no es nada sin ti", afirma. "Es una herramienta poderosa, pero tú eres la persona que la maneja".

[Actualización: Shy Kids ha publicado un vídeo tras las cámaras de Air Head en X. Ven por los consejos profesionales, quédate por las meteduras de pata de Sora: "¿Cómo mantienes un personaje y un aspecto coherente a pesar de que Sora es una máquina tragaperras en cuanto a lo que recuperas?", pregunta Woodman].

"Abstracto" de Paul Trillo

Paul Trillo, artista y cineasta, quería ampliar lo que Sora podía hacer con el aspecto de una película. Su vídeo es una mezcla de imágenes de estilo retro con tomas de una figura que se transforma en una bola de purpurina y un hombre hecho de basura que baila breakdance. Dice que todo lo que se ve es el resultado bruto de Sora: "Sin corrección de color ni efectos posteriores". Incluso los cortes de salto de la primera parte de la película se produjeron con el modelo generativo.

A Trillo le pareció que los vídeos de demostración que OpenAI publicó el mes pasado se parecían demasiado a clips de videojuegos. "Quería ver qué otras estéticas eran posibles", dice. El resultado es un vídeo que parece rodado con una película antigua de 16 milímetros. "Me llevó bastante tiempo experimentar, pero di con una serie de indicaciones que ayudan a que el vídeo parezca más orgánico o fílmico", dice.

"Más allá de nuestra realidad", de Don Allen Stevenson

View this post on Instagram

A post shared by Don Allen Stevenson III (@donalleniii)

Don Allen Stevenson III es cineasta y artista de efectos visuales. Fue uno de los artistas invitados por OpenAI a probar DALL-E 2, su modelo de texto a imagen, hace un par de años. La película de Stevenson es un documental de naturaleza al estilo de National Geographic que nos presenta una colección de animales imaginarios, desde el “jiraflamenco” al gato anguila.

En muchos sentidos, trabajar con texto a vídeo es como hacerlo con texto a imagen, dice Stevenson. "Se introduce un texto y luego se modifica un montón de veces", dice. Pero hay un obstáculo añadido. Cuando se prueban diferentes instrucciones, Sora produce un vídeo de baja resolución. Cuando das con algo que te gusta, puedes aumentar la resolución. Pero pasar de baja a alta resolución implica otra ronda de generación, y lo que te gustaba en la versión de baja resolución puede perderse.

A veces, el ángulo de la cámara es diferente o los objetos de la toma se han movido, dice Stevenson. La alucinación sigue siendo una característica de Sora, como lo es en cualquier modelo generativo. Con imágenes fijas, esto puede producir extraños defectos visuales; con vídeo, esos defectos pueden aparecer también a lo largo del tiempo, con extraños saltos entre fotogramas.

Stevenson también tuvo que averiguar cómo hablar el idioma de Sora. Dice que se toma las instrucciones al pie de la letra. En un experimento, intentó crear una toma con zoom en un helicóptero. Sora produjo un clip en el que mezclaba un helicóptero con un objetivo zoom de una cámara. Pero Stevenson dice que, con muchas indicaciones creativas, Sora es más fácil de controlar que los modelos anteriores.

Aun así, cree que las sorpresas son parte de lo que hace que la tecnología sea divertida de usar: "Me gusta tener menos control. Me gusta el caos", afirma. Hay muchas otras herramientas de vídeo que permiten controlar la edición y los efectos visuales. Para Stevenson, el objetivo de un modelo generativo como Sora es encontrar material extraño e inesperado con el que trabajar.

Todos los clips de los animales se generaron con Sora. Stevenson probó muchas indicaciones diferentes hasta que la herramienta produjo algo que le gustó. "Lo dirigí, pero es más como un empujón", dice. Luego fue probando variaciones.

Por ejemplo, Stevenson imaginó que su cuervo zorro tenía cuatro patas. Pero Sora le dio dos, lo que funcionó aún mejor. (No es perfecto: los espectadores avispados verán que en un momento del vídeo el cuervo zorro cambia de dos patas a cuatro, y luego vuelve a cambiar). Sora también hizo varias versiones que le parecieron demasiado espeluznantes.

Cuando tuvo una colección de animales que realmente le gustaron, los editó juntos. Luego les añadió subtítulos y una voz en off. Stevenson podría haber creado su colección inventada con las herramientas existentes. Pero le habría llevado horas, incluso días, dice. Con Sora, el proceso fue mucho más rápido.

"Intentaba pensar en algo que quedara bien y experimenté con muchos personajes distintos", explica. "Tengo muchos clips de criaturas aleatorias". Las cosas realmente encajaron cuando vio lo que Sora hizo con el “jiraflamenco”. "Empecé a pensar: «¿Cuál es la narrativa en torno a esta criatura? ¿Qué come, dónde vive?»", dice. Piensa sacar una serie de películas ampliadas en las que se explique con más detalle cada uno de los animales fantásticos.

Stevenson también espera que sus animales fantásticos transmitan un mensaje más amplio. "Va a haber un montón de contenidos nuevos que inundarán los canales", dice. "¿Cómo vamos a enseñar a la gente lo que es real? En mi opinión, una forma es contar historias que sean claramente fantasía".

Stevenson señala que su película podría ser la primera vez que mucha gente vea un vídeo creado con un modelo generativo. Quiere que esa primera impresión deje una cosa muy clara: esto no es real.

Inteligencia Artificial

Cómo tres cineastas crearon los impresionantes últimos vídeos de Sora

"Air Head" de Shy Kids

"Abstracto" de Paul Trillo

"Más allá de nuestra realidad", de Don Allen Stevenson

El hambre de energía de la IA alimenta el resurgir nuclear

La carrera por la IA entre EE UU y China pone en peligro la paz mundial

DeepSeek, la alternativa china de ChatGPT que desafía a Silicon Valley