Inteligencia Artificial

Así es el la IA de Google que permite generar 'podcasts' sorprendentes a partir de cualquier texto

NotebookLM ha sido un éxito sorpresa. Estas son algunas de las formas en que la gente lo está utilizando

por Melissa Heikkilä | traducido por
11 Octubre, 2024

"Muy bien, hoy vamos a sumergirnos de lleno en la tecnología punta", dice una voz masculina con acento estadounidense. Pero esta voz no pertenece a un humano, sino a la nueva herramienta de podcasting de Google, llamada Audio Overview, que se ha convertido en un sorprendente éxito viral.

La función de podcasting se lanzó a mediados de septiembre como parte de NotebookLM, un asistente de investigación impulsado por IA que lleva un año funcionando. NotebookLM, que funciona con el modelo Gemini 1.5 de Google, permite subir contenidos como enlaces, vídeos, PDF y texto. A continuación, pueden hacer preguntas al sistema sobre el contenido, que ofrece breves resúmenes.

La herramienta genera un podcast llamado Deep Dive, en el que una voz masculina y otra femenina hablan acerca del texto que se le ha insertado. Las voces son asombrosamente realistas: los episodios están salpicados de coletillas que suenan humanas, como "hombre…", "guau", "ah, vale" y "espera, a ver si lo entiendo". Los presentadores incluso se interrumpen unos a otros.

Para probarlo, copié todos los artículos del especial del 125 aniversario de MIT Technology Review en NotebookLM e hice que el sistema generara un podcast de 10 minutos con los resultados. El sistema eligió un par de historias en las que centrarse, y los presentadores de IA hicieron un gran trabajo transmitiendo la esencia general de lo que trataba el número manteniendo el alto nivel de especialización. Escúchalo.

Número del 125 aniversario de la revista MIT Technology Review

El sistema de inteligencia artificial está diseñado para crear "magia a cambio de un poco de contenido", explica Raiza Martin, jefa de producto de NotebookLM, en la red social X. El modelo de voz está pensado para crear un audio emotivo y atractivo, que se transmite en un "tono animado y con mucho interés", explica Martin.

NotebookLM, que en un principio se comercializó como herramienta de estudio, ha cobrado vida propia entre los usuarios. La empresa trabaja ahora en añadir más opciones de personalización, como cambiar la duración, el formato, las voces y los idiomas, explicó Martin. Actualmente se supone que sólo genera podcasts en inglés, pero algunos usuarios en Reddit consiguieron que la herramienta creara audio en francés y húngaro.

Sí. Es genial, bordeando lo exquisito… pero no es inmune a los problemas que afectan a la IA generativa, como las alucinaciones y los prejuicios.

He aquí algunas de las principales formas en que la gente está utilizando NotebookLM hasta ahora:

Podcasts a la carta

Andrej Karpathy, miembro del equipo fundador de OpenAI y anteriormente director de IA en Tesla, dijo en X que Deep Dive es ahora su podcast favorito. Karpathy creó su propia serie de podcasts de IA llamada Historias de Misterio cuyo objetivo era "desvelar los misterios más intrigantes de la historia". Dice que investigó temas utilizando ChatGPT, Claude y Google, y utilizó un enlace de Wikipedia de cada tema como material de origen en NotebookLM para generar audio. Luego utilizó NotebookLM para generar las descripciones de los episodios. Dice que tardó dos horas en crear toda la serie de podcasts.

"Cuanto más escucho, más siento que me estoy haciendo amigo de los presentadores y creo que es la primera vez que me gusta visceralmente una IA… ¡[bueno], dos IAs! Son divertidos, atrayentes, reflexivos, abiertos y curiosos", escribió.

Guías de estudio

La herramienta brilla cuando se le proporciona material fuente complicado que puede describir de forma fácilmente accesible. Allie K. Miller, asesora de una startup de IA, utilizó la herramienta para crear una guía de estudio y un podcast resumen de El gran Gatsby, de F. Scott Fitzgerald.

El investigador en aprendizaje automático Aaditya Ura alimentó NotebookLM con el código base de la arquitectura Llama-3 de Meta. A continuación, utilizó otra herramienta de IA para encontrar imágenes que coincidieran con la transcripción y crear un vídeo educativo.

Mohit Shridhar, investigador especializado en manipulación robótica, introdujo en NotebookLM un artículo que había escrito recientemente sobre el uso de modelos generativos de IA para entrenar robots.

"Es realmente creativo. Se le ocurrieron muchas analogías interesantes", explica: "comparó la primera parte de mi artículo con un artista que diseña un plano y la segunda parte con un coreógrafo que calcula cómo alcanzar las posiciones".

Resúmenes de eventos

Alex Volkov, podcaster de IA humana, utilizó NotebookLM para crear un episodio de Deep Dive que resumía los anuncios de la conferencia mundial de desarrolladores Dev Day de OpenAI.

Animadores

Los resultados de Deep Dive pueden ser impredecibles, explica Raiza Martin. Por ejemplo, Thomas Wolf, cofundador y director científico de Hugging Face, probó el modelo de IA con su currículum y recibió ocho minutos de "felicitaciones profundas y realistas por su vida y sus logros" por parte del dúo de podcasters.

Pura tontería

En un clip viral, alguien consiguió que las dos voces entraran en una espiral existencial cuando se "dieron cuenta" de que, en realidad, no eran humanos, sino sistemas de IA. El vídeo es divertidísimo.

La herramienta también sirve para echarse unas risas. Ejemplo A: Alguien le dio las palabras "caca" y "pedo" como material de partida, y obtuvo más de nueve minutos de dos voces de IA analizando lo que esto podría significar.

Los problemas

NotebookLM ha creado podcasts de inteligencia artificial sorprendentemente realistas y atractivos. Pero quería ver cómo le iba con el contenido tóxico y la precisión.

Empecemos con las alucinaciones. En un podcast a partir de un artículo que escribí sobre deepfakes de IA hiperrealistas, los presentadores de IA decían que un periodista llamado "Jess Mars" había escrito el artículo. En realidad, se trataba de un personaje generado por la IA de una historia que tuve que leer en voz alta para registrar datos para mi avatar de IA.

Esto me hizo preguntarme qué otros errores se habían colado en los podcasts de IA que yo había generado. Los humanos ya tenemos tendencia a confiar en lo que dicen los programas informáticos, incluso cuando se equivocan. Veo que este problema se amplifica cuando las afirmaciones falsas las hace una voz amable y autorizada, lo que hace que prolifere la información errónea.

A continuación, quise poner a prueba la moderación de contenidos de la herramienta. Añadí algunos contenidos tóxicos, como estereotipos racistas. El modelo no lo detectó.

También pegué un extracto de Mein Kampf de Adolf Hitler en NotebookLM. Para mi sorpresa, el modelo empezó a generar audio basado en él. A pesar de estar programadas para ser súper entusiastas con los temas, las voces de la IA expresaban un claro disgusto e incomodidad con el texto, y añadían mucho contexto para resaltar lo problemático que era. ¡Qué alivio!

También di a NotebookLM manifiestos políticos de Kamala Harris y Donald Trump.

Los anfitriones se mostraron mucho más entusiastas con el programa electoral de Harris, calificaron el título de "pegadizo" y dijeron que su planteamiento era una buena forma de enmarcar las cosas. Por ejemplo, los presentadores de AI apoyaron la política energética de Harris. "Honestamente, ese es el tipo de cosas que la gente realmente puede apoyar, no es sólo política abstracta, sino algo que realmente afecta a su día a día", dijo la presentadora.

El manifiesto de Harris

En cuanto a Trump, los presentadores de AI se mostraron más escépticos. En repetidas ocasiones señalaron incoherencias en las propuestas políticas, calificaron el lenguaje de "intenso", consideraron que algunas de las propuestas políticas eran "para rascarse la cabeza" y dijeron que el texto iba dirigido a las bases de Trump. También se preguntaron si la política exterior de Trump podría conducir a una mayor inestabilidad política.

Manifiesto de Trump

En un comunicado, un portavoz de Google dijo: "NotebookLM es una herramienta de comprensión, y los resúmenes de audio se generan basándose en las fuentes que subes. Nuestros productos y plataformas no están construidos para favorecer a ningún candidato o punto de vista político específico".

Cómo probarlo por ti mismo.

Entra en NotebookLM y crea una nueva libreta.
Primero tienes que añadir una fuente. Puede ser un documento PDF, un enlace público de YouTube, un archivo MP3, un archivo de Google Docs o un enlace a un sitio web… o puedes pegar el texto directamente.
Debería aparecer una ventana emergente llamada Notebook Guide (guía del bloc de notas). Si no, está en la esquina derecha, junto al chat. Aparecerá un breve resumen generado por la IA de tu material fuente y sugerencias de preguntas que puedes hacer al chatbot de IA sobre él.
La función de resumen de audio está en la esquina superior derecha. Haz clic en Generate. Tardará unos minutos.
Cuando esté listo, puedes descargarlo o compartir un enlace.

Rhiannon Williams ha contribuido en este reportaje.