
La inteligencia artificial apenas era un término en 1956, cuando los mejores científicos del campo de la informática llegaron al Dartmouth College (Nuevo Hampshire, EE UU) para una conferencia de verano. El informático John McCarthy había acuñado la frase en la propuesta de financiación del evento, en una reunión que se llevó a cabo para estudiar cómo construir máquinas que pudieran utilizar el lenguaje, resolver problemas como los humanos y mejorarse a sí mismas. El término era una buena elección, que plasmaba la premisa fundacional de los organizadores: cualquier característica de la inteligencia humana podría «en principio describirse con tanta precisión que se podría hacer que una máquina la simulara».
En su propuesta, el grupo había enumerado varios «aspectos del problema de la inteligencia artificial». El último punto de la lista, y quizás el más difícil, era construir una máquina capaz de mostrar creatividad y originalidad.
En aquella época, los psicólogos se preguntaban cómo definir y medir la creatividad de los seres humanos. La teoría predominante -que la creatividad era producto de la inteligencia y de un alto coeficiente intelectual- se estaba desvaneciendo, pero los expertos aún no tenían claro qué teoría debería sustituirla. Los organizadores de Dartmouth tenían una: «La diferencia entre el pensamiento creativo y el pensamiento competente poco imaginativo radica en la inyección de cierta aleatoriedad», escribieron, y añadieron que esa aleatoriedad «debe estar guiada por la intuición para ser eficiente».
Casi 70 años después, y tras varios altibajos en el desarrollo de la inteligencia artificial, hoy contamos con modelos que, más o menos, siguen aquella idea original. Mientras que los grandes modelos lingüísticos que generan texto se han disparado en los últimos tres años, otro tipo de IA, basada en los llamados modelos de difusión, está teniendo un impacto sin precedentes en los ámbitos creativos. Al transformar el ruido aleatorio en patrones coherentes, los modelos de difusión pueden generar nuevas imágenes, vídeos o voz, guiados por instrucciones de texto u otros datos de entrada. Los mejores logran resultados tan realistas que parecen hechos por personas, o tan extraños y surrealistas que es obvio que no lo son.
Ahora, estos modelos están entrando en un campo creativo que es posiblemente más vulnerable a la disrupción que cualquier otro: la música. Las obras creativas generadas por IA -desde interpretaciones de orquesta hasta heavy metal- están a punto de impregnar nuestras vidas más que ningún otro producto de la IA. Es probable que las canciones se integren en nuestras plataformas de streaming, listas de reproducción para fiestas y bodas, bandas sonoras y mucho más, independientemente de que nos demos cuenta o no de quién (o qué) las ha creado.
Durante años, los modelos de difusión generaron controversia en el mundo del arte visual: ¿lo que crean es arte genuino o una simple copia?
Ahora, ese mismo debate llegó a la música, una forma de arte profundamente ligada a nuestras emociones, recuerdos y vínculos sociales. Hoy, los modelos de inteligencia artificial ya pueden componer canciones que nos conmueven, lo que plantea una pregunta urgente: ¿cómo definimos la autoría y la originalidad cuando es una máquina la que crea?
Los tribunales están lidiando activamente con este complicado territorio. Los grandes sellos discográficos han demandado a los principales generadores de música por IA, alegando que los modelos de difusión no hacen más que replicar el arte humano sin compensar a los artistas. Los creadores de modelos replican que sus herramientas están hechas para ayudar a la creación humana.
Al decidir quién tiene razón, nos vemos obligados a reflexionar sobre nuestra propia creatividad humana. ¿Es la creatividad, tanto en las redes neuronales artificiales como en las biológicas, el mero resultado de un vasto aprendizaje estadístico y de conexiones establecidas, con una pizca de aleatoriedad? Si así fuera, la idea de autoría se vuelve muy difícil de sostener. Pero si no lo es, si hay algo profundamente humano en el acto de crear… ¿qué es exactamente? ¿Y cómo nos afecta emocionarnos con algo que no fue hecho por una persona? Yo me enfrenté a estas preguntas la primera vez que escuché una canción creada por una IA que, sinceramente, era increíble. Me resultó inquietante saber que alguien solo escribió un prompt y pinchó en ‘crear’. Muy pronto, tú también tendrás que hacerte estas preguntas.
Establecer conexiones
Después de la conferencia de Dartmouth, sus participantes tomaron distintos caminos para desarrollar las bases de lo que hoy conocemos como inteligencia artificial. Al mismo tiempo, los científicos cognitivos respondían al llamado de J.P. Guilford, presidente de la Asociación Americana de Psicología en 1950, para abordar la cuestión de la creatividad en los seres humanos. Así fue como, en 1953, el psicólogo Morris Stein propuso una definición que se volvió clave: una obra creativa es aquella que es novedosa —es decir, que aporta algo nuevo— y útil —que cumple una función o le sirve a alguien—. Con el tiempo, algunos propusieron cambiar «útil» por «satisfactoria», y otros agregaron un tercer ingrediente: que lo creativo también debe sorprender.
Más tarde, en la década de 1990, el auge de la resonancia magnética funcional permitió estudiar más a fondo los mecanismos neuronales que subyacen a la creatividad en muchos campos, incluida la música. Los métodos computacionales de los últimos años también han facilitado la descripción del papel que desempeñan la memoria y el pensamiento asociativo en las decisiones creativas.
Lo que ha surgido no es tanto una gran teoría unificada sobre cómo se origina y desarrolla una idea creativa en el cerebro, sino más bien una lista cada vez mayor de poderosas observaciones. En primer lugar, podemos dividir el proceso creativo humano en fases, que incluyen: un paso de ideación o propuesta, seguido de un paso más crítico y evaluativo que busca el mérito de las ideas. Una de las principales teorías sobre lo que guía estas dos fases es la denominada teoría asociativa de la creatividad, que postula que las personas más creativas pueden formar conexiones novedosas entre conceptos distantes.

Stuart Bradford
«Podría ser como una activación que se extiende«, dice Roger Beaty, investigador que dirige el Laboratorio de Neurociencia Cognitiva de la Creatividad en Penn State. «Piensas en una cosa y se activan los conceptos relacionados con ella».
Estas conexiones suelen depender específicamente de la memoria semántica, que almacena conceptos y hechos, a diferencia de la memoria episódica, que almacena recuerdos de un momento y lugar concretos. Recientemente se han utilizado modelos computacionales más sofisticados para estudiar cómo las personas establecen conexiones entre conceptos a través de grandes «distancias semánticas». Por ejemplo, la palabra apocalipsis está más relacionada con la energía nuclear que con la celebración. Los estudios han demostrado que las personas que son muy creativas pueden percibir conceptos muy distintos semánticamente como cercanos entre sí. Se ha descubierto que los artistas generan asociaciones de palabras a distancias mayores que los no artistas. Otras investigaciones han corroborado también la idea de que las personas creativas tienen una «fuga» de atención, es decir, que a menudo se fijan en información que podría no ser especialmente relevante para su tarea inmediata.
Las investigaciones en neurociencia no han encontrado una «zona de la creatividad» en el cerebro. No hay un área específica encargada de crear, como si fuese una glándula que produce hormonas. Como escribió Dean Keith Simonton, uno de los referentes en el estudio de la creatividad, en el Cambridge Handbook of the Neuroscience of Creativity: «Nada en el cerebro produce creatividad como una glándula que secreta una hormona».
En cambio, las pruebas apuntan a unas pocas redes dispersas de actividad durante el pensamiento creativo, dice Beaty: una para apoyar la generación inicial de ideas mediante el pensamiento asociativo, otra implicada en la identificación de ideas prometedoras y otra para la evaluación y modificación. Un nuevo estudio, dirigido por investigadores de la Facultad de Medicina de Harvard (Boston, EE UU) y publicado en febrero, sugiere que la creatividad podría incluso implicar la supresión de determinadas redes cerebrales, como las relacionadas con la autocensura.
Hasta ahora, la creatividad de las máquinas -si es que puede llamarse así- tiene un aspecto bastante diferente. Aunque en el momento de la conferencia de Dartmouth los investigadores de IA estaban interesados en máquinas inspiradas en cerebros humanos, ese interés había cambiado cuando se inventaron los modelos de difusión, hace aproximadamente una década.
La mejor pista de cómo funcionan está en su nombre. Si se sumerge un pincel cargado de tinta roja en un tarro de cristal con agua, la tinta se difunde y se arremolina en el agua de forma aparentemente aleatoria, dando lugar finalmente a un líquido rosa pálido. Los modelos de difusión simulan este proceso a la inversa: reconstruyen formas legibles a partir del azar.
Para hacerse una idea de cómo funciona esto con las imágenes, imagina una foto de un elefante. Para entrenar el modelo, se hace una copia de la foto y se le añade una capa de estática aleatoria en blanco y negro. Haz una segunda copia y añade un poco más, y así cientos de veces hasta que la última imagen sea pura estática, sin elefante a la vista. Para cada imagen intermedia, un modelo estadístico predice qué parte de la imagen es ruido y qué parte es realmente el elefante. Compara sus suposiciones con las respuestas correctas y aprende de sus errores. Con millones de estos ejemplos, el modelo mejora al quitar ruido de las imágenes y en la conexión de estos patrones con descripciones como «elefante macho de Borneo en campo abierto».
Una vez entrenado, generar una nueva imagen significa invertir el proceso. Si le das al modelo una indicación, como «un orangután feliz en un bosque con musgo», genera una imagen de ruido blanco aleatorio y trabaja hacia atrás, utilizando su modelo estadístico para eliminar trozos de ruido paso a paso. Al principio aparecen formas y colores toscos. Después vienen los detalles y finalmente (si funciona) aparece un orangután, todo ello sin que el modelo «sepa» lo que es un orangután.
Imágenes musicales
El planteamiento es muy similar en el caso de la música. Un modelo de difusión no «compone» una canción como lo haría un grupo musical, empezando con acordes de piano y añadiendo voces y batería, sino que todos los elementos se generan a la vez. El proceso se basa en el hecho de que las complejidades de una canción pueden representarse visualmente en una única forma de onda, que representa la amplitud de una onda sonora trazada en función del tiempo.
Resulta útil pensar en un tocadiscos. Al recorrer un surco en un trozo de vinilo, la aguja refleja la trayectoria de las ondas sonoras grabadas en el material y la transmite en una señal para el altavoz. El altavoz simplemente expulsa aire siguiendo estos patrones, generando ondas sonoras que transmiten toda la canción.
A simple vista, una forma de onda puede parecer que solo refleja el volumen de una canción. Pero si la miras de cerca, puedes empezar a ver patrones en sus picos y valles. Por ejemplo, un bajo tocando un sol grave genera unas 49 ondas por segundo. Esa forma de onda en realidad es la suma de todas las frecuencias de los distintos instrumentos y sonidos. «Empiezas a notar ciertas formas que se repiten», explica David Ding, cofundador de la empresa de música con IA Udio, que añade: «Eso se relaciona con la melodía en un sentido amplio».
Como las formas de onda, o gráficos similares llamados espectrogramas, pueden tratarse como imágenes, se puede crear un modelo de difusión a partir de ellas. Un modelo se alimenta de millones de clips de canciones existentes, cada uno etiquetado con una descripción. Para generar una nueva canción, empieza con ruido aleatorio puro y trabaja hacia atrás para crear una nueva forma de onda. El camino que toma para hacerlo depende de las palabras que alguien introduzca en la pregunta.
Ding trabajó en Google DeepMind durante cinco años como ingeniero de investigación sénior sobre modelos de difusión para imágenes y vídeos, pero renunció para fundar Udio en 2023, con sede en Nueva York. La empresa y su competidora Suno, con sede en Cambridge (Massachusetts), lideran ahora la carrera por los modelos de generación de música. Ambas pretenden crear herramientas de inteligencia artificial que permitan crear música a quienes no son músicos. Suno es más grande, con más de 12 millones de usuarios, obtuvo una ronda de financiación de 125 millones de dólares en mayo de 2024. La empresa se ha asociado con artistas como Timbaland. Udio obtuvo una ronda de financiación inicial de 10 millones de dólares en abril de 2024 de inversores destacados como Andreessen Horowitz y los músicos Will.i.am y Common.
Los resultados de Udio y Suno hasta ahora sugieren que hay un público considerable al que puede no importarle si la música que escucha está hecha por humanos o por máquinas. Suno tiene páginas de creadores, algunos con muchos seguidores, que generan canciones enteramente con IA, a menudo acompañadas de imágenes del artista, generadas por IA también. Estos nuevos creadores no son músicos en el sentido tradicional, sino expertos en dar indicaciones precisas: prompters que generan obras que no pueden atribuirse a un solo compositor o cantante. En este nuevo terreno, nuestras definiciones clásicas de autoría —y los límites entre crear y replicar— prácticamente se desdibujan.
Los resultados de Udio y Suno hasta ahora sugieren que hay un público considerable al que puede no importarle si la música que escucha está hecha por humanos o por máquinas.
La industria musical está contraatacando. Ambas empresas fueron demandadas por importantes sellos discográficos en junio de 2024, y las demandas continúan. Los sellos, entre ellos Universal y Sony, alegan que los modelos de IA se han entrenado con música protegida por derechos de autor «a una escala casi inimaginable» y generan canciones que «imitan las cualidades de las grabaciones sonoras humanas genuinas» (por ejemplo, en la denuncia contra Suno se menciona una canción llamada «Prancing Queen», que recuerda bastante a ABBA).
Suno no respondió a las solicitudes de comentarios sobre el litigio, pero en una declaración en respuesta al caso, publicado en el blog de Suno en agosto de 2024, el CEO, llamado Mikey Shulman, explicó que la empresa entrena sus modelos con música disponible en internet, que «efectivamente incluye material con derechos de autor». Aun así, defendió la práctica con un argumento polémico: «Aprender no es infringir».
Un representante de Udio dijo que la empresa no haría comentarios sobre litigios pendientes. En el momento de la demanda, emitió un comunicado en el que mencionaba que su modelo cuenta con filtros para garantizar que «no reproduzca obras protegidas por derechos de autor ni voces de artistas.»
Para complicar aún más las cosas, la Oficina de Derechos de Autor de EE UU publicó en enero unas directrices según las cuales las obras generadas por inteligencia artificial pueden ser objeto de derechos de autor si implican una cantidad considerable de intervención humana. Un mes después, un artista de Nueva York recibió lo que podría ser el primer derecho de autor por una obra de arte visual realizada con ayuda de IA. La primera canción podría estar a la vuelta de la esquina.
Novedad y mimetismo
Estos casos legales se adentran en una zona gris similar a la explorada por otras batallas judiciales que se desarrollan en el ámbito de la IA. La cuestión es si está permitido entrenar modelos de IA con contenidos protegidos por derechos de autor y si las canciones generadas copian injustamente el estilo de un artista humano.
Así y todo, es probable que la música generada por inteligencia artificial prolifere de alguna forma, independientemente de estas decisiones judiciales; YouTube ha mantenido conversaciones con grandes discográficas para conceder licencias de su música para el entrenamiento de inteligencia artificial, y la reciente ampliación de los acuerdos de Meta con Universal Music Group sugiere que la concesión de licencias para música generada por inteligencia artificial podría estar sobre la mesa.
Si la música con IA ha llegado para quedarse, ¿significa que será buena? Para ello, hay que tener en cuenta tres factores: los datos de entrenamiento, el propio modelo de difusión y las indicaciones. El modelo sólo puede ser tan bueno como la biblioteca de música de la que aprenda y las descripciones de esa música deben ser lo suficientemente complejas como capturar bien su esencia. La arquitectura del modelo determina hasta qué punto puede utilizar lo aprendido para generar canciones. Y las indicaciones que le das al modelo -así como la medida en que el modelo «entiende» lo que quieres decir con «baja ese saxofón», por ejemplo- también son fundamentales.
¿El resultado es creación o simple réplica de los datos de entrenamiento? Podríamos hacer la misma pregunta sobre la creatividad humana.
Podría decirse que la cuestión más importante es la primera: ¿hasta qué punto son extensos y diversos los datos de entrenamiento y hasta qué punto están bien etiquetados? Ni Suno ni Udio han revelado qué música se ha incluido en su conjunto de datos de entrenamiento, aunque es probable que estos detalles tengan que revelarse durante las demandas.
Udio afirma que la forma en que se etiquetan esas canciones es esencial para el modelo. «Un área de investigación activa para nosotros es cómo conseguimos descripciones cada vez más refinadas de la música», dice Ding. Una descripción básica identificaría el género, pero también podría decir si una canción es apasionada o tranquila. Las descripciones más técnicas podrían mencionar una progresión de acordes II-V-I (una progresión muy utilizada en la música popular) o una escala específica. Udio dice que lo hace mediante una combinación de etiquetado mecánico y humano.
«Como queremos llegar a un amplio abanico de usuarios, también necesitamos un amplio abanico de prescriptores musicales«, explica. «No sólo personas con doctorados en música que puedan describir la música a un nivel muy técnico, sino también entusiastas de la música que tengan su propio vocabulario informal para describirla».
Las IA generativas de música que quieran competir en serio necesitan alimentarse constantemente de nuevas canciones hechas por personas. Si no, sus resultados se estancan en el tiempo y suenan repetitivos o pasados de moda. Por ahora, la música generada con IA depende del arte creado por humanos. Pero en el futuro, es posible que estos modelos empiecen a entrenarse con sus propias creaciones, una técnica que ya se está probando en otros campos de la inteligencia artificial.
Dado que los modelos comienzan con un muestreo aleatorio de ruido, no son deterministas: si se le da al mismo modelo de IA la misma indicación, cada vez obtendrá una canción nueva. Esto también se debe a que muchos creadores de modelos de difusión, entre ellos Udio, inyectan aleatoriedad adicional a lo largo del proceso, es decir, toman la forma de onda generada en cada paso y la distorsionan ligeramente con la esperanza de añadir imperfecciones que hagan que el resultado sea más interesante o real. Los propios organizadores de la conferencia de Dartmouth recomendaron esta táctica en 1956.
Según el cofundador y director de operaciones de Udio, Andrew Sánchez, es esta aleatoriedad inherente a los programas de IA generativa lo que impacta a mucha gente. Durante los últimos 70 años, los ordenadores han ejecutado programas deterministas: se le da al software una entrada y se recibe siempre la misma respuesta.
«Muchos de nuestros artistas asociados dirán: «Bueno, ¿por qué hace esto?»», relata «Nosotros decimos: «Bueno, en realidad no lo sabemos»». La era generativa requiere una nueva mentalidad, incluso para las empresas que la crean: que los programas de IA pueden ser desordenados e inescrutables.
¿Lo que produce la IA es creación o simplemente una copia de lo que aprendió? Los defensores de esta tecnología sostienen que podríamos hacernos la misma pregunta sobre la creatividad humana. A fin de cuentas, al crecer escuchamos música que moldea nuestros mecanismos de aprendizaje, y esas memorias influyen en lo que luego creamos. En un estudio reciente, el compositor y profesor Anthony Brandt, de la Universidad de Rice (Texas, EE UU), señaló que tanto los humanos como los modelos de lenguaje usamos nuestras experiencias pasadas para imaginar escenarios futuros y tomar mejores decisiones.
De hecho, gran parte del arte humano, especialmente en la música, se toma prestado. Esto da lugar a menudo a litigios, en los que los artistas alegan que una canción ha sido copiada o sampleada sin permiso. Algunos artistas sugieren que los modelos de difusión deberían ser más transparentes, para saber que la inspiración detrás de una canción proviene, por ejemplo, en tres partes de David Bowie y una parte de Lou Reed. Desde Udio comentan que están investigando cómo lograrlo, pero por ahora, nadie puede hacerlo de manera confiable.
Para los grandes artistas, «está en juego esa combinación de novedad e influencia», dice Sánchez. «Y creo que eso es algo que también está en juego en estas tecnologías».
Sin embargo, hay muchas áreas en las que intentar comparar las redes neuronales humanas con las artificiales no resiste un análisis profundo. Brandt destaca un dominio donde ve que la creatividad humana supera claramente a la de las máquinas: lo que él llama «amplificar lo anómalo». Los modelos de IA operan en el ámbito del muestreo estadístico. No se enfocan en lo excepcional, sino en reducir errores y encontrar patrones probables. Los humanos, por otro lado, se sienten fascinados por las rarezas. «En lugar de tratarse como eventos raros o casos aislados», escribe Brandt, la rareza «permea el producto creativo«.

Stuart Bradford