El año pasado por estas fechas cometimos una imprudencia. En un sector en el que nada se detiene, intentamos predecir el futuro.
n¿Cómo nos fue? Nuestras cuatro grandes apuestas para 2023 eran que la próxima gran novedad en chatbots sería multimodal (acierto: los grandes modelos de lenguaje más potentes que existen, GPT-4 de OpenAI y Gemini de Google DeepMind, funcionan con texto, imágenes y audio); que los responsables políticos elaborarían nuevas y estrictas normativas (acierto: la orden ejecutiva de Biden salió a la luz en octubre y la Ley de IA de la Unión Europea se aprobó finalmente en diciembre); que las grandes tecnológicas sentirían la presión de las start-ups de código abierto (acierto a medias: el boom del código abierto continúa, pero empresas de IA como OpenAI y Google DeepMind siguen acaparando el protagonismo); y que la IA cambiaría para siempre las grandes farmacéuticas (demasiado pronto para saberlo: la revolución de la IA en el descubrimiento de fármacos está en pleno apogeo, pero los primeros medicamentos desarrollados con IA aún están a varios años de salir al mercado).
nAhora lo vamos a hacer de nuevo.
nHemos decidido ignorar lo obvio. Sabemos que los grandes modelos lingüísticos seguirán dominando. Los reguladores serán cada vez más audaces. Los problemas de la IA —desde los sesgos a los derechos de autor, pasando por el "doomerismo"— marcarán la agenda de investigadores, reguladores y ciudadanos, no solo en 2024, sino en los años venideros. (Lee más sobre nuestras seis grandes preguntas para la IA generativa aquí).
nEn su lugar, hemos seleccionado algunas tendencias más específicas. Esto es lo que habrá que tener en cuenta en 2024. (Vuelve el año que viene y comprueba qué tal nos ha ido).
n1
nChatbots personalizados
n¡Un chatbot para ti! ¡Y otro chatbot para ti! En 2024, las empresas tecnológicas que han invertido mucho en IA generativa se verán presionadas para demostrar que pueden ganar dinero con sus productos. Para ello, los gigantes de la IA Google y OpenAI están apostando fuerte por lo pequeño: ambos están desarrollando plataformas fáciles de usar que permiten a los usuarios personalizar potentes modelos lingüísticos y crear sus propios minichatbots que se adapten a sus necesidades específicas, sin necesidad de conocimientos de programación. Ambas han lanzado herramientas web que permiten a cualquiera convertirse en desarrollador de aplicaciones de IA generativa.
nEn 2024, la IA generativa podría ser realmente útil para las personas normales, no tecnológicas, y vamos a ver a más gente jugando con un millón de pequeños modelos de IA. Los modelos de IA más avanzados, como GPT-4 y Gemini, son multimodales, lo que significa que pueden procesar no solo texto, sino también imágenes e incluso vídeos. Esta nueva capacidad podría desbloquear un montón de nuevas aplicaciones. Por ejemplo, un agente inmobiliario puede cargar texto de anuncios anteriores, ajustar un potente modelo para generar un texto similar con solo pulsar un botón, cargar vídeos y fotos de nuevos anuncios y simplemente pedir a la IA personalizada que genere una descripción de la propiedad.
nPero, por supuesto, el éxito de este plan depende de que estos modelos funcionen de forma fiable. Los modelos lingüísticos suelen inventar cosas, y los modelos generativos están plagados de sesgos. Además, son fáciles de piratear, sobre todo si se les permite navegar por Inte et. Las empresas tecnológicas no han resuelto ninguno de estos problemas. Cuando pase la novedad, tendrán que ofrecer a sus clientes formas de resolver estos problemas.
n—Melissa Heikkilä
nn
n2
nLa segunda oleada de IA generativa será el vídeo
nEs increíble lo rápido que lo fantástico se vuelve familiar. Los primeros modelos generativos para producir imágenes fotorrealistas irrumpieron en 2022 y pronto se convirtieron en algo habitual. Herramientas como DALL-E de OpenAI, Stable Diffusion de Stability AI y Firefly de Adobe inundaron Inte et con imágenes asombrosas de todo tipo, desde el Papa vestido de Balenciaga hasta obras de arte premiadas. Pero no todo es diversión: por cada pug agitando pompones, hay otra imitación de arte fantástico o estereotipos sexuales sexistas.
nLa nueva frontera es la conversión de texto en vídeo. Todo lo bueno, lo malo y lo feo de la conversión de texto en imagen se va a multiplicar.
nHace un año vimos por primera vez lo que podían hacer los modelos generativos cuando se les entrenó para unir varias imágenes fijas en secuencias de unos pocos segundos. Los resultados eran distorsionados y entrecortados. Pero la tecnología ha mejorado rápidamente.
nRunway, una empresa que fabrica modelos generativos de vídeo (y la empresa creadora de Stable Diffusion), lanza nuevas versiones de sus herramientas cada pocos meses. Su último modelo, llamado Gen-2, sigue generando vídeos de unos pocos segundos, pero la calidad es sorprendente. Los mejores clips no distan mucho de los que podría producir Pixar.
nRunway ha creado un festival anual de cine sobre IA en el que se muestran películas experimentales realizadas con diversas herramientas de IA. El festival de este año está dotado con 60.000 dólares en premios, y las 10 mejores películas se proyectarán en Nueva York y Los Ángeles.
nNo es de extrañar que los grandes estudios hayan tomado nota. Los gigantes del cine, como Paramount y Disney, están explorando el uso de la IA generativa en sus procesos de producción. La tecnología se utiliza para sincronizar los labios de los actores con múltiples doblajes en idiomas extranjeros. Y está reinventando las posibilidades de los efectos especiales. En 2023, Indiana Jones y el dial del destino fue protagonizada por un Harrison Ford deepfake rejuvenecido. Esto es solo el principio.
nLejos de la gran pantalla, la tecnología deepfake con fines de marketing o formación también está despegando. Por ejemplo, Synthesia, con sede en el Reino Unido, fabrica herramientas que pueden convertir una actuación puntual de un actor en un sinfín de avatares deepfake, que recitan cualquier guion que se les dé con solo pulsar un botón. Según la empresa, el 44% de las empresas de la lista Fortune 100 utilizan su tecnología.
nLa capacidad de hacer tanto con tan poco plantea serias dudas a los actores. La preocupación por el uso y abuso de la IA por parte de los estudios fue el motivo principal de las huelgas SAG-AFTRA del año pasado. Pero las verdaderas repercusiones de esta tecnología apenas están empezando a hacerse patentes. Souki Mehdaoui, cineasta independiente y cofundadora de Bell & Whistle, una consultora especializada en tecnologías creativas, afirma: "El oficio de cineasta está cambiando radicalmente".
n—Will Douglas Heaven
nn
3
nLa desinformación electoral generada por IA estará en todas partes
nSi las últimas elecciones sirven de referencia, la desinformación electoral generada por IA y los deepfakes van a ser un gran problema cuando un número récord de personas acuda a las u as en 2024. Ya estamos viendo cómo los políticos utilizan estas herramientas. En Argentina, dos candidatos presidenciales crearon imágenes y vídeos generados por IA de sus oponentes para atacarlos. En Eslovaquia, los deepfakes de un líder de un partido liberal proeuropeo amenazando con subir el precio de la cerveza y haciendo chistes sobre po ografía infantil se extendieron como la pólvora durante las elecciones del país. Y en Estados Unidos, Donald Trump ha jaleado a un grupo que utiliza IA para generar memes con tópicos racistas y sexistas.
nAunque es difícil decir hasta qué punto estos ejemplos han influido en los resultados de las elecciones, su proliferación es una tendencia preocupante. Será más difícil que nunca reconocer lo que es real en Inte et. En un clima político ya inflamado y polarizado, esto podría tener graves consecuencias.
nHace apenas unos años, crear un deepfake habría requerido conocimientos técnicos avanzados, pero la IA generativa lo ha hecho ridículamente fácil y accesible, y los resultados parecen cada vez más realistas. Incluso fuentes reputadas pueden ser engañadas por contenidos generados por IA. Por ejemplo, imágenes generadas por IA y enviadas por usuarios que pretenden representar la crisis entre Israel y Gaza han inundado bancos de imágenes de archivo como el de Adobe.
nEl año que viene será crucial para quienes luchan contra la proliferación de este tipo de contenidos. Las técnicas para rastrear y mitigar estos contenidos están aún en sus primeros días de desarrollo. Las marcas de agua, como la SynthID de Google DeepMind, siguen siendo en su mayoría voluntarias y no totalmente infalibles. Y las plataformas de las redes sociales son notoriamente lentas a la hora de acabar con la desinformación. Prepárate para un experimento masivo en tiempo real para acabar con las noticias falsas generadas por inteligencia artificial.
n—Melissa Heikkilä
nn
n4
nRobots multitarea
nInspirados por algunas de las técnicas básicas que están detrás del actual auge de la IA generativa, los expertos en robótica están empezando a construir robots de uso más general que pueden realizar una gama más amplia de tareas.
nEn los últimos años, la IA ha pasado de utilizar varios modelos pequeños, cada uno de ellos entrenado para realizar diferentes tareas (identificar imágenes, dibujarlas, subtitularlas), a utilizar modelos únicos y monolíticos entrenados para hacer todo esto y más. Mostrando al GPT-3 de OpenAI algunos ejemplos adicionales (lo que se conoce como fine-tuning), los investigadores pueden entrenarlo para resolver problemas de codificación, escribir guiones de películas, aprobar exámenes de biología de secundaria, etc. Los modelos multimodales, como GPT-4 y Gemini de Google DeepMind, pueden resolver tareas tanto visuales como lingüísticas.
nEl mismo enfoque puede funcionar para los robots, por lo que no sería necesario entrenar a uno para voltear tortitas y a otro para abrir puertas: un modelo único podría dar a los robots la capacidad de realizar múltiples tareas. En 2023 surgieron varios ejemplos de trabajo en este campo.
nEn junio, DeepMind lanzó Robocat (una actualización del Gato del año pasado), que genera sus propios datos a partir de ensayo y error para aprender a controlar muchos brazos robóticos diferentes (en lugar de un brazo específico, que es lo más típico).
nEn octubre, la empresa presentó otro modelo de uso general para robots, llamado RT-X, y un nuevo gran conjunto de datos de entrenamiento de uso general, en colaboración con 33 laboratorios universitarios. Otros equipos de investigación punteros, como RAIL (Robotic Artificial Intelligence and Lea ing) de la Universidad de Califo ia en Berkeley, están estudiando tecnologías similares.
nEl problema es la falta de datos. La IA generativa se basa en un conjunto de datos de texto e imágenes del tamaño de Inte et. En comparación, los robots tienen muy pocas fuentes de datos que les ayuden a aprender a hacer muchas de las tareas industriales o domésticas que queremos que hagan.
nLerrel Pinto, de la Universidad de Nueva York, dirige un equipo que se ocupa de ello. Él y sus colegas están desarrollando técnicas que permiten a los robots aprender por ensayo y error, obteniendo sus propios datos de entrenamiento sobre la marcha. En un proyecto aún más discreto, Pinto ha reclutado voluntarios para que recojan datos de vídeo de sus casas con una cámara de iPhone montada en un recogedor de basura. En los últimos dos años, grandes empresas han empezado a publicar grandes conjuntos de datos para entrenar robots, como Ego4D de Meta.
nEste enfoque ya resulta prometedor en los coches sin conductor. Start-ups como Wayve, Waabi y Ghost son pioneras de una nueva oleada de IA de conducción autónoma que utiliza un único modelo de gran tamaño para controlar un vehículo, en lugar de varios modelos más pequeños para controlar tareas de conducción específicas. Esto ha permitido a las pequeñas empresas ponerse a la altura de gigantes como Cruise y Waymo. Wayve está probando sus coches sin conductor en las estrechas y concurridas calles de Londres. Los robots de todo el mundo están a punto de recibir un impulso similar.
n—Will Douglas Heaven
n