Desinformación, robots y vídeos: qué esperar de la IA en 2024
Las cuatro tendencias en inteligencia artificial a las que habrá que prestar atención este año.
La serie ‘What's Next’ de ‘MIT Technology Review’ analiza distintos sectores, tendencias y tecnologías para ofrecerte un vistazo anticipado al futuro. Puedes leer el resto de la serie aquí.
El año pasado por estas fechas cometimos una imprudencia. En un sector en el que nada se detiene, intentamos predecir el futuro.
¿Cómo nos fue? Nuestras cuatro grandes apuestas para 2023 eran que la próxima gran novedad en chatbots sería multimodal (acierto: los grandes modelos de lenguaje más potentes que existen, GPT-4 de OpenAI y Gemini de Google DeepMind, funcionan con texto, imágenes y audio); que los responsables políticos elaborarían nuevas y estrictas normativas (acierto: la orden ejecutiva de Biden salió a la luz en octubre y la Ley de IA de la Unión Europea se aprobó finalmente en diciembre); que las grandes tecnológicas sentirían la presión de las start-ups de código abierto (acierto a medias: el boom del código abierto continúa, pero empresas de IA como OpenAI y Google DeepMind siguen acaparando el protagonismo); y que la IA cambiaría para siempre las grandes farmacéuticas (demasiado pronto para saberlo: la revolución de la IA en el descubrimiento de fármacos está en pleno apogeo, pero los primeros medicamentos desarrollados con IA aún están a varios años de salir al mercado).
Ahora lo vamos a hacer de nuevo.
Hemos decidido ignorar lo obvio. Sabemos que los grandes modelos lingüísticos seguirán dominando. Los reguladores serán cada vez más audaces. Los problemas de la IA —desde los sesgos a los derechos de autor, pasando por el "doomerismo"— marcarán la agenda de investigadores, reguladores y ciudadanos, no solo en 2024, sino en los años venideros. (Lee más sobre nuestras seis grandes preguntas para la IA generativa aquí).
En su lugar, hemos seleccionado algunas tendencias más específicas. Esto es lo que habrá que tener en cuenta en 2024. (Vuelve el año que viene y comprueba qué tal nos ha ido).
1
Chatbots personalizados
¡Un chatbot para ti! ¡Y otro chatbot para ti! En 2024, las empresas tecnológicas que han invertido mucho en IA generativa se verán presionadas para demostrar que pueden ganar dinero con sus productos. Para ello, los gigantes de la IA Google y OpenAI están apostando fuerte por lo pequeño: ambos están desarrollando plataformas fáciles de usar que permiten a los usuarios personalizar potentes modelos lingüísticos y crear sus propios minichatbots que se adapten a sus necesidades específicas, sin necesidad de conocimientos de programación. Ambas han lanzado herramientas web que permiten a cualquiera convertirse en desarrollador de aplicaciones de IA generativa.
En 2024, la IA generativa podría ser realmente útil para las personas normales, no tecnológicas, y vamos a ver a más gente jugando con un millón de pequeños modelos de IA. Los modelos de IA más avanzados, como GPT-4 y Gemini, son multimodales, lo que significa que pueden procesar no solo texto, sino también imágenes e incluso vídeos. Esta nueva capacidad podría desbloquear un montón de nuevas aplicaciones. Por ejemplo, un agente inmobiliario puede cargar texto de anuncios anteriores, ajustar un potente modelo para generar un texto similar con solo pulsar un botón, cargar vídeos y fotos de nuevos anuncios y simplemente pedir a la IA personalizada que genere una descripción de la propiedad.
Pero, por supuesto, el éxito de este plan depende de que estos modelos funcionen de forma fiable. Los modelos lingüísticos suelen inventar cosas, y los modelos generativos están plagados de sesgos. Además, son fáciles de piratear, sobre todo si se les permite navegar por Internet. Las empresas tecnológicas no han resuelto ninguno de estos problemas. Cuando pase la novedad, tendrán que ofrecer a sus clientes formas de resolver estos problemas.
—Melissa Heikkilä
2
La segunda oleada de IA generativa será el vídeo
Es increíble lo rápido que lo fantástico se vuelve familiar. Los primeros modelos generativos para producir imágenes fotorrealistas irrumpieron en 2022 y pronto se convirtieron en algo habitual. Herramientas como DALL-E de OpenAI, Stable Diffusion de Stability AI y Firefly de Adobe inundaron Internet con imágenes asombrosas de todo tipo, desde el Papa vestido de Balenciaga hasta obras de arte premiadas. Pero no todo es diversión: por cada pug agitando pompones, hay otra imitación de arte fantástico o estereotipos sexuales sexistas.
La nueva frontera es la conversión de texto en vídeo. Todo lo bueno, lo malo y lo feo de la conversión de texto en imagen se va a multiplicar.
Hace un año vimos por primera vez lo que podían hacer los modelos generativos cuando se les entrenó para unir varias imágenes fijas en secuencias de unos pocos segundos. Los resultados eran distorsionados y entrecortados. Pero la tecnología ha mejorado rápidamente.
Runway, una empresa que fabrica modelos generativos de vídeo (y la empresa creadora de Stable Diffusion), lanza nuevas versiones de sus herramientas cada pocos meses. Su último modelo, llamado Gen-2, sigue generando vídeos de unos pocos segundos, pero la calidad es sorprendente. Los mejores clips no distan mucho de los que podría producir Pixar.
Runway ha creado un festival anual de cine sobre IA en el que se muestran películas experimentales realizadas con diversas herramientas de IA. El festival de este año está dotado con 60.000 dólares en premios, y las 10 mejores películas se proyectarán en Nueva York y Los Ángeles.
No es de extrañar que los grandes estudios hayan tomado nota. Los gigantes del cine, como Paramount y Disney, están explorando el uso de la IA generativa en sus procesos de producción. La tecnología se utiliza para sincronizar los labios de los actores con múltiples doblajes en idiomas extranjeros. Y está reinventando las posibilidades de los efectos especiales. En 2023, Indiana Jones y el dial del destino fue protagonizada por un Harrison Ford deepfake rejuvenecido. Esto es solo el principio.
Lejos de la gran pantalla, la tecnología deepfake con fines de marketing o formación también está despegando. Por ejemplo, Synthesia, con sede en el Reino Unido, fabrica herramientas que pueden convertir una actuación puntual de un actor en un sinfín de avatares deepfake, que recitan cualquier guion que se les dé con solo pulsar un botón. Según la empresa, el 44% de las empresas de la lista Fortune 100 utilizan su tecnología.
La capacidad de hacer tanto con tan poco plantea serias dudas a los actores. La preocupación por el uso y abuso de la IA por parte de los estudios fue el motivo principal de las huelgas SAG-AFTRA del año pasado. Pero las verdaderas repercusiones de esta tecnología apenas están empezando a hacerse patentes. Souki Mehdaoui, cineasta independiente y cofundadora de Bell & Whistle, una consultora especializada en tecnologías creativas, afirma: "El oficio de cineasta está cambiando radicalmente".
—Will Douglas Heaven
3
La desinformación electoral generada por IA estará en todas partes
Si las últimas elecciones sirven de referencia, la desinformación electoral generada por IA y los deepfakes van a ser un gran problema cuando un número récord de personas acuda a las urnas en 2024. Ya estamos viendo cómo los políticos utilizan estas herramientas. En Argentina, dos candidatos presidenciales crearon imágenes y vídeos generados por IA de sus oponentes para atacarlos. En Eslovaquia, los deepfakes de un líder de un partido liberal proeuropeo amenazando con subir el precio de la cerveza y haciendo chistes sobre pornografía infantil se extendieron como la pólvora durante las elecciones del país. Y en Estados Unidos, Donald Trump ha jaleado a un grupo que utiliza IA para generar memes con tópicos racistas y sexistas.
Aunque es difícil decir hasta qué punto estos ejemplos han influido en los resultados de las elecciones, su proliferación es una tendencia preocupante. Será más difícil que nunca reconocer lo que es real en Internet. En un clima político ya inflamado y polarizado, esto podría tener graves consecuencias.
Hace apenas unos años, crear un deepfake habría requerido conocimientos técnicos avanzados, pero la IA generativa lo ha hecho ridículamente fácil y accesible, y los resultados parecen cada vez más realistas. Incluso fuentes reputadas pueden ser engañadas por contenidos generados por IA. Por ejemplo, imágenes generadas por IA y enviadas por usuarios que pretenden representar la crisis entre Israel y Gaza han inundado bancos de imágenes de archivo como el de Adobe.
El año que viene será crucial para quienes luchan contra la proliferación de este tipo de contenidos. Las técnicas para rastrear y mitigar estos contenidos están aún en sus primeros días de desarrollo. Las marcas de agua, como la SynthID de Google DeepMind, siguen siendo en su mayoría voluntarias y no totalmente infalibles. Y las plataformas de las redes sociales son notoriamente lentas a la hora de acabar con la desinformación. Prepárate para un experimento masivo en tiempo real para acabar con las noticias falsas generadas por inteligencia artificial.
—Melissa Heikkilä
4
Robots multitarea
Inspirados por algunas de las técnicas básicas que están detrás del actual auge de la IA generativa, los expertos en robótica están empezando a construir robots de uso más general que pueden realizar una gama más amplia de tareas.
En los últimos años, la IA ha pasado de utilizar varios modelos pequeños, cada uno de ellos entrenado para realizar diferentes tareas (identificar imágenes, dibujarlas, subtitularlas), a utilizar modelos únicos y monolíticos entrenados para hacer todo esto y más. Mostrando al GPT-3 de OpenAI algunos ejemplos adicionales (lo que se conoce como fine-tuning), los investigadores pueden entrenarlo para resolver problemas de codificación, escribir guiones de películas, aprobar exámenes de biología de secundaria, etc. Los modelos multimodales, como GPT-4 y Gemini de Google DeepMind, pueden resolver tareas tanto visuales como lingüísticas.
El mismo enfoque puede funcionar para los robots, por lo que no sería necesario entrenar a uno para voltear tortitas y a otro para abrir puertas: un modelo único podría dar a los robots la capacidad de realizar múltiples tareas. En 2023 surgieron varios ejemplos de trabajo en este campo.
En junio, DeepMind lanzó Robocat (una actualización del Gato del año pasado), que genera sus propios datos a partir de ensayo y error para aprender a controlar muchos brazos robóticos diferentes (en lugar de un brazo específico, que es lo más típico).
En octubre, la empresa presentó otro modelo de uso general para robots, llamado RT-X, y un nuevo gran conjunto de datos de entrenamiento de uso general, en colaboración con 33 laboratorios universitarios. Otros equipos de investigación punteros, como RAIL (Robotic Artificial Intelligence and Learning) de la Universidad de California en Berkeley, están estudiando tecnologías similares.
El problema es la falta de datos. La IA generativa se basa en un conjunto de datos de texto e imágenes del tamaño de Internet. En comparación, los robots tienen muy pocas fuentes de datos que les ayuden a aprender a hacer muchas de las tareas industriales o domésticas que queremos que hagan.
Lerrel Pinto, de la Universidad de Nueva York, dirige un equipo que se ocupa de ello. Él y sus colegas están desarrollando técnicas que permiten a los robots aprender por ensayo y error, obteniendo sus propios datos de entrenamiento sobre la marcha. En un proyecto aún más discreto, Pinto ha reclutado voluntarios para que recojan datos de vídeo de sus casas con una cámara de iPhone montada en un recogedor de basura. En los últimos dos años, grandes empresas han empezado a publicar grandes conjuntos de datos para entrenar robots, como Ego4D de Meta.
Este enfoque ya resulta prometedor en los coches sin conductor. Start-ups como Wayve, Waabi y Ghost son pioneras de una nueva oleada de IA de conducción autónoma que utiliza un único modelo de gran tamaño para controlar un vehículo, en lugar de varios modelos más pequeños para controlar tareas de conducción específicas. Esto ha permitido a las pequeñas empresas ponerse a la altura de gigantes como Cruise y Waymo. Wayve está probando sus coches sin conductor en las estrechas y concurridas calles de Londres. Los robots de todo el mundo están a punto de recibir un impulso similar.
—Will Douglas Heaven