Inteligencia Artificial
Sundar Pichai, CEO de Google: "La IA será una de las cosas más importantes con las que tendremos que lidiar en la próxima década"
El miércoles 6 de diciembre, Google presentó la primera fase de Gemini, su modelo de IA de próxima generación. Gemini refleja años de esfuerzos desde dentro de Google, supervisados e impulsados por Sundar Pichai, su CEO
(Puede leer todo sobre Gémini en nuestro informe de Melissa Heikkilä y Will Douglas Heaven ).
Pichai, que en su día supervisó la salida de Chrome y Android, es famoso por su obsesión por el producto. En 2016, en su primera carta como CEO predijo que "pasaremos de un mundo donde el móvil es lo primero a un mundo donde la IA es lo primero". En los años transcurridos desde entonces, Pichai ha infundido IA en todos los productos de Google, desde los dispositivos Android hasta la nube.
A pesar de ello, este año ha estado marcado en gran medida por los lanzamientos de IA de otra empresa, OpenAI. El lanzamiento de DALL-E y GPT-3.5 en 2022, seguido de GPT-4 en 2023, dominaron el sector y desencadenaron una carrera armamentística entre start-ups y gigantes tecnológicos.
Ahora, Gemini es el último esfuerzo en esa carrera. Este sistema de última generación ha sido dirigido por Google DeepMind, la organización recientemente integrada dirigida por Demis Hassabis que reúne a los equipos de IA de la empresa bajo un mismo paraguas. Ya puedes experimentar Gemini en Bard, y a lo largo de 2024 se integrará en toda la línea de productos de la compañía.
Nos sentamos con Sundar Pichai en las oficinas de Google en Mountain View (California), la víspera del lanzamiento de Gemini para hablar de lo que significará para Google, sus productos, la IA y la sociedad en general.
La siguiente transcripción representa a Pichai en sus propias palabras. La conversación ha sido editada para mayor claridad y legibilidad.
¿Por qué es tan emocionante Gemini? ¿Cuál es el panorama general que ve en relación con la IA, su poder, su utilidad, y la dirección que tomará en todos sus productos?
Una parte específica de lo que lo hace emocionante es que, desde el principio, es un modelo multimodal nativo. Igual que los humanos, no aprende solo de texto, también lo hace de audio o código. Por eso, el modelo es más capaz y creo que nos ayudará a descubrir nuevas capacidades y a contribuir al progreso de este campo. Es apasionante.
También es emocionante porque Gemini Ultra es puntero en 30 de las 32 pruebas de referencia principales y, en particular, en las pruebas de referencia multimodales. Ese punto de referencia MMMU (Entendimiento Masivo Multidisciplinar Multimodal, por sus siglas en inglés) muestra los progresos realizados. Personalmente, me parece emocionante que en MMLU [Entendimiento Masivo Multitarea del Lenguaje, por sus siglas en inglés), que fue una de las principales pruebas de referencia, haya superado el umbral del 90%. Es un gran hito. Hace dos años, el estado del arte era del 30 o el 40%. Así que piense en lo mucho que está avanzando este campo. Es un experto humano en estos 57 temas al 89%, aproximadamente. Y es el primer modelo que cruza ese umbral.
También estoy entusiasmado porque, por fin, se va a incorporar a nuestros productos, estará disponible para los desarrolladores, es una plataforma. La IA es un gran cambio de la plataforma, mayor que la web o el móvil. Así que representa también un gran paso para nosotros desde aquel momento.
Empecemos por los puntos de referencia. Parecía estar por delante de GPT-4 en casi todos ellos, o en la mayoría, pero por poco. Mientras que GPT-4 parecía un gran salto adelante. ¿Empezamos a estancarnos en cuanto a lo que serán capaces de hacer algunas de estas tecnologías de modelos de gran lenguaje, o crees que seguiremos teniendo estas grandes curvas de crecimiento?
En primer lugar, mirando al futuro, vemos mucho margen. Algunos de los puntos de referencia ya son altos. Hay que darse cuenta de que, cuando se intenta conseguir algo desde el 85%, entonces se está en el borde de la curva. Puede que no parezca mucho, pero se está avanzando. También necesitaremos nuevos puntos de referencia. En parte, por eso estudiamos también la referencia multimodal MMLU. [Para algunos de estos nuevos puntos de referencia, el estado de la técnica todavía es muy inferior, aún queda mucho por hacer. Las leyes de escalado seguirán funcionando y, a medida que aumentemos el tamaño de los modelos, habrá más avances. Cuando lo considero en su totalidad, siento que estamos en el principio.
Me interesa saber cuáles son, en su opinión, los principales avances de Géminis y cómo se aplicarán.
Es muy difícil para la gente imaginar los saltos que se producirán. Estamos proporcionando API, y la gente lo imaginará de maneras muy profundas.
Creo que habrá una gran multimodalidad. A medida que enseñemos a estos modelos a razonar más, los avances serán cada vez mayores, y todavía faltan por llegar avances más profundos.
Una forma de plantearse esta cuestión es Gemini Pro, que rinde muy bien en los benchmarks. Pero cuando lo incluimos en Bard, pude utilizarlo como usuario. Hemos estado probándolo, y las puntuaciones de favorabilidad suben en todas las categorías de manera significativa. Por eso, decimos que es una de nuestras mayores mejoras. Y cuando hacemos evaluaciones paralelas a ciegas, se detecta un rendimiento superior. Así que hacemos que estos modelos mejoren los puntos de referencia, hacemos progresos. Y seguiremos entrenando y avanzando a partir de ahí.
No obstante, estoy impaciente por ponerlo en nuestros productos, estos modelos son tan capaces. En realidad, será apasionante diseñar las experiencias de producto durante los próximos meses para aprovechar todo lo que tienen los modelos.
Imagino que había una gran presión para que Gemini saliera al mercado. Tengo curiosidad por saber qué aprendió al ver lo que había ocurrido con el lanzamiento de GPT-4. ¿Qué enfoques cambiaron en ese lapso de tiempo?
Al menos para mí: parece muy lejos de ser un juego de suma cero, ¿verdad? Piensa en lo profundo que es el cambio a la IA, y solo estamos al principio. Hay un mundo de oportunidades por delante.
Sin embargo, en cuanto a su pregunta, es un campo muy rico donde todos estamos progresando. Tiene un componente científico y un componente académico: publicar mucho, y ver cómo funcionan modelos como el GPT-4 en el mundo real, hemos aprendido de ello. La seguridad es un aspecto importante. En parte, con Gemini hemos aprendido y mejorado técnicas de seguridad al basarnos en el funcionamiento de los modelos en el mundo real. Esto demuestra la importancia de diversos aspectos, como la preparación. Una de las cosas que demostramos con Med-PaLM 2 fue que un modelo como PaLM, ajustado a un ámbito específico, podía superar a los modelos más avanzados. Así aprendimos el poder de hilar fino.
Gran parte de esto se aplica a Gemini. Una de las razones por las que nos tomamos más tiempo con Ultra [la versión más avanzada de Gemini, que estará disponible en 2024] es para asegurarnos de que lo probamos rigurosamente desde el punto de vista de la seguridad. Pero también estamos perfeccionándolo para sacar el máximo partido a sus posibilidades.
Cuando salgan algunos de estos lanzamientos y la gente empiece a jugar con ellos, tendrán alucinaciones o podrán revelar algunos de los datos privados con los que se entrenan sus modelos. Y me pregunto cuánto de eso es inherente a la tecnología, teniendo en cuenta los datos con los que se entrena, si es inevitable. Si lo es, ¿qué intentan hacer para limitarlo?
Tiene razón, todos estos son campos de investigación en activo. De hecho, acabamos de publicar un artículo que muestra cómo estos modelos pueden revelar datos de entrenamiento mediante una serie de indicaciones. Y la alucinación no es un problema resuelto. Creo que todos estamos avanzando en él, y aún queda trabajo por hacer. Hay algunas limitaciones fundamentales que tenemos que superar. Por ejemplo, si tomamos Gemini Ultra, trabajamos activamente en estos modelos con terceras partes externas que lo utilizan y son especialistas en ello.
En ámbitos como la multimodalidad, queremos ser audaces y responsables. Tendremos más cuidado con los despliegues multimodales, porque hay más posibilidades de que se produzcan casos de uso erróneos.
No obstante, tienes razón pues sigue siendo una tecnología en desarrollo, por lo que no tendrá sentido para todo. Por eso, en esa investigación, tenemos más cuidado con cómo la usamos, cuándo y qué hacemos, dónde la usamos y cuándo la activamos. Tienen unas capacidades asombrosas, pero también tienen defectos claros. Esa es la difícil tarea que nos espera a todos.
¿Cree que, en última instancia, esto se resolverá? Es decir, las alucinaciones o la revelación de otros datos de entrenamiento.
Con la tecnología actual de los LLM autorregresivos, las alucinaciones no son un problema resuelto, pero puede que los futuros sistemas de IA no se parezcan a los actuales. Esta es una versión de la tecnología, como cuando la gente pensaba que era imposible meter un ordenador en el bolsillo. Hace 20 años, hubo gente que opinaba mucho. Del mismo modo, se observan estos sistemas y se dictamina que no se pueden diseñar versiones mejores, no comparto esa opinión. Ya hay muchas investigaciones en marcha para pensar de qué otra forma se pueden enfrentar a estos problemas.
Usted ha hablado de lo profundo que es este cambio. En algunos de estos últimos cambios, como el del móvil, no aumentó la productividad, que ha sido plana durante mucho tiempo. Creo que existe el argumento de que incluso puede haber empeorado la desigualdad de ingresos. ¿En qué trabaja Google para asegurarse de que este cambio sea más beneficioso para la sociedad?
Es una pregunta muy importante, y pienso en ello a varios niveles. En Google siempre nos hemos centrado en cómo conseguir que el acceso a la tecnología sea lo más amplio posible. Incluso en el caso de los móviles, como el trabajo que hacemos con Android, cientos de millones de personas no habrían tenido acceso a la informática de otro modo. Trabajamos duro para conseguir un smartphone asequible, quizá por debajo de los 50 dólares (46 euros).
Pienso en un marco donde la IA sea útil para todos, y promuevo el acceso al mayor número de personas posible. Esto por un lado.
Pensamos mucho en aplicarla a casos de uso que puedan beneficiar a la población. Por ejemplo, empezamos a hacer previsiones de inundaciones al darnos cuenta de que la IA puede detectar patrones, y lo hace bien. También la utilizamos para traducir 1.000 idiomas. Literalmente, ahora estamos llevando el contenido a idiomas donde, de otro modo, no habría acceso.
Esto no resuelve todos los problemas que mencionas. Pero tratamos de concretar cuándo y dónde, en qué tipo de problemas centrarse... siempre nos hemos enfocado en eso. Por ejemplo, en áreas como AlphaFold hemos proporcionado una base de datos abierta para los virus en todo el mundo. Pero... ¿quién la utiliza primero? ¿Dónde se vende? La IA no va a mejorar mágicamente algunos de los problemas más complejos, como la desigualdad; es más, podría empeorarla.
Aunque lo importante es asegurarse de que la tecnología esté al alcance de todos. Hay que desarrollarla pronto, dar acceso a la población y entablar conversaciones para que la sociedad pueda reflexionar y adaptarse a ella.
Sin duda, hemos participado en esta tecnología antes que en otras. Por ejemplo, en el reciente Foro de Seguridad de Inteligencia Artificial del Reino Unido o en el trabajo realizado con el Congreso y la Administración en EE UU. Intentamos establecer más asociaciones público-privadas, y atraer antes a instituciones académicas y sin ánimo de lucro.
Hay que estudiar a fondo las repercusiones en ámbitos como el empleo, pero creo que aparecerán sorpresas. Habrá valoraciones positivas sorprendentes, y también las habrá negativas. Resolver estas últimas va más allá de una sola empresa, es el papel de todas las partes interesadas de la sociedad. Así que no tengo respuestas fáciles.
Puedo darle muchos ejemplos de las ventajas que aporta el móvil. Creo que esto también será así, ya lo hemos demostrado con áreas como la retinopatía diabética. En muchas partes del mundo no hay médicos suficientes para detectarla.
Del mismo modo que consideré que dar acceso a Google Search en cualquier parte del mundo marcaba una diferencia positiva, creo que esa es la forma de pensar sobre la ampliación del acceso a la IA.
Hay cosas que harán que la gente sea más productiva, la programación es un gran ejemplo de ello. Sin embargo, esa democratización de la tecnología es lo que amenaza el empleo. E incluso si no tienes todas las respuestas para la sociedad -y no corresponde a una empresa resolver los problemas sociales- una empresa puede ofrecer un producto que puede cambiar el mundo y tener un profundo impacto.
Nunca ofrecimos API de reconocimiento facial, pero la gente creó API y la tecnología avanza. Así que tampoco está en manos de una sola empresa. La tecnología avanzará.
Creo que la respuesta es más compleja. Las sociedades también pueden quedarse atrás. Si no adoptan estas tecnologías, podría afectar a su competitividad económica, podrían perder más puestos de trabajo.
Creo que la respuesta correcta es desplegar la tecnología de forma responsable, progresar, y pensar en las áreas donde puede causar un daño desproporcionado y trabajar para mitigarlo. Habrá nuevos tipos de empleo. Si nos fijamos en los últimos 50 o 60 años, hay estudios de economistas del MIT que muestran que la mayoría de los nuevos empleos se han creado en nuevas áreas surgidas desde entonces.
Se crearán nuevos empleos y habrá trabajos que mejoren, donde parte de las tareas mecánicas se liberen de forma que uno pueda expresarse de forma más creativa. Podrías ser médico, radiólogo o programador. La cantidad de tiempo que pasas en tareas rutinarias frente al pensamiento de orden superior, todo eso podría cambiar, y hacer que el trabajo tenga más sentido. También hay empleos que podrían verse desplazados. Así que, como sociedad, ¿cómo podemos reciclar las habilidades de las personas y crear oportunidades?
El último año ha puesto de manifiesto esta división filosófica en la forma de enfocar la IA. Se puede hablar de seguridad primero, casos de uso empresarial, o progresistas frente a catastrofistas. Usted se encuentra en una posición en la que tiene que unir todas esas filosofías. Me pregunto qué opina usted sobre tratar de conciliar esos intereses en Google, que va a ser líder en este campo, y en este nuevo mundo.
Soy un optimista tecnológico. Siempre he creído, basándome en mi vida personal, en las personas y en la humanidad. En general, creo que la humanidad aprovechará la tecnología en su beneficio. Así que siempre he sido optimista, pero tienes razón, una tecnología poderosa como la IA tiene una dualidad.
Esto significa que habrá momentos donde avanzaremos con valentía porque podemos impulsar el estado de la técnica. Por ejemplo, si la IA puede ayudarnos a resolver problemas como el cáncer o el cambio climático, querrás hacer todo lo que esté en tu mano para avanzar rápidamente. Pero, sin duda, es necesario que la sociedad desarrolle marcos para adaptarse, ya sea a los deepfakes, al desplazamiento de puestos de trabajo, etc. Esto va a ser una frontera, igual que el cambio climático. Será uno de los mayores problemas a los que tendremos que enfrentarnos en la próxima década.
Otra cuestión importante y pendiente es el panorama jurídico de la IA. Hay dudas sobre el uso ético, o sobre la capacidad de proteger los resultados. Y parece que será un gran problema para la propiedad intelectual. ¿Qué dice a los usuarios que utilizan sus productos para darles la seguridad de que lo que hacen no les llevará a juicio?
No todos estos temas tienen una respuesta fácil. Cuando creamos productos, como Search, YouTube y otros en el mundo anterior a la IA, siempre intentamos que el intercambio de valor sea adecuado. En el caso de la IA, no es diferente. Nos centramos en asegurarnos de que podemos entrenar con datos que están permitidos, de acuerdo con la ley, dando a la población la oportunidad de no participar en el entrenamiento. Luego, hay una cuestión sobre lo que es el uso justo. Es importante aportar valor a los creadores del contenido original. Son áreas importantes, e internet fue un ejemplo de ello, o cuando empezó el comercio electrónico. ¿Cómo se traza la línea entre el comercio electrónico y el comercio tradicional?
Con el tiempo se desarrollarán nuevos marcos jurídicos, como yo lo veo según evoluciona este ámbito. Mientras tanto, trabajaremos duro para estar en el lado correcto de la ley y asegurarnos de que también tenemos relaciones profundas con muchos proveedores de contenidos actuales. Hay algunas áreas donde es polémico, pero estamos trabajando en ello y me comprometo a trabajar para resolverlo. Debemos crear ese ecosistema donde todos salgan ganando para que esto funcione con el tiempo.
Ahora, algo que preocupa mucho a la población con la web es el futuro de los motores de búsqueda. Cuando existe un tipo de tecnología que se limita a responder preguntas por ti, basándose en información de toda la web, existe el temor de que el usuario ya no necesite visitar esos sitios. Esto parece que también tendría implicaciones para Google, y me pregunto si estás pensando en ello en términos de tu propio negocio.
Una de las propuestas de valor que hemos tenido en Search es que ayudamos a los usuarios a aprender cosas nuevas, encontrar respuestas, siempre con la idea de compartir la riqueza y la diversidad que existe en la web. Esto seguirá siendo así, incluso a medida que avancemos en nuestro viaje con la Experiencia Generativa de Búsqueda. Es un principio importante por el que estamos desarrollando nuestro producto. No creo que la gente siempre venga a Search diciendo: "Respóndeme". Puede haber una o dos preguntas para las que quieran eso, e incluso entonces vuelven, aprenden más, e incluso en ese viaje, profundizan. Queremos asegurarnos de que lo estamos haciendo bien, y no creo que eso vaya a cambiar. Es importante que encontremos el equilibrio.
Asimismo, si entregas un profundo valor, también hay valor comercial en ello. Hemos tenido preguntas de este tipo desde el ordenador de escritorio hasta el móvil, no es algo nuevo para nosotros. Me baso en todo lo que estamos viendo y cómo responden los usuarios a los anuncios de alta calidad. YouTube es un buen ejemplo, pues hemos desarrollado modelos de suscripción. Eso ha funcionado bien.
¿Cómo cree que cambiará la experiencia de usuario en 2024, cuando estos productos empiecen a llegar al mercado y comiencen a interactuar? ¿Cómo cambiará su experiencia?
Dentro de un año, cualquiera que empiece algo en Google Docs esperará algo diferente. Si se lo das, y luego los pones de nuevo en la versión de Google Docs que teníamos en 2022, lo encontrarán anticuado. Por ejemplo, mis hijos, si no tienen corrector ortográfico, piensan que algo está roto. Tú y yo podemos recordar cómo era utilizar estos productos antes del corrector ortográfico. Hemos incorporado tanta IA en la búsqueda, más que cualquier otra empresa, y la gente lo da por sentado. Es algo que he aprendido con el tiempo, lo dan por sentado.
En cuanto a las cosas nuevas que pueden hacerse, a medida que desarrollemos las capacidades multimodales, el usuario podrá hacer tareas más complejas de formas que antes no podía. Y habrá casos de uso reales más potentes.
Corrección: Este artículo se ha actualizado para corregir errores de transcripción. En particular, MMMU se transcribió de manera incorrecta como MMLU, y “experiencia generativa de búsqueda” apareció originalmente como “experiencia relacionada con la búsqueda”.