Skip to main content

En los tres años transcurridos desde el debut fulgurante de ChatGPTla tecnología de OpenAI ha alterado de forma profunda un amplio abanico de actividades cotidianas: en casa, en el trabajo, en los centros educativos… en cualquier lugar donde la gente tenga un navegador abierto o un teléfono a mano, es decir, en todas partes.  

OpenAI quiere ahora hacerse un hueco explícito entre la comunidad científica. En octubre, la compañía anunció la creación de un nuevo equipo, OpenAI for Science, dedicado a explorar cómo sus modelos de lenguaje de gran tamaño pueden ayudar a los científicos y a ajustar sus herramientas para apoyarlos. 

En los últimos meses se han publicado numerosos artículos en redes sociales y publicaciones académicas en los que matemáticos, físicos, biólogos y otros expertos han descrito cómo los LLM (y en particular GPT‑5 de OpenAI) les han ayudado a hacer un descubrimiento o les han empujado hacia una solución que, de otro modo, podrían haber pasado por alto. En parte, OpenAI for Science nació para acercarse a esta comunidad. 

Y, sin embargo, OpenAI también llega tarde a la fiesta. Google DeepMind, la empresa rival detrás de modelos científicos revolucionarios como AlphaFold y AlphaEvolve, cuenta desde hace tiempo con un equipo dedicado a la IA para la ciencia. (Cuando hablé en 2023 con Demis Hassabis, director ejecutivo y cofundador de Google DeepMind, sobre ese grupo, me dijo: “Esta es la razón por la que fundé DeepMind… De hecho, es por lo que he dedicado toda mi carrera a la inteligencia artificial”. 

Entonces, ¿por qué ahora? ¿Cómo encaja este giro hacia la ciencia dentro de la misión más amplia de OpenAI? ¿Y qué es exactamente lo que la empresa espera lograr? 

Le planteé estas preguntas a Kevin Weil, vicepresidente de OpenAI y responsable del nuevo equipo OpenAI for Science, en una entrevista exclusiva la semana pasada. 

Sobre la misión 

Weil es un experto en productos. Llegó a OpenAI hace un par de años como director de producto tras ocupar ese mismo cargo en Twitter e Instagram. Pero comenzó como científico. Completó dos tercios de un doctorado en física de partículas en la Universidad de Stanford antes de abandonar la academia para perseguir el sueño de Silicon Valley. Él mismo insiste en subrayar ese recorrido: “Pensé que sería profesor de física toda mi vida”, afirma. “Todavía leo libros de matemáticas en vacaciones”. 

Cuando se le pregunta cómo encaja OpenAI for Science en el catálogo actual de herramientas de productividad para profesionales o en la aplicación de vídeo viral Sora, Weil recita el lema de la casa: “La misión de OpenAI es intentar construir una inteligencia artificial general y, ya sabes, hacer que sea beneficiosa para toda la humanidad”. 

Imaginemos el impacto futuro que esta tecnología podría tener en la ciencia, dice: nuevos medicamentos, nuevos materiales, nuevos dispositivos. “Pensemos en cómo puede ayudarnos a comprender la naturaleza de la realidad, a reflexionar sobre problemas abiertos. Puede que el mayor impacto (y más positivo) que veremos de la IAG sea precisamente su capacidad para acelerar la ciencia”. 

Y añade: “Con GPT‑5 vimos que eso empezaba a ser posible”. 

Según Weil, los LLM ya son lo bastante competentes como para convertirse en verdaderos colaboradores científicos. Son capaces de lanzar ideas, proponer líneas de investigación inéditas y encontrar paralelismos fructíferos entre nuevos problemas y viejas soluciones publicadas en revistas poco conocidas hace décadas o en idiomas extranjeros. 

No era así hace apenas un año. Desde que en diciembre de 2024 presentó su primer modelo de razonamiento (un tipo de LLM capaz de descomponer un problema en varios pasos y resolverlos de forma secuencial), OpenAI ha ido ampliando los límites de lo que esta tecnología puede hacer. Los modelos de razonamiento han hecho que los LLM sean mucho mejores que antes a la hora de resolver problemas matemáticos y lógicos. “Si miras unos años atrás, todos nos quedamos boquiabiertos que los modelos pudieran obtener una puntuación de 800 en el SAT”, recuerda Weil. 

Pero pronto los LLM comenzaron a dominar competiciones de matemáticas y a resolver problemas de física a nivel de posgrado. El año pasado, tanto OpenAI como Google DeepMind anunciaron que sus modelos habían alcanzado un rendimiento de medalla de oro en la Olimpiada Internacional de Matemática, una de las competiciones matemáticas más difíciles del mundo. “Estos modelos ya no son simplemente mejores que el 90% de los estudiantes de posgrado”, afirma Weil. “Están realmente en la frontera de las capacidades humanas”. 

Es una afirmación contundente, y conlleva algunos matices. Aun así, no hay duda de que GPT‑5, que integra un modelo de razonamiento, representa un salto considerable respecto a GPT‑4 en la resolución de problemas complejos. En comparación con un punto de referencia del sector conocido como GPQA, que incluye más de 400 preguntas de opción múltiple que evalúan los conocimientos de doctorado en biología, física y química, GPT-4 obtiene una puntuación del 39 %, muy por debajo de la referencia de los expertos humanos, que ronda el 70 %. Según OpenAI, GPT-5.2 (la última actualización del modelo, lanzada en diciembre) obtiene una puntuación del 92 %. 

Sobreexpectación 

El entusiasmo es evidente… quizá demasiado. En octubre, directivos de OpenAI, incluido Weil, presumieron en X de que GPT‑5 había encontrado soluciones a varios problemas matemáticos sin resolver. Los matemáticos se apresuraron a señalar que, en realidad, lo que parecía haber hecho GPT-5 era desenterrar soluciones existentes en antiguos artículos de investigación, entre ellos al menos uno escrito en alemán. Eso seguía siendo útil, pero no era el logro que OpenAI parecía haber reivindicado. Weil y sus colegas borraron las publicaciones». 

Ahora Weil es más prudente. A menudo basta con encontrar respuestas que existen pero que han sido olvidadas, afirma: “Nos apoyamos colectivamente en los hombros de gigantes y, si los LLM pueden acumular ese conocimiento para evitar que perdamos tiempo con problemas ya resueltos, eso en sí mismo es una forma de aceleración”. 

Resta importancia a la idea de que los LLM estén a punto de producir un nuevo descubrimiento revolucionario. “No creo que los modelos estén ahí aún”, señala. “Puede que lleguen. Soy optimista y creo que lo lograrán”. 

Pero insiste en que ese no es el objetivo: “Nuestra misión es acelerar la ciencia. Y no creo que el listón para acelerar la ciencia sea como reinventar un campo entero al estilo Einstein”. 

Para Weil, la pregunta clave es: “¿Avanza realmente la ciencia más rápido porque científicos más modelos pueden hacer mucho más, y más deprisa, de lo que pueden hacer los científicos solos? Creo que ya estamos viendo que sí”. 

En noviembre, OpenAI publicó una serie de casos prácticos aportados por investigadores dentro y fuera de la compañía, que ilustraban cómo habían utilizado GPT‑5 y cómo les había ayudado. “La mayoría de los casos correspondían a científicos que ya estaban usando GPT‑5 directamente en su investigación y que, de una forma u otra, acudieron a nosotros diciendo: «Mira lo que estoy consiguiendo con estas herramientas»”, explica Weil. 

Las principales habilidades en las que GPT-5 parece destacar son encontrar referencias y conexiones con trabajos previos que los investigadores desconocían, lo que a veces desencadena nuevas ideas; ayudar científicos en el esbozo de demostraciones matemáticas; y sugerirles vías para comprobar hipótesis en el laboratorio. 

“GPT‑5.2 ha leído prácticamente todos los artículos publicados en los últimos 30 años”, afirma Weil. “Y no solo comprende el campo en el que trabaja un científico concreto, sino que puede reunir analogías de otras disciplinas que no tienen nada que ver”. 

“Eso es increíblemente potente”, continúa. “Siempre puedes encontrar un colaborador humano en un área cercana, pero es difícil encontrar, ya sabes, mil colaboradores en mil áreas colindantes que puedan importar. Además, puedo trabajar con el modelo hasta altas horas de la noche (no duerme) y puedo pedirle diez cosas a la vez, algo que sería un poco incómodo hacer con una persona”. 

Resolver problemas 

La mayoría de los científicos contactados por OpenAI respaldan la visión de Weil. 

Robert Scherrer, profesor de física y astronomía en la Universidad Vanderbilt, solo usaba ChatGPT por diversión (“Le pedí que reescribiera la sintonía de Gilligan’s Island al estilo de Beowulf, y lo hizo muy bien”, me cuenta) hasta que Alex Lupsasca, colega suyo y ahora investigador en OpenAI, le explicó que GPT‑5 había ayudado a resolver un problema en el que él mismo llevaba tiempo atascado. 

Lupsasca dio acceso a Scherrer a GPT‑5 Pro, la suscripción premium de OpenAI de 200 dólares al mes. “Consiguió resolver un problema que mi estudiante de posgrado y yo no pudimos resolver pese a trabajar varios meses en él”, asegura Scherrer». 

No es perfecto, advierte: “GPT‑5 todavía comete errores tontos. Claro, yo también, pero los suyos son aún más tontos”. Y aun así mejora de manera continua: “Si las tendencias actuales siguen (y es un gran «si»), sospecho que todos los científicos acabarán usando LLM pronto”. 

Derya Unutmaz, profesor de biología en el Jackson Laboratory, un instituto de investigación sin ánimo de lucro, utiliza GPT‑5 para generar ideas, resumir artículos y planificar experimentos en su investigación sobre el sistema inmunitario. En el caso práctico que compartió con OpenAI, Unutmaz utilizó GPT‑5 para analizar un conjunto de datos antiguo que su equipo ya había examinado. El modelo aportó nuevas interpretaciones e hipótesis«. 

Los LLM ya son esenciales para los científicos”, afirma. “Cuando puedes completar análisis de datos que antes llevaban meses, dejar de usarlos deja de ser una opción”. 

Nikita Zhivotovskiy, estadístico en la Universidad de California en Berkeley, comenta que utiliza los LLM en su investigación desde la primera versión de ChatGPT.  

Al igual que Scherrer, considera que los LLM son más útiles cuando ponen de relieve conexiones inesperadas entre su propio trabajo y resultados existentes que desconocía. “Creo que los LLM se están convirtiendo en una herramienta técnica esencial para los científicos, como antes lo fueron los ordenadores o internet”, asegura. “Creo que quien no los use tendrá una desventaja a largo plazo”. 

Pero no espera que los modelos produzcan descubrimientos inéditos a corto plazo. “He visto muy pocas ideas o argumentos genuinamente novedosos que merezcan ser publicados por sí mismos”, afirma. “Hasta ahora, parecen combinar principalmente resultados existentes, a veces de forma incorrecta, en lugar de producir enfoques genuinamente nuevos”. 

También hablé con varios científicos que no tienen relación con OpenAI. 

Andy Cooper, profesor de química en la Universidad de Liverpool y director del Leverhulme Research Centre for Functional Materials Design, se muestra más cauto. “No hemos visto, por ahora, que los LLM estén cambiando de forma fundamental la manera en que se hace ciencia”, asegura. “Pero nuestros resultados recientes sugieren que sí tienen un papel”. 

Cooper dirige un proyecto para desarrollar un »científico de IA», capaz de automatizar por completo partes del proceso científico. Explica que su equipo no usa LLM para generar ideas, pero que la tecnología empieza a resultar útil como parte de un sistema automatizado más amplio, en el que un LLM puede, por ejemplo, orientar a robots. 

“Mi impresión es que los LLM encajarán mejor en flujos de trabajo robóticos, al menos al principio, porque no estoy seguro de que la gente esté lista para que un LLM le diga lo que tiene que hacer”, dice Cooper. “Yo, desde luego, no lo estoy”. 

Cometer errores 

Los LLM pueden ser cada vez más útiles, pero la prudencia sigue siendo imprescindible. En diciembre, Jonathan Oppenheim, un científico que trabaja en mecánica cuántica, señaló un error que había llegado a colarse en una revista científica. “La dirección de OpenAI está promocionando un artículo en Physics Letters B en el que GPT‑5 propuso la idea principal, posiblemente el primer artículo revisado por pares cuya contribución central proviene de un LLM”, publicó Oppenheim en X». “Solo hay un pequeño problema: la idea de GPT‑5 pone a prueba lo que no corresponde”. 

Y continuó: “GPT‑5 tenía que diseñar un test para detectar teorías no lineales. Lo que ofreció fue un test para detectar teorías no locales. Suenan parecido, pero no lo son. Es como pedir una prueba de COVID y que el LLM te entregue tan contento una prueba de varicela”. 

Es evidente que muchos científicos están encontrando formas creativas e intuitivas de trabajar con los LLM. También es evidente que la tecnología comete errores tan sutiles que pueden pasar desapercibidos incluso para expertos. 

Parte del problema es la forma en que ChatGPT puede halagarte para que bajes la guardia. Como resumió Oppenheim: “Un problema de fondo es que los LLM están entrenados para validar al usuario, cuando la ciencia necesita herramientas que nos desafíen”. En un caso extremo, un usuario (que no era científico) llegó a convencerse durante meses, alentado por el modelo, de que había inventado una nueva rama de las matemáticas. 

Por supuesto, Weil es plenamente consciente del problema de las alucinaciones. Pero insiste en que los modelos más recientes alucinan cada vez menos. Aun así, centrarse en las alucinaciones quizá no sea lo importante, sostiene. 

“Unos de mis compañero aquí, un exprofesor de matemáticas, dijo algo que se me quedó grabado”, cuenta Weil. “Dijo: «Cuando hago investigación, si intercambio ideas con un colega, estoy equivocado el 90% del tiempo, y ese es el objetivo. Ambos estamos lanzando ideas al aire para ver cuál funciona»”. 

“Ese es, en realidad, un espacio deseable”, afirma Weil. “Si dices suficientes cosas incorrectas y alguien tropieza con un grano de verdad, y la otra persona se aferra a ella y dice: «No es del todo correcto, pero ¿y si…?», poco a poco vas encontrando tu camino a través del bosque”. 

Esta es la visión central de Weil para OpenAI for Science. GPT‑5 es bueno, pero no es un oráculo. El valor de la tecnología está en señalar nuevas direcciones, no en ofrecer respuestas definitivas, sostiene. 

De hecho, uno de los aspectos que OpenAI está investigando ahora es hacer que GPT‑5 reduzca su nivel de seguridad aparente al responder. En lugar de decir “Aquí está la respuesta”, podría decir: “Aquí tienes algo que considerar”. 

“Es algo en lo que estamos invirtiendo mucho tiempo”, explica Weil. “Queremos que el modelo tenga una especie de humildad epistemológica”. 

Vigilar al vigilante 

Otro foco de trabajo de OpenAI es emplear GPT‑5 para verificar a GPT‑5. A menudo, si se introduce una de las respuestas de GPT-5 en el modelo, este la analizará y resaltará los errores. 

“Puedes conectar el modelo consigo mismo como si fuera su propio crítico”, explica Weil. “Así obtienes un flujo de trabajo donde un modelo piensa, luego pasa la respuesta a otro modelo y, si ese modelo detecta algo que mejorar, se lo devuelve al original diciendo: «Oye, un momento: esta parte no estaba bien, pero esta otra era interesante. Quédate con eso». Es casi como un par de agentes trabajando juntos, y solo ves el resultado cuando pasa el filtro del crítico”. 

Lo que describe Weil recuerda mucho a lo que Google DeepMind hizo con AlphaEvolve, una herramienta que integraba su LLM, Gemini, en un sistema mayor que filtraba las buenas respuestas de las malas y las reintroducía para mejorarlas. Google DeepMind ha utilizado AlphaEvolve para resolver varios problemas reales. 

OpenAI compite con fuerza contra otras firmas cuyos LLM pueden hacer la mayoría (si no todas) de las cosas que la compañía atribuye a sus propios modelos. Si es así, ¿por qué deberían los científicos optar por GPT‑5 en lugar de Gemini o de Claude de Anthropic, familias de modelos que también mejoran año tras año? En última instancia, OpenAI for Science puede ser tanto un movimiento para plantar bandera en un nuevo territorio como cualquier otra cosa. Las verdaderas innovaciones aún están por llegar. 

“Creo que 2026 será para la ciencia lo que 2025 fue para la ingeniería de software”, asegura Weil. “A comienzos de 2025, si usabas IA para escribir la mayor parte de tu código, eras un pionero. Doce meses después, si no usas IA para escribir la mayor parte de tu código, probablemente te estés quedando atrás. Estamos viendo los mismos destellos tempranos en ciencia que vimos en programación”. 

Y añade: “Creo que dentro de un año, si eres científico y no usas IA de forma intensiva, estarás perdiendo una oportunidad para mejorar la calidad y el ritmo de tu pensamiento”.