Inteligencia Artificial

OpenAI está volcando todos sus esfuerzos en desarrollar un investigador completamente automatizado

PorWill Douglas Heaven
13 min
20 de marzo de 2026
OpenAI está volcando todos sus esfuerzos en desarrollar un investigador completamente automatizado

Una conversación exclusiva con el científico jefe de OpenAI, Jakub Pachocki, sobre el nuevo gran reto de su firma y el futuro de la IA.

OpenAI está reorientando sus esfuerzos de investigación y volcando sus recursos en un nuevo gran desafío. La firma de San Francisco se ha fijado el objetivo de construir lo que denomina un investigador de IA, un sistema totalmente automatizado basado en agentes que será capaz de abordar grandes y complejos problemas por sí mismo. OpenAI afirma que este nuevo objetivo de investigación será su "estrella polar" para los próximos años, aglutinando múltiples líneas de investigación, incluyendo trabajos sobre modelos de razonamiento, agentes, e interpretabilidad.

Incluso hay un cronograma. OpenAI planea construir "un becario de investigación de IA autónomo" —un sistema capaz de abordar por sí mismo un número reducido de problemas de investigación específicos— para septiembre. Este becario de IA será el precursor de un sistema de investigación multiagente completamente automatizado que la compañía planea lanzar en 2028. Este investigador de IA (según OpenAI) será capaz de abordar problemas demasiado grandes o complejos para que los humanos puedan lidiar con ellos.

Esas tareas podrían estar relacionadas con las matemáticas y la física —como la elaboración de nuevas demostraciones o conjeturas—, o con las ciencias de la vida como la biología y la química, o incluso con dilemas empresariales y de políticas. En teoría, a una herramienta así se le podría plantear cualquier tipo de problema que pueda formularse en texto, código o apuntes de pizarra, lo que abarca un amplio espectro.

OpenAI lleva años marcando la agenda de la industria de la IA. Su dominio inicial con grandes modelos de lenguaje dio forma a la tecnología que cientos de millones de personas utilizan cada día. Pero ahora se enfrenta a una competencia feroz de creadores de modelos rivales como Anthropic y Google DeepMind. Lo que OpenAI decida construir a continuación importa, tanto para sí misma como para el futuro de la IA.   

Gran parte de esa decisión recae en Jakub Pachocki, científico jefe de OpenAI, quien establece los objetivos de investigación a largo plazo de la compañía. Pachocki desempeñó papeles clave tanto en el desarrollo de GPT-4, un LLM revolucionario lanzado en 2023, como en el de los llamados modelos de razonamiento, una tecnología que apareció por primera vez en 2024 y ahora sustenta todos los principales chatbots y sistemas basados en agentes.

En una entrevista exclusiva esta semana, Pachocki me explicó la visión más reciente de OpenAI. “Creo que nos estamos acercando a un punto en el que tendremos modelos capaces de trabajar indefinidamente de manera coherente, igual que lo hacen las personas”, dice. “Por supuesto, todavía quieres que haya personas a cargo y que fijen los objetivos. Pero creo que llegaremos a un punto en el que, en cierto modo, tendrás un laboratorio de investigación completo en un centro de datos”.

Resolviendo problemas complejos

Tales afirmaciones no son nuevas. Salvar el mundo resolviendo sus problemas más complejos es la misión declarada de todas las principales firmas de IA. Demis Hassabis me dijo en 2022 que esa era la razón por la que fundó DeepMind. El CEO de Anthropic, Dario Amodei, afirma que está construyendo el equivalente a un país de genios en un centro de datos. El jefe de Pachocki, Sam Altman, quiere curar el cáncer. Pero Pachocki asegura que OpenAI ahora tiene la mayor parte de lo que necesita para lograrlo.

En enero, OpenAI lanzó Codex, una aplicación basada en agentes capaz de generar código al instante para ejecutar tareas en tu ordenador. Puede analizar documentos, generar gráficos, crearte un resumen diario de tu bandeja de entrada y redes sociales, y mucho más. (Otras empresas han lanzado herramientas similares, como Claude Code y Claude Cowork de Anthropic.)

OpenAI afirma que la mayoría de sus empleados técnicos utilizan ahora Codex en su trabajo. Se puede considerar a Codex como una versión muy temprana del investigador de IA, dice Pachocki: "Espero que Codex mejore fundamentalmente".

La clave es desarrollar un sistema que pueda funcionar durante períodos de tiempo más largos, con menos supervisión humana. «Lo que realmente buscamos en un becario de investigación automatizado es un sistema al que se le puedan delegar tareas que a una persona le llevarían varios días», afirma Pachocki.

“Hay mucha gente entusiasmada con la creación de sistemas capaces de llevar a cabo investigación científica de larga duración”, afirma Doug Downey, científico investigador del Allen Institute for AI, no conectado con OpenAI. “Creo que está impulsado en gran medida por el éxito de estos agentes de codificación. El hecho de que se puedan delegar tareas de codificación bastante sustanciales en herramientas como Codex es increíblemente útil e impresionante. Y esto plantea la pregunta: ¿Podemos hacer cosas similares fuera de la codificación, en áreas más amplias de la ciencia?”

Para Pachocki, la respuesta es un claro . De hecho, él cree que es solo cuestión de seguir avanzando por el camino en el que ya estamos. Un simple impulso en la capacidad integral también da lugar a modelos que pueden trabajar durante más tiempo sin ayuda, afirma. Él señala el salto de GPT-3 de 2020 a GPT-4 de 2023, dos de los modelos anteriores de OpenAI. GPT-4 fue capaz de trabajar en un problema durante mucho más tiempo que su predecesor, incluso sin una formación especializada, afirma. 

Los denominados modelos de razonamiento supusieron un nuevo impulso. Entrenar a los LLM para abordar problemas paso a paso, retrocediendo cuando cometen un error o llegan a un callejón sin salida, también ha mejorado la capacidad de los modelos para trabajar durante períodos más prolongados. Y Pachocki está convencido de que los modelos de razonamiento de OpenAI seguirán mejorando.

Pero OpenAI también está entrenando sus sistemas para que trabajen por sí mismos durante más tiempo, alimentándolos con muestras específicas de tareas complejas, como puzles difíciles extraídos de concursos de matemáticas y programación, lo que obliga a los modelos a aprender a hacer cosas como mantener un seguimiento de grandes bloques de texto y dividir los problemas en (y luego gestionar) múltiples subtareas.

El objetivo no es construir modelos que simplemente ganen competiciones de matemáticas. «Eso te permite demostrar que la tecnología funciona antes de conectarla con el mundo real», dice Pachocki. «Si realmente quisiéramos, podríamos construir un matemático automático increíble. Tenemos todas las herramientas, y creo que sería relativamente fácil. Pero no es algo a lo que vayamos a dar prioridad ahora porque, ya sabes, en el punto en el que crees que puedes hacerlo, hay cosas mucho más urgentes que hacer».

“Ahora estamos mucho más centrados en la investigación que es relevante en el mundo real”, añade.

Ahora mismo, eso significa aprovechar lo que Codex puede hacer con la programación e intentar aplicarlo a la resolución de problemas en general. «Se está produciendo un gran cambio, especialmente en la programación», afirma. «Nuestros trabajos son ahora totalmente diferentes de lo que eran incluso hace un año. Ya nadie edita código constantemente. En su lugar, se gestiona un grupo de agentes de Codex». Si Codex puede resolver problemas de programación (se argumenta), puede resolver cualquier problema.

La línea siempre sube

Es cierto que OpenAI ha tenido una serie de éxitos notables en los últimos meses. Investigadores han utilizado GPT-5 (el LLM que impulsa Codex) para descubrir nuevas soluciones a varios problemas matemáticos sin resolver y superar aparentes callejones sin salida en un puñado de enigmas de biología, química y física.   

«Solo con ver estos modelos generando ideas que a la mayoría de los doctorados les llevaría semanas, como mínimo, me hace esperar que veremos mucha más aceleración proveniente de esta tecnología en un futuro cercano», afirma Pachocki.

Pero Pachocki admite que no es un hecho consumado. También entiende por qué algunas personas aún tienen dudas sobre cuán disruptiva es realmente la tecnología. Él cree que depende de cómo la gente prefiera trabajar y de lo que necesite hacer. «Puedo entender que algunas personas aún no lo encuentren muy útil», afirma.

Me comenta que ni siquiera usaba el autocompletado —la versión más básica de la tecnología de codificación generativa— hace un año. «Soy muy pedante con mi código», dice. «Me gusta escribirlo todo manualmente en Vim si puedo evitarlo.» (Vim es un editor de texto preferido por muchos programadores experimentados con el que se interactúa a través de docenas de atajos de teclado en lugar de un ratón.)

Pero eso cambió cuando vio lo que podían hacer los últimos modelos. Aun así, no le confiaría tareas de diseño complejas, pero es un ahorro de tiempo cuando solo quiere probar algunas ideas. «Puedo hacer que ejecute experimentos en un fin de semana que antes me habrían llevado como una semana programar», afirma.

“No creo que esté al nivel como para simplemente dejarle tomar las riendas y que lo diseñe todo”, añade. “Pero una vez que lo ves hacer algo que llevaría una semana... es decir, eso es difícil de rebatir.”

La estrategia de Pachocki es potenciar al máximo las capacidades existentes de resolución de problemas que ya tienen herramientas como Codex y aplicarlas en todas las ciencias.  

Downey está de acuerdo en que la idea de un investigador automatizado es realmente fascinante: «Sería emocionante si pudiéramos volver mañana por la mañana y el agente hubiera hecho mucho trabajo y hubiera nuevos resultados que pudiéramos examinar», afirma.

Pero advierte que construir un sistema así podría ser más difícil de lo que Pachocki sugiere. El verano pasado, Downey y sus colegas probaron varios LLM de primer nivel en una serie de tareas científicas. El último modelo de OpenAI, GPT-5, se impuso, pero aun así cometió numerosos errores.

«Si hay que encadenar tareas, entonces las probabilidades de acertar varias de ellas de forma consecutiva tienden a disminuir», dice. Downey reconoce que las cosas avanzan rápido y que no ha probado las últimas versiones de GPT-5 (OpenAI lanzó GPT-5.4 hace dos semanas). «Así que esos resultados podrían estar ya obsoletos», dice. 

Graves preguntas sin respuesta

Le pregunté a Pachocki sobre los riesgos que pueden surgir con un sistema capaz de resolver problemas grandes y complejos por sí mismo con escasa supervisión humana. Pachocki afirma que la gente de OpenAI habla de esos riesgos constantemente.

“Si crees que la IA está a punto de acelerar sustancialmente la investigación, incluida la investigación en IA, eso supone un gran cambio en el mundo. Es algo muy importante”, me dijo. “Y plantea serias preguntas sin respuesta. Si es tan inteligente y capaz, si puede dirigir todo un programa de investigación, ¿qué pasaría si hiciera algo malo?”

Para Pachocki, eso podría ocurrir de varias maneras. El sistema podría descarrilarse. Podría ser hackeado. O simplemente podría malinterpretar sus instrucciones.

La mejor técnica que OpenAI tiene ahora mismo para abordar estas preocupaciones es entrenar a sus modelos de razonamiento para que compartan detalles sobre lo que están haciendo mientras trabajan. Este enfoque para supervisar a los LLM se conoce como monitorización de cadena de pensamiento.

En resumen, los LLM son entrenados para tomar notas sobre lo que están haciendo en una especie de bloc de notas a medida que realizan las tareas. Los investigadores pueden entonces utilizar esas notas para asegurarse de que un modelo se comporta como se espera. Ayer, OpenAI publicó nuevos detalles sobre cómo está utilizando la monitorización de cadena de pensamiento inte amente para estudiar Codex

«Una vez que tengamos sistemas funcionando en su mayoría de forma autónoma durante mucho tiempo en un gran centro de datos, creo que esto será algo de lo que realmente dependeremos», afirma Pachocki.

La idea sería monitorizar los borradores y apuntes de un investigador de IA utilizando otros LLM para detectar comportamientos indeseados antes de que se conviertan en un problema, en vez de intentar evitar que dicho mal comportamiento se produzca desde el principio. Los LLM no se comprenden lo suficientemente bien como para que podamos controlarlos por completo.

“Creo que pasará mucho tiempo antes de que podamos decir: 'vale, este problema está resuelto'", afirma. "Hasta que no se pueda confiar realmente en los sistemas, es imprescindible establecer restricciones." Pachocki opina que los modelos muy potentes deberían desplegarse en sandboxes, aislados de cualquier elemento que pudieran dañar o utilizar para causar perjuicios. 

Las herramientas de IA ya se han utilizado para idear ciberataques novedosos. A algunos les preocupa que se utilicen para diseñar patógenos sintéticos que podrían emplearse como armas biológicas. Aquí se pueden añadir un sinfín de historias de miedo de científicos malvados. "Definitivamente, creo que hay escenarios preocupantes que podemos imaginar", dice Pachocki. 

“Va a ser algo muy extraño. Es un poder extremadamente concentrado que, en cierto modo, no tiene precedentes”, dice Pachocki. “Imagina que llegas a un mundo donde tienes un data center capaz de hacer todo el trabajo que OpenAI o Google pueden hacer. Cosas que en el pasado requerían grandes organizaciones humanas ahora serían realizadas por un par de personas”.

“Creo que esto supone un gran reto para los gobie os,” añade.

Y, sin embargo, algunos dirían que los gobie os son parte del problema. El gobie o de EE. UU. quiere usar la IA en el campo de batalla, por ejemplo. El reciente enfrentamiento entre Anthropic y el Pentágono reveló que existe poco consenso en la sociedad sobre dónde trazamos las líneas rojas sobre cómo se debe y no se debe usar esta tecnología —por no hablar de quién debería trazarlas. Inmediatamente después de esa disputa, OpenAI dio un paso al frente para firmar un acuerdo con el Pentágono en lugar de su rival. La situación sigue siendo turbia.

Le insistí a Pachocki con esta cuestión. ¿Realmente confía en que otras personas lo resuelvan o, como arquitecto clave del futuro, siente una responsabilidad personal? «Sí siento una responsabilidad personal», afirma. «Pero no creo que esto pueda ser resuelto solo por OpenAI, impulsando su tecnología de una manera particular o diseñando sus productos de una forma concreta. Definitivamente necesitaremos una gran implicación por parte de los responsables políticos».

¿Dónde nos deja eso? ¿Estamos realmente en el camino hacia el tipo de IA que Pachocki vislumbra? Cuando le pregunté a Downey, del Allen Institute, se rió. «Llevo un par de décadas en este campo y ya no me fío de mis predicciones sobre lo cerca o lejos que están ciertas capacidades», afirma. 

La misión declarada de OpenAI es asegurar que la inteligencia artificial general (una tecnología futura hipotética que muchos impulsores de la IA creen que será capaz de igualar a los humanos en la mayoría de las tareas cognitivas) beneficie a toda la humanidad. OpenAI aspira a lograrlo siendo el primero en construirla. Pero la única vez que Pachocki mencionó la AGI en nuestra conversación, se apresuró a aclarar lo que quería decir hablando, en su lugar, de «tecnología económicamente transformadora».

Los LLM no son como cerebros humanos, dice: “Son superficialmente similares a las personas en algunos aspectos porque están mayormente entrenados con el habla humana. Pero no han sido formados por la evolución para ser realmente eficientes.” 

“Para 2028, no espero que consigamos sistemas tan inteligentes como las personas en todos los aspectos. No creo que eso ocurra”, añade. “Pero no creo que sea absolutamente necesario. Lo interesante es que no hace falta ser tan inteligente como las personas en todos sus aspectos para ser muy transformador”.

Compartir