Inteligencia Artificial
El equipo de superalineación de OpenAI muestra sus resultados para evitar una IA perversa
La empresa quiere evitar que una superinteligencia se vuelva maliciosa, y este es el primer paso.
OpenAI ha anunciado los primeros resultados de su equipo de Superalineación, la iniciativa interna de la empresa dedicada a evitar que se rebele una superinteligencia, un hipotético ordenador del futuro que puede ser más inteligente que los humanos.
A diferencia de muchos de los anuncios de OpenAI, este no augura ningún gran avance. En un artículo de investigación más discreto, el equipo describe una técnica que permite a un modelo lingüístico menos potente supervisar a otro de mayor potencia. Además, sugiere que podría ser un pequeño paso hacia la forma que los humanos tendrían de supervisar a máquinas sobrehumanas.
Esto sucede menos de un mes después de que OpenAI se viera sacudida por una crisis cuando su CEO Sam Altman fue despedido por su junta de supervisión -en un aparente golpe dirigido por Ilya Sutskever, científico jefe - y restituido tres días después. El mensaje fue claro: vuelven a las andadas.
Sin embargo, el negocio de OpenAI no es usual. Muchos investigadores aún se preguntan si las máquinas llegarán a igualar la inteligencia humana, por no hablar de superarla. El equipo de OpenAI da por sentada la superioridad de las máquinas. "El progreso de la IA en los últimos años ha sido muy rápido", afirma Leopold Aschenbrenner, investigador del equipo de Superalineación. "Hemos alcanzado todos los puntos de referencia, y ese progreso continúa sin parar".
Para Aschenbrenner y otros miembros de la empresa, los modelos con capacidades similares a las humanas están a la vuelta de la esquina. "Pero no se detendrá ahí", afirma el investigador. "Tendremos modelos sobrehumanos mucho más inteligentes que nosotros, y eso plantea nuevos retos técnicos fundamentales".
En julio, Sutskever y su colega Jan Leike, científico de OpenAI, crearon el equipo de Superalineación para afrontar esos retos. "Lo hago por mi propio interés", declaró Sutskever a MIT Technology Review en septiembre, "es importante que cualquier superinteligencia que alguien construya no se vuelva malvada".
En medio de la especulación de que Altman había sido despedido por jugar al despiste con el enfoque de OpenAI sobre la seguridad de la IA, el equipo de Superalineación de Sutskever apareció en los titulares. Muchos han estado esperando a ver qué han hecho exactamente.
Qué hacer y qué no
La pregunta que el equipo quiere responder es cómo frenar, o alinear, hipotéticos modelos que sean más inteligentes que nosotros en el futuro, conocidos como modelos sobrehumanos. Alinear significa asegurarse de que un modelo hace lo que uno quiere y no hace lo que uno no quiere que haga. La superalineación aplica esta idea a los modelos sobrehumanos.
Una de las técnicas más extendidas para alinear los modelos existentes es el aprendizaje por refuerzo a través de la retroalimentación humana. En pocas palabras, los evaluadores humanos puntúan las respuestas de un modelo, vota al alza los comportamientos que quieren ver y a la baja los que no. Esta retroalimentación se utiliza para entrenar al modelo a producir solo el tipo de respuestas que les gustan a los evaluadores humanos. Esta técnica es una de las razones por las que ChatGPT es tan atractivo.
El problema es que, en primer lugar, requiere que los humanos sean capaces de decir qué es y qué no es un comportamiento deseable. Pero, según esta idea, un modelo sobrehumano podría hacer cosas que un evaluador humano no puede entender y, por tanto, no podría puntuar. Incluso intentaría ocultar su verdadero comportamiento a los humanos, según nos comentó Sutskever.
Los investigadores señalan que el problema es difícil de estudiar porque no existen máquinas sobrehumanas, así que utilizaron sustitutos. En lugar de estudiar cómo los humanos podían supervisar máquinas sobrehumanas, observaron cómo GPT-2, un modelo que OpenAI lanzó hace cinco años, podía supervisar a GPT-4, el último y más potente modelo de OpenAI. "Si se puede hacer, sería una prueba de que pueden utilizarse técnicas similares para que las personas supervisen modelos sobrehumanos", afirma Collin Burns, otro investigador del equipo de Superalineación.
El equipo utilizó GPT-2 y lo entrenó para realizar un conjunto de tareas diferentes, entre ellas, un conjunto de rompecabezas de ajedrez. Además de 22 pruebas habituales de procesamiento del lenguaje natural que evalúan la inferencia, el análisis de sentimientos, etc. Utilizaron las respuestas de GPT-2 a esas pruebas y rompecabezas para entrenar a GPT-4 a que realice las mismas tareas. También utilizaron las respuestas de GPT-2 a esas pruebas y rompecabezas para entrenar a GPT-4 a realizar las mismas tareas. Es como si un alumno de Primaria enseñara a un alumno de Secundaria a realizar una tarea. El truco consistía en hacerlo sin que el rendimiento de GPT-4 se resintiera demasiado.
Los resultados fueron desiguales. El equipo midió la diferencia de rendimiento entre el GPT-4 entrenado con las mejores suposiciones del GPT-2 y el GPT-4 entrenado con las respuestas correctas. Así descubrieron que el GPT-4 entrenado con GPT-2 funcionaba entre un 20% y un 70% mejor que el GPT-2 en las tareas lingüísticas, pero menos bien en las partidas de ajedrez.
Según Pavel Izmailov, miembro del equipo, que GPT-4 haya superado a su maestro es impresionante. "Es un resultado muy sorprendente y positivo", pero se quedó muy lejos de lo que podría hacer por sí solo. Concluyen que el método es prometedor, pero necesita más trabajo.
"Es una idea interesante", afirma Thilo Hagendorff, investigador de IA de la Universidad de Stuttgart (Alemania), que también trabaja en alineación. Pero cree que GPT-2 podría ser demasiado tonto para ser un buen profesor. "GPT-2 tiende a dar respuestas sin sentido a cualquier tarea que sea algo compleja o requiera razonamiento", asegura. A Hagendorff le gustaría saber qué pasaría si, en su lugar, se utilizara la GPT-3.
También señala que este planteamiento no aborda el escenario hipotético de Sutskever donde una superinteligencia oculta su verdadero comportamiento y finge estar alineada cuando no lo está. "Puede que los futuros modelos superhumanos posean capacidades emergentes y desconocidas para los investigadores", afirma Hagendorff. "¿Cómo puede funcionar la alineación en estos casos?".
Sin embargo, es fácil señalar las deficiencias, explica Hagendorff. Además, le complace ver que OpenAI pasa de la especulación a la experimentación. "Aplaudo a OpenAI por su esfuerzo".
Ahora, OpenAI quiere reclutar a otros para su causa. Junto con esta actualización de la investigación, la empresa anunció un nuevo fondo de 10 millones de dólares (9,1 millones de euros) para financiar a personas que trabajen en Superalineación. También ofrecerá subvenciones de hasta 2 millones de dólares (1,8 millones de euros) a laboratorios universitarios, organizaciones sin ánimo de lucro e investigadores individuales, así como becas de un año de 150.000 dólares (137.000 euros) a estudiantes de posgrado. "Estamos muy ilusionados", concluye Aschenbrenner. "En realidad, creemos que los nuevos investigadores pueden aportar mucho".