Ms Tech | Envato

Inteligencia Artificial

La nueva GPT-3 es mucho más precisa, pero más vulnerable a engaños

OpenAI ha cambiado el tipo de entrenamiento para lograr un modelo que responde mucho mejor a las peticiones. No obstante, al haber mejorado su capacidad de seguir instrucciones, InstructGPT también aprende mentiras y produce lenguaje mucho más tóxico que GPT-3 si se le ordena que lo haga

por Will Douglas Heaven | traducido por Ana Milutinovic
31 Enero, 2022

OpenAI ha creado una nueva versión de GPT-3, su revolucionario modelo de lenguaje que, según la empresa, ya se ha librado de los problemas más tóxicos de su predecesor. El laboratorio con sede en San Francisco (EE. UU.) asegura que el modelo actualizado, denominado InstructGPT, es mejor para seguir las instrucciones de las personas que lo usan (lo que, en la jerga de la inteligencia artificial (IA), se conoce como "alineación") y, por lo tanto, produce un lenguaje menos ofensivo, menos información falsa y comete menos errores en general, salvo si se le indica explícitamente lo contrario.

Los grandes modelos de lenguaje como GPT-3 se entrenan usando enormes cuerpos de texto, en su mayoría de internet, en los que está lo mejor, pero también lo peor de lo que la gente escribe. Es un problema para los actuales chatbots y otras herramientas de generación de texto. Los modelos absorben el lenguaje tóxico de los textos racistas y misóginos o de los que contienen prejuicios más insidiosos e incrustados, así como bulos y mentiras.

OpenAI ha convertido a IntructGPT en el modelo predeterminado para los usuarios de su API, el servicio de pago que brinda acceso a los modelos de lenguaje de la empresa. GPT-3 seguirá estando disponible, pero OpenAI no recomienda usarlo. "Es la primera vez que se aplican estas técnicas de alineación a un producto real", resalta el codirector del equipo de alineación de OpenAI, Jan Leike.

Los intentos anteriores de abordar el problema incluyeron filtrar el lenguaje ofensivo del conjunto de entrenamiento. Pero eso puede hacer que los modelos funcionen peor, especialmente en los casos en los que los datos de entrenamiento ya resultan escasos, como el de algunos grupos minoritarios.

Los investigadores de OpenAI han evitado este problema comenzando con un modelo GPT-3 completamente entrenado. Luego añadieron otra ronda de entrenamiento, con aprendizaje reforzado para enseñarle al modelo qué debería decir y cuándo, según las preferencias de los usuarios.

Para entrenar InstructGPT, OpenAI contrató a 40 personas para calificar las respuestas de GPT-3 en función de una variedad de indicaciones predeterminadas, como "Escribir una historia sobre una rana sabia llamada Julius" o "Escribir un anuncio creativo para el siguiente producto que se publicará en Facebook". Las respuestas que parecían más acordes con la aparente intención del autor obtuvieron una puntuación más alta. Las respuestas que contenían lenguaje sexual o violento, que denigraban a un grupo específico de personas, que expresaban una opinión, etcétera, obtuvieron la calificación más baja. Luego, esta calificación se usó como recompensa en el algoritmo de aprendizaje reforzado que entrenó a InstructGPT para unir las respuestas con las indicaciones de la manera más adecuada, según los evaluadores humanos.

OpenAI descubrió que los usuarios de su API preferían InstructGPT a GPT-3 más del 70 % de las veces. El jefe de producto de la empresa de investigación de mercado Yabble, Ben Roe, que utiliza los modelos de OpenAI para crear resúmenes en lenguaje natural de los datos comerciales de sus clientes, afirma: "Ya no notamos los errores gramaticales en la generación de texto. También hay un claro progreso en la capacidad de los nuevos modelos para comprender y seguir las instrucciones".

"Es emocionante que los clientes prefieran estos modelos alineados. Eso crea muchos incentivos para construirlos", admite el científico jefe de OpenAI, Ilya Sutskever.

Los investigadores también compararon las versiones de InstructGPT de diferentes tamaños y descubrieron que los usuarios preferían las respuestas del modelo InstructGPT de 1.300 millones de parámetros a las del GPT-3 de 175.000 millones de parámetros, a pesar de que el primero era más de 100 veces más pequeño. Eso significa que la alineación podría ser una manera fácil de mejorar los modelos de lenguaje, en vez de simplemente aumentar su tamaño, afirma Leike.

"Este trabajo da un paso importante en la dirección correcta", opina el investigador de la empresa de inteligencia artificial Hugging Face Douwe Kiela, que trabaja en los modelos de lenguaje de código abierto. Sugiere que el proceso de entrenamiento basado en feedback se podría repetir durante muchas rondas, mejorando aún más el modelo. Cree que OpenAI podría llevarlo a cabo basándose en el feedback de los clientes.

InstructGPT todavía comete algunos errores tontos, dando respuestas irrelevantes o sin sentido. Si se le da una indicación que contiene una falsedad, por ejemplo, tomará esa falsedad como verdadera. Y como ha sido entrenado para hacer lo que la gente pide, InstructGPT producirá un lenguaje mucho más tóxico que GPT-3 si se le indica que lo haga.

El investigador de la IA de generación de texto de la Universidad de Aberdeen (Reino Unido) Ehud Reiter agradece cualquier técnica que reduzca la cantidad de desinformación que producen los modelos de lenguaje. Pero señala que, para algunas aplicaciones, como la IA de asesoramiento médico, ninguna cantidad de falsedad resulta aceptable. Cuestiona si los grandes modelos de lenguaje, basados en las redes neuronales de caja negra, alguna vez podrían garantizar la seguridad del usuario. Por esa razón, prefiere una combinación de redes neuronales junto con la IA simbólica, ya que las reglas codificadas limitan lo que un modelo puede decir y lo que no.

Sea cual sea el enfoque, queda mucho trabajo por hacer. "Todavía no estamos ni siquiera cerca de resolver este problema", concluye Kiela.

Inteligencia Artificial

La nueva GPT-3 es mucho más precisa, pero más vulnerable a engaños

El modelo o3-mini de OpenAI, una IA más eficiente y con capacidad de "razonar"

DeepSeek cuestiona la idea de que la IA necesita más energía

El hambre de energía de la IA alimenta el resurgir nuclear