.

Ms Tech | Envato

Inteligencia Artificial

La nueva GPT-3 es mucho más precisa, pero más vulnerable a engaños

1

OpenAI ha cambiado el tipo de entrenamiento para lograr un modelo que responde mucho mejor a las peticiones. No obstante, al haber mejorado su capacidad de seguir instrucciones, InstructGPT también aprende mentiras y produce lenguaje mucho más tóxico que GPT-3 si se le ordena que lo haga

  • por Will Douglas Heaven | traducido por Ana Milutinovic
  • 31 Enero, 2022

OpenAI ha creado una nueva versión de GPT-3, su revolucionario modelo de lenguaje que, según la empresa, ya se ha librado de los problemas más tóxicos de su predecesor. El laboratorio con sede en San Francisco (EE. UU.) asegura que el modelo actualizado, denominado InstructGPT, es mejor para seguir las instrucciones de las personas que lo usan (lo que, en la jerga de la inteligencia artificial (IA), se conoce como "alineación") y, por lo tanto, produce un lenguaje menos ofensivo, menos información falsa y comete menos errores en general, salvo si se le indica explícitamente lo contrario.

Los grandes modelos de lenguaje como GPT-3 se entrenan usando enormes cuerpos de texto, en su mayoría de internet, en los que está lo mejor, pero también lo peor de lo que la gente escribe. Es un problema para los actuales chatbots y otras herramientas de generación de texto. Los modelos absorben el lenguaje tóxico de los textos racistas y misóginos o de los que contienen prejuicios más insidiosos e incrustados, así como bulos y mentiras.

OpenAI ha convertido a IntructGPT en el modelo predeterminado para los usuarios de su API, el servicio de pago que brinda acceso a los modelos de lenguaje de la empresa. GPT-3 seguirá estando disponible, pero OpenAI no recomienda usarlo. "Es la primera vez que se aplican estas técnicas de alineación a un producto real", resalta el codirector del equipo de alineación de OpenAI, Jan Leike.

Los intentos anteriores de abordar el problema incluyeron filtrar el lenguaje ofensivo del conjunto de entrenamiento. Pero eso puede hacer que los modelos funcionen peor, especialmente en los casos en los que los datos de entrenamiento ya resultan escasos, como el de algunos grupos minoritarios.

Los investigadores de OpenAI han evitado este problema comenzando con un modelo GPT-3 completamente entrenado. Luego añadieron otra ronda de entrenamiento, con aprendizaje reforzado para enseñarle al modelo qué debería decir y cuándo, según las preferencias de los usuarios.

Para entrenar InstructGPT, OpenAI contrató a 40 personas para calificar las respuestas de GPT-3 en función de una variedad de indicaciones predeterminadas, como "Escribir una historia sobre una rana sabia llamada Julius" o "Escribir un anuncio creativo para el siguiente producto que se publicará en Facebook". Las respuestas que parecían más acordes con la aparente intención del autor obtuvieron una puntuación más alta. Las respuestas que contenían lenguaje sexual o violento, que denigraban a un grupo específico de personas, que expresaban una opinión, etcétera, obtuvieron la calificación más baja. Luego, esta calificación se usó como recompensa en el algoritmo de aprendizaje reforzado que entrenó a InstructGPT para unir las respuestas con las indicaciones de la manera más adecuada, según los evaluadores humanos.

OpenAI descubrió que los usuarios de su API preferían InstructGPT a GPT-3 más del 70 % de las veces. El jefe de producto de la empresa de investigación de mercado Yabble, Ben Roe, que utiliza los modelos de OpenAI para crear resúmenes en lenguaje natural de los datos comerciales de sus clientes, afirma: "Ya no notamos los errores gramaticales en la generación de texto. También hay un claro progreso en la capacidad de los nuevos modelos para comprender y seguir las instrucciones".

"Es emocionante que los clientes prefieran estos modelos alineados. Eso crea muchos incentivos para construirlos", admite el científico jefe de OpenAI, Ilya Sutskever.

Los investigadores también compararon las versiones de InstructGPT de diferentes tamaños y descubrieron que los usuarios preferían las respuestas del modelo InstructGPT de 1.300 millones de parámetros a las del GPT-3 de 175.000 millones de parámetros, a pesar de que el primero era más de 100 veces más pequeño. Eso significa que la alineación podría ser una manera fácil de mejorar los modelos de lenguaje, en vez de simplemente aumentar su tamaño, afirma Leike.

"Este trabajo da un paso importante en la dirección correcta", opina el investigador de la empresa de inteligencia artificial Hugging Face Douwe Kiela, que trabaja en los modelos de lenguaje de código abierto. Sugiere que el proceso de entrenamiento basado en feedback se podría repetir durante muchas rondas, mejorando aún más el modelo. Cree que OpenAI podría llevarlo a cabo basándose en el feedback de los clientes.

InstructGPT todavía comete algunos errores tontos, dando respuestas irrelevantes o sin sentido. Si se le da una indicación que contiene una falsedad, por ejemplo, tomará esa falsedad como verdadera. Y como ha sido entrenado para hacer lo que la gente pide, InstructGPT producirá un lenguaje mucho más tóxico que GPT-3 si se le indica que lo haga.

El investigador de la IA de generación de texto de la Universidad de Aberdeen (Reino Unido) Ehud Reiter agradece cualquier técnica que reduzca la cantidad de desinformación que producen los modelos de lenguaje. Pero señala que, para algunas aplicaciones, como la IA de asesoramiento médico, ninguna cantidad de falsedad resulta aceptable. Cuestiona si los grandes modelos de lenguaje, basados en las redes neuronales de caja negra, alguna vez podrían garantizar la seguridad del usuario. Por esa razón, prefiere una combinación de redes neuronales junto con la IA simbólica, ya que las reglas codificadas limitan lo que un modelo puede decir y lo que no.

Sea cual sea el enfoque, queda mucho trabajo por hacer. "Todavía no estamos ni siquiera cerca de resolver este problema", concluye Kiela.

Inteligencia Artificial

 

La inteligencia artificial y los robots están transformando nuestra forma de trabajar y nuestro estilo de vida.

  1. De la creatividad humana a la automatización: la IA agrava la precariedad en la traducción de manga

    La editorial japonesa Orange quiere llevar el manga al mayor número posible de lectores, pero algunos fans no están contentos con los resultados de las traducciones realizadas con IA

    La editorial japonesa Orange
  2. La IA llega a los videojuegos: la versión de Minecraft que presenta un mundo generado automáticamente en tiempo real

    Esta versión del popular videojuego de construcción, desarrollada por las empresas Decart y Etched, es un experimento que demuestra cómo la IA puede generar mundos sin necesidad de que un humano escriba una sola línea de código

    La IA llega a los videojuegos: la versión de Minecraft que presenta un mundo generado automáticamente en tiempo real
  3. Así funciona el oligopolio de los datos que entrenan los modelos de IA

    Un estudio revela que los datos empleados para entrenar la IA están concentrando el poder en manos de unas pocas empresas, creando un oligopolio alineado con los intereses y objetivos de corporaciones con fines lucrativos

    Tras el telón de la IA: de dónde salen los datos que la construyen