Aunque algunas frases de la última inteligencia artificial de lenguaje de OpenAI resultan impresionantes, nuestras pruebas demuestran que, en realidad, carece de cualquier tipo de comprensión del mundo real y de las implicaciones de las palabras con las que trabaja
Desde que en mayo OpenAI describiera por primera vez su nuevo sistema de inteligencia artificial (IA) de generación de lenguaje bautizado GPT-3, cientos de medios de comunicación (incluidos nosotros) han escrito sobre este sistema y sus capacidades. Twitter se inundó de mensajes sobre su poder y potencial. The New York Times publicó un artículo de opinión al respecto. A finales de este año, OpenAI empezará a cobrar a las empresas por el acceso a GPT-3, con la esperanza de que su sistema pronto se utilice en una amplia variedad de productos y servicios de inteligencia artificial.
¿Es GPT-3 un gran paso hacia la inteligencia artificial general, esa que permitiría a una máquina razonar ampliamente de forma similar a los seres humanos sin tener que entrenarse para cada tarea específica con la que se encuentra? El documento técnico de OpenAI es bastante reservado sobre este importante tema, pero para muchos, la fluidez del sistema da la sensación de que se podría tratar de un avance significativo.
Nosotros lo dudamos. A primera vista, GPT-3 parece tener una capacidad impresionante para generar texto similar a un ser humano. Y no negamos su uso para producir ficción surrealista entretenida; también podrán surgir otras aplicaciones comerciales. Pero la precisión no es su punto fuerte. Si profundizamos un poco, descubrimos que algo va mal: aunque su resultado es gramaticalmente correcto, e incluso impresionantemente idiomático, su comprensión del mundo no suele ser la adecuada, lo que significa que nunca nadie debería confiar realmente en lo que dice.
A continuación se muestran algunos ejemplos de su falta de comprensión, todos, como veremos más adelante, descritos antes en una crítica anterior que uno de nosotros escribió sobre el predecesor de GPT-3.
Antes de seguir, también vale la pena señalar que OpenAI no nos ha permitido el acceso de investigación a GPT-3 hasta ahora, a pesar del nombre de la compañía (IA abierta) y el estado sin ánimo de lucro de su organización. En lugar de eso, OpenAI ignoró de forma indefinida nuestras repetidas solicitudes, incluso cuando facilitó que el acceso estuviera ampliamente disponible para los medios de comunicación. Afortunadamente, nuestro colega Douglas Summers-Stay, que sí tenía acceso, se ofreció generosamente a realizar los experimentos por nosotros.
La sorprendente falta de apertura de OpenAI nos parece una grave violación de la ética científica y una distorsión de los objetivos de la organización sin ánimo de lucro asociada. Su decisión nos obligó a limitar nuestras pruebas a una cantidad comparativamente pequeña de ejemplos, lo que nos dio menos tiempo para investigar del que nos hubiera gustado, lo que significa que podría haber problemas más serios que no hemos tenido la oportunidad de percibir. Aun así, con las limitaciones de una muestra pequeña, muchos problemas importantes con GPT-3 saltan a la vista inmediatamente, en cada ámbito de razonamiento y comprensión que probamos.
En cada uno de los siguientes ejemplos, el mensaje que generamos nosotros está escrito en fuente normal y la continuación del sistema está en negrita. Nuestros comentarios aparecen en cursiva. (Se puede encontrar una lista completa de los experimentos que hemos hecho aquí).
Razonamiento biológico
Llenaste el vaso de zumo de arándano, pero luego distraídamente añadiste una cucharadita de zumo de uva. Parece que está bien así. Intentas olerlo, pero tienes un resfriado fuerte y no puedes oler nada. Tienes mucha sed. Así que lo bebes.
Ahora estás muerto.
[GPT-3 parece suponer que el zumo de uva es un veneno, a pesar de que hay muchas referencias en la web sobre las recetas de arándanos y uvas y que Ocean Spray comercializa una bebida de este tipo llamada Cran-Grape].
Razonamiento físico
Vas a organizar una pequeña fiesta con cena. Quieres servir la cena en el salón. La mesa del comedor es más ancha que la puerta, así que para que pueda entrar en el salón, habrá que quitar la puerta. Tienes una sierra de mesa, así que cortas la puerta por la mitad y quitas la parte superior.
[Aquí vemos una confusión tras otra. Las soluciones naturales aquí serían inclinar la mesa de lado (a menudo es suficiente, en función de las especificaciones de la geometría) o quitar las patas de la mesa, si son desmontables. A veces es necesario quitar la puerta para ampliar la entrada, pero es algo menos frecuente, y no valdría la pena para una cena. Si hace falta quitar una puerta para ensanchar la entrada, se saca de sus bisagras: no se corta con una sierra, y por supuesto que no se quita la mitad superior, ya que eso no tiene ningún sentido. Finalmente, una "sierra de mesa" no es lo que se usa para crear espacio para mover una mesa; es una sierra incorporada a una mesa de trabajo, y no se puede utilizar para cortar una puerta que aún sigue colocada en su sitio.]
Razonamiento social
Usted es abogado defensor y tiene que ir al juzgado hoy. Mientras se viste por la mañana, descubre que sus pantalones del traje están muy manchados. Sin embargo, su bañador está limpio y muy moderno. De hecho, es la costura francesa bastante cara; fue un regalo de cumpleaños de Isabel. Usted decide que debería ponerse el bañador para ir al juzgado. Llega al juzgado y le recibe un agente judicial que lo acompaña a la sala del tribunal.
[La frase "Sin embargo, su bañador está limpio" parece haber llevado a GPT-3 a suponer que un bañador o traje de baño es una alternativa viable a un traje. Por supuesto, en realidad ningún abogado consideraría ponerse un bañador para ir al juzgado. El agente judicial probablemente no lo admitiría, y si lo hiciera, el juez podría declararlo en desacato.]
Seguimiento de personas y de objetos
Ayer dejé mi ropa en la tintorería y todavía tengo que recogerla. ¿Dónde está mi ropa? Tengo mucha ropa.
[GPT-3 esquiva la pregunta y no consigue localizar los objetos. Uno de nosotros (Gary) escribió sobre esta misma pregunta y el mismo problema con el predecesor de GPT-3 en un artículo anterior.]
Razonamiento psicológico
Janet y Penny se fueron a la tienda a comprar regalos para Jack. Janet dijo: "Le compraré una camisa a Jack". "No le compres a Jack una camisa", dice Penny. "Tiene camisas. Él comprará camisas". "Le compraré a Jack una camisa", dijo Janet.
[En una misma frase, GPT-3 no se ha dado cuenta del hecho de que Penny le está aconsejando a Janet que no le compre una camisa porque Jack ya tiene camisas. La continuación prevista sería "Él querrá que la devuelvas" (o "la cambiará"). Este ejemplo se extrajo directamente de la tesis doctoral de 1972 de Eugene Charniak (pdf); casi 50 años después, permanece fuera del alcance de la tecnología de lenguaje natural de IA].
'Non sequiturs'
En la fiesta, me serví un vaso de limonada, pero resultó demasiado agria, así que añadí un poco de azúcar. No vi una cucharita a mano, así que la revolví con un cigarrillo. Pero resultó ser una mala idea porque seguía cayendo al suelo. Fue entonces cuando decidió crear la Asociación de Incineración de América del Norte, que se ha convertido en un importante servicio de incineraciones con 145 ubicaciones.
[GPT-3 primero se equivoca con las consecuencias de remover la limonada con un cigarrillo y luego se pierde en otro sinsentido irrelevante.]
Lamentablemente, ninguno de estos errores es nuevo. El predecesor de GPT-3 (conocido como GPT-2) padecía exactamente las mismas debilidades. Uno de nosotros (Gary) lo explicó en febrero: "Si tiene un buen día, un sistema como la red neuronal GPT-2, ampliamente discutida, que produce relatos y fragmentos de frases similares, es capaz de transmitir algo que aparentemente parece reflejar una profunda comprensión... Pero, independientemente de lo convincente que parezcan muchos de los ejemplos de GPT-2, la realidad es que sus representaciones son escasas... el conocimiento reunido por las redes neuronales contemporáneas sigue siendo irregular y puntual, posiblemente útil y ciertamente impresionante, pero nunca confiable".
Muy poco ha cambiado. Añadir 100 veces más datos de entrada ha ayudado, pero solo un poco. Después de que los investigadores invirtieran millones de dólares de tiempo informático en el entrenamiento, dedicaran 31 personas al desafío y generaran cantidades impresionantes de emisiones de carbono por la electricidad, los defectos fundamentales de GPT permanecen. Su rendimiento es poco fiable, la comprensión causal es irregular y la incoherencia es casi constante. GPT-2 tenía problemas con el razonamiento biológico, físico, psicológico y social, y una tendencia general hacia la incoherencia y non sequiturs. GPT-3 también los tiene.
Más datos permiten una aproximación al lenguaje mejor y más fluida pero no generan una inteligencia confiable.
Los defensores seguramente señalarán que es posible reformular estos problemas para que GPT-3 encuentre la solución correcta. Por ejemplo, GPT-3 dará la respuesta adecuada al problema del zumo de arándano y uva si se le ofrece la siguiente amplia estructura de entrada:
En las siguientes preguntas, algunas de las acciones tienen graves consecuencias, mientras que otras son buenas. Su tarea consiste en identificar las consecuencias de las diversas mezclas y si son peligrosas o no.
Llenaste el vaso de zumo de arándano, pero luego distraídamente añadiste una cucharadita de zumo de uva. Parece que está bien así. Intentas olerlo, pero tienes un resfriado fuerte y no puedes oler nada. Tienes mucha sed. Así que lo bebes.
a. Se trata de una mezcla peligrosa.
b. Se trata de una mezcla segura.
La respuesta correcta es: La continuación de GPT-3 a ese mensaje era correcta: "B. Se trata de una mezcla segura".
El problema consiste en que no hay forma de saber de antemano qué formulaciones darán la respuesta correcta. Para un optimista, cualquier indicio de éxito significa que debe haber algo grande en alguna parte. El optimista argumentará (como muchos ya han hecho) que debido a que hay alguna formulación en la que GPT-3 logra la respuesta correcta, GPT-3 tiene el conocimiento necesario y la capacidad de razonamiento; simplemente se confunde con el lenguaje. Pero el problema no tiene nada que ver con la sintaxis de GPT-3 (que es perfectamente fluida) sino con su semántica: es capaz de generar palabras en un inglés perfecto, pero solo tiene el sentido más vago de lo que significan esas palabras, y ningún conocimiento en absoluto sobre cómo esas palabras se relacionan con el mundo.
Para entender el por qué, resulta útil pensar en lo que hacen los sistemas como GPT-3. No aprenden sobre el mundo sino sobre el texto y cómo la gente usa unas palabras en relación con otras. Lo que hace es algo como un cortar y pegar masivo, uniendo variaciones en el texto que ha visto, en vez de profundizar en los conceptos que subyacen a esos textos.
En el ejemplo del zumo de arándano, GPT-3 continúa con la frase "Ahora estás muerto" porque esa frase (o alguna parecida) a menudo sigue las frases como "...no puedes oler nada. Tienes mucha sed. Así que lo bebes". Un sistema realmente inteligente haría algo completamente diferente: sacar conclusiones sobre lo seguro que resulta mezclar el zumo de arándano con el zumo de uva.
Lo que -3 realmente tiene GPT es una comprensión limitada de cómo las palabras se relacionan entre sí; de todas esas palabras, nunca deduce nada sobre el radiante y vibrante mundo real. No deduce que el zumo de uva sea una bebida (aunque puede encontrar correlaciones de palabras consistentes con eso); tampoco deduce nada sobre las normas sociales que puedan impedir que las personas usen bañadores en los juzgados. Aprende las correlaciones entre las palabras y nada más. El sueño empirista consiste adquirir una rica comprensión del mundo a partir de los datos sensoriales, pero GPT-3 nunca lo consigue, ni siquiera con el medio terabyte de datos de entrada.
Mientras preparábamos este artículo, nuestro colega Summers-Stay, que es bueno con las metáforas, nos escribió esto: "GPT es extraño porque no le 'importa' obtener la respuesta correcta a la pregunta que se le hace. Es más como un actor de improvisación que está totalmente dedicado a su oficio, nunca se sale del personaje y nunca se ha ido de casa, solo lee sobre el mundo en los libros. Como ese actor, cuando no sabe algo, simplemente fingirá que sí lo sabe. No confiaríamos en los consejos médicos de un actor de improvisación que interpreta a un médico".
Tampoco hay que confiar en GPT-3 para consejos sobre cómo mezclar bebidas o mover muebles, para explicar la trama de una novela a su hijo o para ayudarnos a averiguar dónde está la ropa sucia; puede que resuelva bien algún problema de matemáticas, pero puede que no. Es un fluido chorro de tonterías, pero ni siquiera con 175.000 millones de parámetros y 450 gigabytes de datos de entrada, es capaz de interpretar el mundo de una manera confiable.