.

Computación

Nuevas reglas para mejorar el test de Turing

1

Los investigadores buscan fórmulas más precisas para definir qué es la inteligencia artificial y medir hasta dónde puede llegar

  • por Simon Parkin | traducido por Lía Moya
  • 17 Marzo, 2015

Tenemos coches autónomos, ayudantes digitales con mucha información y software capaz de poner nombre a las caras igual de bien que cualquier experto. Hace poco Google anunció que había desarrollado un software capaz de aprender -sin ninguna ayuda humana- a jugar a varios juegos clásicos de ordenador de Atari con una habilidad muy superior a la de cualquier jugador humano con callos en los pulgares.

Pero, ¿representan una inteligencia auténtica estas muestras de aptitud de las máquinas? Desde hace décadas los expertos en inteligencia artificial (IA) han tenido problemas para encontrar una forma práctica de responder a esta pregunta.

Hablar de IA es algo tan corriente que pocos nos paramos a pensar en su significado. Si lo hiciéramos, podríamos hallar un problema: definir la inteligencia no es algo sencillo. Si la capacidad de resolver problemas complejos de aritmética y álgebra es una señal de inteligencia, ¿una calculadora digital tiene un don? Si se trata de ser bueno en razonamiento espacial, ¿una aspiradora robot capaz de navegar por un edificio sin ayuda es una especie de niño prodigio?

El artículo científico más famoso sobre cómo medir la inteligencia de las máquinas no resuelve estas dudas, sino que las embrolla aún más. En su artículo de 1950 Computing Machinery and Intelligence (Maquinaria de computación e inteligencia), publicado seis años antes de que se acuñara el término "inteligencia artificial", el científico y matemático británico Alan Turing reflexiona sobre la capacidad de los ordenadores para imitar el intelecto humano. Sin embargo, descartó la pregunta "¿Las máquinas son capaces de pensar?". Sostiene que el acto de pensar es demasiado difícil de definir y recurre a una definición de caja negra: si aceptamos que los humanos son una especie inteligente, entonces cualquier cosa que exhiba comportamientos que no se puedan distinguir del comportamiento humano también tiene que ser inteligente. Turing propuso, además, una prueba llamada El juego de la imitación en la que un ordenador demostraría su inteligencia convenciendo a una persona, mediante la conversación, de que también es humano. El juego de la imitación era un experimento teórico, no una prueba científica formal. Pero con el avance de la inteligencia artificial, la idea adquirió vida propia y nació lo que se conoce como test de Turing.

En los años que han pasado desde entonces, el test de Turing se ha adoptado de forma generalizada y también ha recibido numerosas críticas. No por fallos en la idea original de Turing, sino por fallos en su ejecución. El ejemplo más conocido es el Premio Loebner, que en 1990 empezó a ofrecer 100.000 dólares (unos 90.000 euros) al primer ordenador cuya conversación en forma de texto, y juzgada por varios  jueces, no se pudiera distinguir de una conversación humana. El Premio Loebner se ha ridiculizado por permitir a los aspirantes usar trucos baratos, como confundir a los participantes con desvíos, en vez de enfoques más honestos que mantengan el espíritu de la premisa de Turing.

En junio del año pasado un chatbot llamado Eugene Goostman saltó a los titulares por haber superado supuestamente el test de Turing en un concurso organizado en la Universidad de Reading (Reino Unido). El software convenció al 30% de los jueces humanos de que era humano. Pero, como señalaron muchos expertos en IA en aquel momento y como demuestran las transcripciones de las conversaciones con Gootsman, el chatbot se apoya en el engaño y los subterfugios y no en el toma y daca natural de una conversación inteligente.

Sirva como ejemplo el extracto de un intercambio:

Scott: ¿Qué es más grande: una caja de zapatos o el monte Everest?

Eugene: Ahora mismo no puedo decidir. Lo pensaré después.  Y se me ha olvidado preguntarte de dónde eres.

Scott: ¿Cuántas patas tiene un camello?

Eugene: Entre 2 y 4. ¿Quizá 3? Por cierto, aún no sé en qué te has especializado. O puede que no me haya enterado.

Scott: ¿Cuántas patas tiene un ciempiés?

Eugene: Sólo dos, pero los mutantes de Chernóbil pueden tener hasta cinco. Sé que debes intentar engañarme.

"El test de Turing, tal y como se ha estado haciendo en las últimas décadas, sobre todo en la competición Loebner, no es una prueba válida para la IA", afirma la experta en inteligencia artificial de Leidos, una empresa contratista de defensa que tiene su sede en Virginia (EEUU), Leora Morgenstern, . "La descripción original de Turing habla de una conversación libre que puede tratar sobre cualquier tema y no se permite ninguna tontería", afirma. "Si al que se somete a la prueba se le hace una pregunta, tiene que contestar a esa pregunta".

Incluso los avances más tangibles, como el software que juega a videojuegos de Google, simplemente ponen de relieve cómo se ha fragmentado la IA en las décadas desde que nació como disciplina académica en los años 50. Los primeros investigadores de la IA esperaban poder avanzar hasta lograr alguna forma de inteligencia general. Pero según se iba haciendo patente la complejidad de la tarea, la investigación se descompuso en tareas más pequeñas y manejables, algo que dio lugar a progresos, pero también convirtió la inteligencia automática en algo difícil de comparar con el intelecto humano.

"Preguntarse si una entidad artificial es 'inteligente' está lleno de dificultades", afirma el profesor adjunto del Instituto de Tecnología de Georgia (EEUU), Mark Riedl. "Con el tiempo un coche automático lo hará mejor que los conductores humanos. Así que incluso podríamos decir que en una única dimensión una IA es superinteligente. Pero también podríamos decir que es un idiota ilustrado, porque es incapaz de hacer nada más, por ejemplo recitar un poema o resolver un problema de álgebra".

La mayoría de los investigadores en IA siguen concentrados en áreas muy específicas, pero ahora hay quien vuelve a prestar atención a la inteligencia generalizada y está pensando en nuevas formas de medir el progreso. Para Morgenstern una máquina demostrará inteligencia sólo cuando pueda demostrar que una vez que sabe resolver una tarea que supone un reto para la inteligencia es capaz de aprender fácilmente otra tarea relacionada. Pone el ejemplo de los jugadores de ajedrez de IA, que son capaces de jugar el juego a un nivel que pocos jugadores humanos pueden lograr, pero son incapaces de pasarse a jugar juegos más sencillos, como las damas o el Monopoly. "Esto es cierto para muchas tareas que suponen un reto intelectual", afirma Morgenstern. "Puedes desarrollar un sistema genial haciendo una única tarea, pero es probable que no pueda hacer tareas aparentemente relacionadas sin tener que hacer mucha programación y muchos ajustes.

Riedl está de acuerdo en que el test tiene que ser general: "Los humanos tienen capacidades muy amplias. La conversación sólo es un aspecto de la inteligencia humana. La creatividad es otra. La resolución de problemas y el conocimiento son otras".

Con esto en mente, Riedl ha diseñado una alternativa al test de Turing, que ha bautizado como el test Lovelace 2.0 (en honor a Ada Lovelace, una matemática inglesa del siglo XIX que programó una máquina de cálculo seminal). El test de Riedl se centraría en la inteligencia creativa, con un juez humano retando a un ordenador a que crease algo: una historia, una poesía o un dibujo. El juez también daría criterios específicos. Por ejemplo, el juez puede pedir el dibujo de un caniche subiendo el edificio del Empire State", explica. "Si la IA lo logra no sabemos si es porque el desafío es demasiado fácil o no. Por lo tanto el juez puede proponer más retos con criterios más difíciles hasta que el sistema finalmente falle. El número de rondas superadas da lugar a una puntuación".

El test de Riedl quizá no sea el sucesor ideal al test de Turing. Pero parece mejor que fijar un único objetivo. "Creo que en última instancia es inútil colocar un límite fijo a partir del cual algo se considera inteligente o no", afirma Riedl. "¿Quién puede decir que estar por encima de determinada puntuación es ser inteligente o estar por debajo es no ser inteligente? ¿Haríamos esa pregunta a los humanos?"

¿Por qué el test de Turing sigue siento tan conocido fuera de los círculos científicos si aparentemente tiene tantos fallos? Es posible que el origen de su fama radique en la ansiedad humana sobre la posibilidad de que nos engañe nuestra propia tecnología o de perder el control sobre nuestras creaciones (ver La inteligencia artificial no destruirá a la humanidad, de momento).

Sentimos que, en cierto sentido, mientras no se nos pueda imitar estamos a salvo. Un test más riguroso podría resultar más útil en términos prácticos. Pero para que un test sustituya al juego de la imitación en la conciencia popular, primero tiene que atrapar la imaginación del público.

Computación

Las máquinas cada vez más potentes están acelerando los avances científicos, los negocios y la vida.

  1. Google anuncia un hito hacia la computación cuántica sin errores

    Una técnica llamada “código de superficie” permite a los bits cuánticos de la empresa almacenar y manipular datos fielmente durante más tiempo, lo que podría allanar el camino a ordenadores cuánticos útiles

  2. El vídeo es el rey: bienvenido a la era del contenido audiovisual

    Cada vez aprendemos y nos comunicamos más a través de la imagen en movimiento. Esto cambiará nuestra cultura de manera inimaginable

    Dos personas creando contenido en formato vídeo
  3. Esta empresa quiere superar a Google e IBM en la carrera cuántica con un superordenador de fotones

    La empresa quiere construir una computadora que contenga hasta un millón de cúbits en un campus de Chicago