The Chinese Computer por Thomas Mullaney

MITTR | CORTESÍA DE MIT PRESS

Computación

La función de “autocompletado” nació en la informática china

Décadas antes de su redescubrimiento en el mundo anglófono, el autocompletado se inventó para introducir caracteres chinos en un ordenador

por Tom Mullaney | traducido por
04 Junio, 2024

Este es un extracto de The Chinese Computer: A Global History of the Information Age de Thomas S. Mullaney, publicado el 28 de mayo por The MIT Press. Ha sido ligeramente editado.

ymiw2

klt4

pwyy1

wdy6

dfb2

wdv2

fypw3

uet5

dm2

dlu1 …

Un joven chino se sentó ante su teclado QWERTY e introdujo una enigmática cadena de letras y números.

¿Era un código? ¿Un juego de niños? ¿Una confusión? Era chino.

Al menos, el principio del chino. Estas 44 pulsaciones marcaron los primeros pasos de un proceso conocido como "input" o shuru: el acto de hacer que los caracteres chinos aparezcan en el monitor de un ordenador u otro dispositivo digital utilizando un teclado QWERTY o un panel táctil.

Imágenes tomadas de un screencast del concurso de aportaciones chinas de 2013. — Fotogramas tomados de un 'screencast' del concurso de 'input' chino de 2013. CORTESÍA DE MIT PRESS

En todos los medios informáticos y digitales, la introducción de texto en chino depende de programas de software conocidos como "editores de métodos de entrada", más conocidos como "IME" (por sus siglas en inglés) o simplemente "métodos de entrada" (shurufa). Los IME son una forma de "middleware", llamado así porque operan entre el hardware del dispositivo del usuario y el software de su programa o aplicación. Ya se trate de redactar un documento chino en Microsoft Word, buscar en internet, enviar mensajes de texto o cualquier otra cosa, un IME siempre está trabajando, interceptando todas las pulsaciones del usuario e intentando averiguar qué caracteres chinos quiere producir. La entrada, en pocas palabras, es la forma en que ymiw2klt4pwyy ... se convierte en una cadena de caracteres chinos.

Los IME son criaturas inquietas. Desde el momento en que se pulsa una tecla o se desliza un trazo, inician un proceso dinámico e iterativo, recogiendo los datos introducidos por el usuario y buscando en la memoria del ordenador posibles coincidencias con caracteres chinos. Los IME más populares en la actualidad se basan en la fonética china, es decir, utilizan las letras del alfabeto latino para describir el sonido de los caracteres chinos, mientras que los operadores de China continental utilizan el sistema de romanización oficial del país, Hanyu pinyin.

Una serie de capturas de pantalla del menú emergente del Editor de métodos de entrada chino que muestra el proceso de escritura (抄袭 / “plagio”). — Ejemplo de menú emergente del Editor de métodos de entrada en chino (抄袭 / “plagio”). CORTESÍA DE MIT PRESS

Este joven era Huang Zhenyu (también conocido por su pseudónimo, Yu Shi). Era uno de los aproximadamente 60 concursantes de aquel día, cada uno de ellos con un fajín rojo brillante en el hombro, como en un desfile de teletipos de antaño o en un concurso de belleza. En un cartel situado en la parte delantera de la sala se leía en amarillo dorado "Love Chinese Characters" (Ai Hanzi). La tarea de los concursantes consistía en transcribir un discurso del presidente chino saliente, Hu Jintao, con la mayor rapidez y precisión posibles. "Mantengamos en alto la Gran Bandera del Socialismo con Características Chinas", empezaba, o en el original: 高举中国特色社会主义伟大旗帜为夺取全面建设小康社会新胜利而奋斗. Sin embargo, el teclado QWERTY de Huang no le permitía introducir estos caracteres directamente, por lo que en su lugar introdujo la cadena de letras y números casi en galimatías: ymiw2klt4pwyy1wdy6 ...

Con estas cuatro docenas de pulsaciones, Huang estaba en el buen camino, no solo para ganar el Concurso Nacional de Mecanografía de Caracteres Chinos 2013, sino también para alcanzar una de las velocidades de mecanografía más rápidas jamás registradas, en cualquier parte del mundo.

ymiw2klt4pwyy1wdy6 ... no es lo mismo que 高举中国特色社会主义 ... Las teclas que Huang pulsó realmente en su teclado QWERTY —su "transcripción primaria", como podríamos llamarla— eran completamente diferentes de los símbolos que finalmente aparecieron en la pantalla de su ordenador, es decir, la "transcripción secundaria" del discurso de Hu Jintao. Esto es cierto para todos y cada uno de los más de mil millones de usuarios de ordenadores sinófonos del mundo. En la informática china, lo que se teclea nunca es lo que se obtiene.

Para los lectores acostumbrados al tratamiento de textos y la informática en inglés, esto debería ser una sorpresa. Por ejemplo, si comparara el párrafo que está leyendo ahora mismo con un registro de teclas que mostrara exactamente qué botones pulsé para escribirlo, el ejercicio sería poco esclarecedor (por decirlo suavemente). "P-a-r-a -_- l-o-s -_- l-e-c-t-o-r-e-s -_- a-c-o-s-t-u-m-b-r-a-d-o-s ...", diría (perdonando cualquier error tipográfico o de edición). En la mecanografía en lengua inglesa y en la introducción informática, las transcripciones primaria y secundaria de un mecanógrafo son, en principio, idénticas. Los símbolos de las teclas y los de la pantalla son los mismos.

No ocurre lo mismo con la informática china. Al introducir el chino, los símbolos que una persona ve en un teclado QWERTY son siempre diferentes de los símbolos que finalmente aparecen en el monitor o en el papel. Todos y cada uno de los usuarios de ordenadores y de los nuevos medios de comunicación del mundo sinófono —independientemente de si son rapidísimos o lentísimos— utilizan sus dispositivos exactamente igual que Huang Zhenyu, constantemente inmersos en este proceso iterativo de criterio-candidatura-confirmación, utilizando un IME u otro. No algunos usuarios de habla china, sino todos. Esta es la primera y más básica característica de la informática china: la interacción humano-ordenador (HCI, por sus siglas en inglés) china exige que los usuarios operen todo el tiempo completamente en código.

Si el dominio de Huang Zhenyu de un complejo código alfanumérico no fuera suficientemente impresionante, considere la asombrosa velocidad de su actuación. Transcribió los primeros 31 caracteres chinos del discurso de Hu Jintao en unos cinco segundos, con una velocidad extrapolada de 372 caracteres chinos por minuto. Al final de la agotadora competición de 20 minutos, que se extendió a lo largo de miles de caracteres, cruzó la línea de meta con una velocidad casi increíble de 221,9 caracteres por minuto.

Es decir, 3,7 caracteres chinos por segundo.

En el contexto del inglés, los primeros cinco segundos de Huang habrían sido equivalentes a unas 375 palabras inglesas por minuto, y su velocidad total en la competición superó fácilmente las 200 palabras por minuto, un ritmo vertiginoso que no ha sido igualado por nadie en el mundo anglófono (al menos usando QWERTY). En 1985, Barbara Blackburn logró un récord verificado por el Libro Guinness de los Récords de 170 palabras en inglés por minuto (nada menos que en una máquina de escribir). Más tarde, el demonio de la velocidad Sean Wrona superó la marca de Blackburn con un rendimiento de 174 palabras por minuto (en un teclado de ordenador, cabe señalar). Por muy impresionantes que sean estos hitos, lo cierto es que si la actuación de Huang hubiera tenido lugar en el mundo anglófono, su nombre estaría consagrado en el Libro Guinness de los Récords como la nueva marca a batir.

La velocidad de Huang también tuvo un significado histórico especial.

Para una persona que viviera entre los años 1850 y 1950 —el periodo analizado en el libro La máquina de escribir china—, la idea de producir chino por medios mecánicos a una velocidad de más de 200 caracteres por minuto habría sido prácticamente inimaginable. A lo largo de la historia de la telegrafía china, que se remonta a la década de 1870, los operadores alcanzaban un máximo de unas pocas docenas de caracteres por minuto. En el apogeo de la mecanografía china, de los años 20 a los 70, las velocidades más rápidas registradas eran de apenas 80 caracteres por minuto (la mayoría de los mecanógrafos trabajaban a velocidades mucho más lentas). En lo que respecta a las modernas tecnologías de la información, es decir, el chino era sistemáticamente uno de los sistemas de escritura más lentos del mundo.

¿Qué cambió? ¿Cómo es posible que una escritura que durante tanto tiempo se despreció como engorrosa e impotentemente compleja de repente rivalizara —incluso superara— con las velocidades de mecanografía informática registradas en otras partes del mundo? Incluso si aceptamos que los usuarios de ordenadores chinos son capaces de algún modo de codificar en "tiempo real", ¿no deberían los IME chinos dar lugar a un "techo" general más bajo para el procesamiento de texto chino en comparación con el inglés? Al fin y al cabo, los usuarios chinos tienen que pasar por muchos más obstáculos a lo largo de un proceso engorroso de varios pasos: el IME tiene que interceptar las pulsaciones del usuario, buscar en la memoria una coincidencia, presentar posibles candidatos y esperar la confirmación del usuario. Mientras tanto, los usuarios de ordenadores de habla inglesa sólo tienen que pulsar la tecla que deseen ver impresa en pantalla. ¿Qué puede haber más sencillo que la "inmediatez" de "Q es igual a Q", "W es igual a W", etc.?

Para desentrañar esta aparente paradoja, examinaremos el primer ordenador chino jamás diseñado: el Sinotype, también conocido como Máquina de Composición Ideográfica. Presentada en 1959 por el profesor del MIT Samuel Hawks Caldwell y la Graphic Arts Research Foundation, esta máquina disponía de un teclado QWERTY, que el operador utilizaba para introducir —no los valores fonéticos de los caracteres chinos— sino las pinceladas de las que se componen los caracteres chinos. El objetivo de Sinotype no era "construir" caracteres chinos en la página, como un usuario construye palabras en inglés añadiendo letras sucesivamente. En su lugar, cada trazo "deletreado" servía de dirección electrónica que el circuito lógico de Sinotype utilizaba para recuperar un carácter chino de la memoria. En otras palabras, el primer ordenador chino de la historia se basaba en el mismo tipo de "pasos adicionales" que se observan en la actuación de Huang Zhenyu, premiada en 2013.

Durante la investigación de Caldwell, descubrió beneficios inesperados de todos estos pasos adicionales, beneficios totalmente desconocidos en el contexto de la interacción hombre-máquina anglófona en aquel momento. El Sinotype, descubrió, necesitaba muchas menos pulsaciones para encontrar un carácter chino en la memoria que para componer uno a través de los medios convencionales de inscripción. Por analogía, "deletrear" una palabra de nueve letras como "cocodrilo" (c-o-c-o-d-r-i-l-o) llevaba mucho más tiempo que recuperar esa misma palabra de la memoria ("c-o-c-o-d" bastaría para que un ordenador hiciera una coincidencia inequívoca, después de todo, dada la ausencia de otras palabras con deletreos similares o idénticos). Caldwell llamó a su descubrimiento "deletreo mínimo", convirtiéndolo en una parte esencial del primer ordenador chino que se construyó.

Hoy conocemos esta técnica por otro nombre: "autocompletado", una estrategia de interacción entre el ser humano y el ordenador en la que las capas adicionales de mediación dan como resultado una introducción textual más rápida que el acto "no mediado" de teclear. Décadas antes de su redescubrimiento en el mundo anglófono, el autocompletado se inventó en el ámbito de la informática china.

Computación

La función de “autocompletado” nació en la informática china

Google anuncia un hito hacia la computación cuántica sin errores

El vídeo es el rey: bienvenido a la era del contenido audiovisual

Esta empresa quiere superar a Google e IBM en la carrera cuántica con un superordenador de fotones