Otros

¿Qué hay en un tweet?

Las máquinas tienen dificultades para interpretar los mensajes, aunque un nuevo método podría ayudar.

por Erica Naone | traducido por Francisco Reyes (Opinno)
27 Abril, 2010

Un grupo de investigadores del Centro de Investigación de Palo Alto (PARC) está desarrollando nuevas formas de tratar el torrente de información proveniente de sitios sociales como Twitter, entre otros. Ha desarrollado un "navegador de temas" de Twitter que extrae el significado de los mensajes de la línea del tiempo del usuario. Esto podría ayudar a los usuarios a hacer búsquedas entre miles de tweets con rapidez, y la tecnología subyacente también podría ofrecer nuevas formas de minería en Twitter para encontrar información, o para crear publicidad dirigida.

La idea de los investigadores era proporcionar un modo para que los usuarios hagan frente a un gran número de mensajes de Twitter rápidamente. Descubrieron que muchos usuarios deseaban ponerse rápidamente al día sobre lo que ha estado pasando, sin tener que pasar por cada tweet en su línea del tiempo.

Ed Chi, gerente de área y científico principal del Grupo de Investigación de Cognición Social Aumentada en el PARC, afirma que la información que llega a través de Twitter se asemeja a una corriente—los usuarios prefieren sumergirse en ella de vez en cuando, pero no quieren consumirla toda de una vez. La labor de su grupo se conoce como "Proyecto Eddi", en referencia a la idea de remolinos ('eddies') en una corriente.

Los investigadores desarrollaron dos formas principales de filtrado del contenido de Twitter. La primera, presentada recientemente en la Conferencia ACM sobre Factores Humanos en Sistemas Informáticos en Atlanta, es un sistema de recomendación que clasifica qué publicaciones dentro de un flujo de Twitter serán más interesantes para el usuario, en base a factores tales como el contenido de los mensajes, así como su interacción con otros usuarios de Twitter. La segunda herramienta, el navegador de temas de Twitter, resume el contenido de la línea del tiempo de un usuario para que rápidamente pueda hacerse una idea de qué información ha llegado a través de Twitter sin tener que leer todas publicaciones.

Para crear esta segunda herramienta, los investigadores se centraron en la identificación del tema de cada tweet. Michael Bernstein, investigador en el Laboratorio de Ciencias Informáticas e Inteligencia Artificial del MIT, y que además está involucrado en el proyecto, afirma que el grupo descubrió que los usuarios de Twitter estaban interesados en el filtrado de los mensajes relativos a temas específicos, y señalaron que los métodos existentes carecen de esa opción. Los "hashtags"—anotaciones generadas por el usuario para clasificar tweets—son quizás la mejor opción en la actualidad, aunque la mayoría de los tweets no poseen estas etiquetas. Bernstein señala que Twitter, Google y otras empresas están desarrollando formas de identificar y clasificar los temas más populares de las discusiones en Twitter—como por ejemplo el volcán de Islandia. No obstante la enorme cantidad de tweets proporciona mucha información para que los algoritmos la utilicen; es mucho más difícil, afirma, averiguar el tema de aquellos tweets de naturaleza más única.

Un desafío clave para lograr extraer el significado de un tweet viene dado por su longitud: no más de 140 caracteres. Chi afirma que la mayoría de las tecnologías de procesamiento del lenguaje natural se basan en la posesión de una muestra de texto más grande con la que trabajar. Por ejemplo, algunos métodos se basan en la escritura de asociaciones entre términos llevadas a cabo por los usuarios, cuyo mantenimiento requiere mucho trabajo, y no es la mejor manera de interpretar la información en tiempo real.

Los investigadores se dieron cuenta, no obstante, de que los motores de búsqueda han estado tratando de extraer el significado de un pequeño número de palabras--en forma de consultas de búsqueda—desde hace años.

"La esencia del método consiste en hacer que un tweet se parezca más a una consulta de búsqueda, y después hacer que un motor de búsqueda que nos diga más cosas acerca de él", señala Bernstein. Los investigadores primero limpian el tweet eliminando términos comunes dentro del argot de Twitter, como por ejemplo "RT", que significa "retweet". Una vez que sus algoritmos se centran en los términos significativos probables, los pasan a la interfaz Build your Own Search Service de Yahoo—un servicio web que puede ser utilizado para aprovechar directamente los resultados de búsqueda de Yahoo.

La Web es la fuente más actualizada de datos, afirma Bernstein, y las páginas que se presentan en los resultados de búsqueda proporcionan información suficiente para que los algoritmos de los investigadores confeccionen una lista de temas relacionados con el tweet original.

Un enfoque similar podría ser usado con cualquier almacén de información, sugiere Chi, señalando además que las empresas podrían utilizar la tecnología en una intranet para clasificar los bits de información relacionada con temas más especializados.

"Impulsar la señal de un tweet por medio de su filtrado a través de las búsquedas en internet es una aplicación de una técnica de recuperación de información bien establecida", señala Daniel Tunkelang, ingeniero de Google y experto en recuperación de información. Lo compara con el uso de un diccionario de sinónimos para situar una palabra dentro de un contexto más amplio.

Sin embargo, Tunkelang señala que los investigadores del PARC tendrán que asegurarse de que el método de uso de tweets como consulta de búsquedas no entra en conflicto con los cada vez mayores esfuerzos de los motores de búsqueda por indexar los tweets. No sería bueno que tweet se devolviese a sí mismo como resultado.

Chi afirma que su equipo está trabajando en una plataforma para la gestión de varios tipos de flujos de información. Este verano, planean aumentar la escala del proyecto Eddi para que pueda colocarse en la web en directo y ser puesto a prueba. El objetivo a largo plazo, señala Chi, es la construcción de herramientas que puedan optimizarse para los clientes empresariales.

Otros

¿Qué hay en un tweet?

Mark Zuckerberg y el poder de los medios de comunicación

Neuralink ante las promesas de Musk: más voluntarios y algunos avances

Robotaxis