.

Otros

Una nueva y mejor forma de clasificar la experiencia en internet

1

Un nuevo software es capaz de distinguir entre expertos y spammers, mostrando aquellos en los que se puede confiar.

  • por Brittany Sauser | traducido por Francisco Reyes
  • 31 Julio, 2009

Cada vez florecen más páginas web en las que los usuarios pueden organizar y compartir la información, aunque puede resultar difícil detectar qué usuarios y qué información es de confianza. Un equipo de investigadores europeos acaba de desarrollar un algoritmo que clasifica la experiencia de los usuarios y es capaz de detectar a aquellos que sólo utilizan un determinado sitio web para distribuir su spam.

Esta técnica funciona de forma similar al motor de reputación de Amazon, o a las clasificaciones de las páginas de Wikipedia, aunque  evalúa a los usuarios en base a una nueva serie de criterios que llevan a cabo asunciones intuitivas acerca de los expertos.

El algoritmo utiliza un método que ya se aplica a la hora de clasificar las páginas web, aunque lo desarrolla de forma interesante, afirma Jon Kleinberg, profesor de ciencias informáticas de la Universidad Cornell de Ithaca, Nueva York, y que no estuvo involucrado en el estudio. “Distingue entre ‘descubridores’ y ‘seguidores,’” afirma Kleinberg, “enfocándose en los usuarios que son los primeros en etiquetar algo que después se acaba haciendo popular.”

Este nuevo estudio se centra en los sistema de etiquetado en grupo tales como Delicious, una página web de favoritos sociales, y Flickr, un sitio para compartir fotos. Estas webs permiten a los usuarios añadir palabras clave relevantes para así “etiquetar” a los vínculos web o las fotos, y más tarde compartirlas. Normalmente, los usuarios son clasificados en base a la frecuencia con la que añaden contenido al sistema. “Prima la cantidad sobre la calidad, así que cuantas más cosas hagas, más crédito obtienes,” afirma Michael Noll, profesor de ciencias informáticas en el Instituto Hasso Plattner de Postdam, Alemania, que dirigió la investigación acerca del nuevo software. “Sin embargo, el hecho es que la cantidad no significa siempre calidad.”

El enfoque convencional también hace que el sistema sea muy vulnerable a los spammers, afirma Ciro Cattuto, investigador en el Grupo de Redes y Sistemas Complejos del Instituto Fundación para el Intercambio Científico en Italia. Los spammers se adaptan al comportamiento social de los otros usuarios, afirma Cattuto, por lo que se fijan en las etiquetas más populares y empiezan a cargar contenidos publicitarios con dichas etiquetas. Para combatir todo esto, se necesita un algoritmo que sea capaz de buscar, clasificar y presentar la información de forma útil, señala Cattuto. “El nuevo método es mejor que cualquier otro método actual—los spammers obtienen una clasificación muy baja, su contenido no se expone, y finalmente dejan de contaminar el sistema.”

El nuevo algoritmo se llama SPEAR (Spamming-resistant Expertise Analysis and Ranking), y está basado en el famoso algoritmo de recuperación de datos HITS, que se usan motores de búsqueda como Google para clasificar las páginas web. Al igual que HITS, SPEAR es un método de “refuerzo mutuo,” afirma Kleinberg. En otras palabras, el algoritmo evalúa a los usuarios y a los contenidos populares, y declara usuarios expertos a aquellos capaces de identificar los contenidos más importantes, mientras que la importancia de los contenidos viene dada por los usuarios más expertos. “Como resultado se obtiene una forma de identificar tanto a los usuarios más expertos como a los contenidos de alta calidad,” afirma.

Para clasificar el nivel de pericia de una persona—como “buena”, “media” o “novato”—el equipo de Noll integra un segundo factor en el algoritmo: la información temporal. “La idea es que los que descubren los contenidos antes, son los más recompensados,” afirma Ching-man Au Yeung, investigador de equipos electrónicos y ciencias informáticas en la Universidad de Southhampton en el Reino Unido, que ayudó a desarrollar el algoritmo. La gente que descubre por primera vez aquellos contenidos que acaban siendo etiquetados numerosas veces es identificada como creadora de tendencias dentro de la comunidad. “Son aquellos que encuentran la utilidad de un documento antes que los demás,” afirma Au Yeung, que compara su adquisición de influencia con la forma en que los conocimientos académicos crean una reputación.

Por otro lado, los seguidores encuentran los contenidos útiles más tarde y los etiquetan porque ya se han hecho populares. Entre estos es más fácil encontrar spammers, “gente que identifica un tema que crece en importancia y lo usan para redirigir a la gente hasta sus propios contenidos,” afirma Scott Golder, antiguo científico investigador en Hewlett Packard y en la actualidad estudiante de postgrado en Cornell. Golder añade que el algoritmo SPEAR utiliza “una serie de criterios muy inteligentes que no se han utilizado anteriormente en las ciencias informáticas.”

Los investigadores pusieron a prueba su algoritmo utilizando datos de Delicious, analizando más de 71.000 documentos web, 0,5 millones de usuarios y dos millones de vínculos favoritos compartidos. “Configuramos el algoritmo para que, por ejemplo,  encontrase a expertos en JavaScript, y nos dio como resultado una lista de usuarios; los dos de arriba eran desarrolladores de software profesionales,” afirma Noll. “Ninguno de los spammers acabó entre los 200 primeros.”

Noll afirma que el algoritmo se puede ajustar para cualquier comunidad online, incluyendo Twitter y los sitios en los que se comparte música. El estudio fue presentado la semana pasada durante la Conferencia SIGIR en Boston. Noll afirma que varias compañías, incluyendo Microsoft, estuvieron interesadas en utilizar el algoritmo para las búsquedas en webs sociales, donde los documentos se clasifican en base a los vínculos favoritos de los usuarios.

“Creo… que esta combinación de refuerzo mutuo con la distinción entre descubridores y seguidores podría ser útil en muchos dominios,” afirma Kleinberg.

Otros

  1. China prohíbe la exportación de minerales críticos y lanza un aviso a EE UU

    El país asiático está dispuesto a devolver el golpe con más fuerza e infligir perjuicios económicos a su rival

  2. La IA ahora puede crear una réplica de tu personalidad

    Una entrevista de dos horas es suficiente para captar con precisión tus valores y preferencias, según una nueva investigación de Stanford y Google DeepMind

    IA alterinativa
  3. La difícil tarea de señalar quién debe pagar por el cambio climático

    Los mayores contaminadores del mundo, en cifras.