.

Computación

Yahoo publica la mayor base de datos de la historia sobre los hábitos de sus lectores

1

Solo está disponible para investigadores académicos con el objetivo de que mejoren los algoritmos de recomendaciones y sugerencias

  • por Tom Simonite | traducido por Teresa Woods
  • 18 Enero, 2016

Cientos de miles de personas visitan las páginas web de noticias de Yahoo cada mes. La semana pasada, la empresa lanzó un enorme conjunto de datos sobre los hábitos de lectura de noticias de unos 20 millones de usuarios. Su intención: ayudar a los investigadores a inventar un software más capacitado para predecir lo que queremos.

El paquete informativo, de 13 terabytes, procede de la actividad generada en las páginas de Yahoo entre febrero y mayo del año pasado y ha sido puesto únicamente a disposición de investigadores académicos. Yahoo afirma que se trata del conjunto de datos más grande que se haya hecho público jamás, eclipsando un conjunto de datos de un terabyte lanzado por la empresa de publicidad online Criteo el año pasado.

La directora de Investigaciones para la Ciencia de la Personalización de Yahoo Labs, Suju Rajan, dice que el paquete proporciona un valioso banco de pruebas para entrenar y probar algoritmos que intentan comprender lo que gusta a la gente en función su comportamiento anterior. "Esto no sólo es relevante para Yahoo; beneficiará a la industria al completo", afirmó Rajan en una reunión informativa el pasado martes.

Los algoritmos de recomendación son cruciales para las empresas tecnológicas como Yahoo, Netflix, Amazon y Google, que los emplean para sugerir contenidos y productos que al usuario le podría interesar leer, ver o comprar. Y los investigadores académicos rara vez tienen oportunidad de trabajar con los datos generados por los comportamientos reales de los usuarios a la misma escala que los científicos de datos corporativos, pero son mucho más libres para explorar nuevas ideas que podrían ofrecer importantes mejoras, explica Rajan.

Los datos recién publicados incluyen los titulares que los algoritmos de personalización mostraron a la gente, un resumen del contenido de los artículos y una relación de los artículos sobre los que la gente hizo clic. Los registros de unos siete millones de usuarios de Yahoo incluyen demografía básica como la edad, el sexo y la ubicación de los usuarios.

Kristian Hammon, profesor de la Universidad de Northwestern (EEUU) y científico jefe de Narrative Science, celebró el movimiento de Yahoo: "Si los datos son buenos, entonces creo que disponer de ellos representa un beneficio tremendo".

Para Hammond, proporcionan una contrapartida útil para el lanzamiento reciente de Google de un paquete de software que emplea para el aprendizaje de máquinas a gran escala (ver El cerebro de inteligencia artificial de Google sale de sus laboratorios con permiso). "La mayoría de la gente no dispone de enormes conjuntos de datos como los que requiere ese paquete", dice. Además de los algoritmos de recomendación, los datos de Yahoo podrían revelar patrones en los intereses de distintos grupos demográficos, afirma.

Hammond también apunta que publicar datos sobre la actividad digital de la gente no carece de riesgos. AOL reveló accidentalmente las identidades y pensamientos íntimos de algunos de sus clientes en 2006 cuando publicó los historiales de búsqueda de unas 650.000 personas sin filtrar debidamente los datos. Pero Rajan explica que sin los nombres ni otras informaciones de identificación, conocer los artículos de noticias en los que un usuario anónimo ha hecho clic no presenta tal riesgo. Hammond cree que algunas personas lo intentarán de todos modos.

Computación

Las máquinas cada vez más potentes están acelerando los avances científicos, los negocios y la vida.

  1. Google anuncia un hito hacia la computación cuántica sin errores

    Una técnica llamada “código de superficie” permite a los bits cuánticos de la empresa almacenar y manipular datos fielmente durante más tiempo, lo que podría allanar el camino a ordenadores cuánticos útiles

  2. El vídeo es el rey: bienvenido a la era del contenido audiovisual

    Cada vez aprendemos y nos comunicamos más a través de la imagen en movimiento. Esto cambiará nuestra cultura de manera inimaginable

    Dos personas creando contenido en formato vídeo
  3. Esta empresa quiere superar a Google e IBM en la carrera cuántica con un superordenador de fotones

    La empresa quiere construir una computadora que contenga hasta un millón de cúbits en un campus de Chicago