Diversas empresas se enfrentan a problemas relacionados con la minería de vínculos sociales.
Cuando hace varios meses Google lanzó Buzz, una red social de microblogging, la compañía aseguró que la red se había generado de forma automática, mediante algoritmos capaces de conectar a los usuarios entre sí en base a comunicaciones reveladas a través de Gmail y otros servicios.
Sin embargo, muchos usuarios se resistieron ante lo que percibían como conexiones sociales manipuladas, lo que obligó a la empresa a dar marcha atrás frenéticamente y hacer que el servicio Buzz fuera menos automatizado y estuviera más bajo el control de los usuarios.
Sin embargo, y tras este incidente, muchas empresas están cada vez más interesadas en determinar automáticamente los vínculos sociales de los usuarios a través del correo electrónico y de las comunicaciones en redes sociales. Por ejemplo, la división Lotus de IBM ofrece un producto llamado Atlas, que construye datos sociales a partir de las comunicaciones corporativas, y Microsoft ha investigado el uso de dichos datos para dar prioridad automática a los correos electrónicos que reciben los trabajadores. No obstante, diversos investigadores señalan que existen muchos problemas sin resolver provocados por la generación y el análisis de redes sociales en base a los patrones de comunicación.
En un documento presentado recientemente en la conferencia WWW2010 en Raleigh, Carolina del Norte, un grupo de investigadores de Yahoo señaló que antes de que sea posible construir una imagen precisa de una red social, los investigadores tienen que hacer un mejor trabajo a la hora de definir lo que se necesita para que dos personas deseen conectarse. Si dos personas han intercambiando un único correo electrónico, ¿se pueden considerar amigos? ¿O deberían darse 10 conexiones antes de considerar la amistad?
"No observamos directamente las relaciones, observamos los eventos de comunicación", afirma Jake Hofman, investigador en el grupo de dinámica social de Yahoo Research, que y que estuvo involucrado en el trabajo. Una serie de algoritmos deducirán las estructuras de redes sociales radicalmente distintas basándose en diferentes interpretaciones de los eventos de comunicación. Estas redes podrían ser más adecuadas para distintas circunstancias. Por ejemplo, una red basada en comunicaciones relativamente poco frecuentes podría llegar a funcionar bien para el intercambio de noticias etiquetadas. Un tipo de comunicaciones más frecuentes podrían ser mejores para redes diseñadas para el intercambio de información más íntima.
"En su mayor parte, los umbrales que establecemos [para la generación automática de redes sociales] son arbitrarios", afirma Lada Adamic, profesora asistente en la Escuela de Información y el Centro para el Estudio de Sistemas Complejos de la Universidad de Michigan. Adamic señala que existen otras cuestiones al margen de las planteadas por el estudio de Yahoo. Por ejemplo, afirma, la mayoría de los algoritmos definen las redes de manera simplista—la gente está o bien conectada o no, sin forma de indicar las zonas grises comunes en la vida real.
Afirma que es posible ir refinando los algoritmos, aunque siempre habrá errores puesto que los datos disponibles no capturan todo el patrón. Por ejemplo, dos personas puede que no se envíen correos electrónicos, pero pueden hablar frecuentemente por teléfono o en persona.
Este tipo de información incompleta puede echar por tierra los intentos de caracterización automática de las redes sociales, señala Eric Gilbert, que próximamente trabajará como profesor asistente de informática interactiva en Georgia Tech, a partir de este otoño. Los algoritmos pueden saltarse la identificación de las conexiones más íntimas puesto que probablemente sean cara a cara en lugar de en formato digital—lo que Gilbert denomina el "problema del cónyuge" o "el problema de compañero de piso".
Gilbert ha descubierto que el estudio de la estructura de una red con más detalle puede compensar esta cuestión de cierta manera. Por ejemplo, una pareja casada es probable que comparta un gran número de amigos. No obstante reconoce que esto no resuelve el problema por completo.
En la otra cara del "problema del cónyuge" está "el problema de ex", que se destacó durante el lanzamiento de Buzz. Esto ocurre cuando los algoritmos conectan a dos personas que pueden haberse comunicado con frecuencia en alguna ocasión, pero que ya no lo hacen, y que ya no desean hacerlo—como por ejemplo parejas de enamorados que ya no sientan lo mismo. Gilbert explica que es difícil descubrir de forma automática un evento tal como una ruptura, debido a las complejas variables que lo rodean. Dos personas pueden dejar de comunicarse debido a que una está ocupada, o de vacaciones. Los algoritmos tendrían que examinar y comparar el comportamiento complejo a lo largo del tiempo y en el contexto de otras conexiones para entender algo como esto.
Munmun De Choudhury, que estuvo involucrada en la investigación de Yahoo y ahora trabaja en Microsoft Research, afirma que se pueden llevar a cabo más investigaciones para ayudar a que los algoritmos comprendan mejor la naturaleza de las relaciones sociales. Una serie de frecuentes correos electrónicos pueden indicar tanto una relación muy positiva como muy negativa, por ejemplo, y un análisis adicional podría ayudar a los algoritmos a identificar la diferencia entre los dos polos opuestos.
En última instancia, afirma Adamic, se trata de saber cuánto margen de error puede tolerarse a la hora de generar una red de forma automática. En algunos casos, los algoritmos que llevan a cabo la minería del correo electrónico y otras comunicaciones funcionan bastante bien, y se pueden utilizar para ahorrar tiempo, proporcionando una visión general de las conexiones o filtrando la información.
La determinación automática de la naturaleza de las relaciones sociales podría ser útil para dar prioridad a los mensajes o establecer configuraciones de privacidad que el usuario después podría aprobar. Sin embargo, "no hay que llegar a un grado de detalle que dé miedo", advierte Gilbert.
Todos los investigadores coinciden en que permitir a los usuarios que limpien los errores producidos por los algoritmos es algo crucial para el progreso. "Siempre tenemos la opción de introducir el elemento humano", afirma Adán. "Siempre podemos dar un paso después de que el algoritmo haya actuado con un 95 por ciento de precisión, y dejar que las personas manejen el último 5 por ciento".