Tecnología y Sociedad
La IA de noticias automatizadas de Reuters podría desbancar a su ejército de periodistas
"Tracer logra una precisión competitiva, puntual y veraz en la detección y entrega de noticias", afirman desde la organización. El sistema se alimenta de Twitter para crear un contenidos de forma totalmente automática. ¿Será más fácil de engañar que a los periodistas humanos?
"La llegada de internet y la consecuente explosión de información han hecho que a los periodistas cada vez les resulte más difícil generar noticias con precisión y rapidez". Así arranca un trabajo del equipo de investigación y desarrollo de la agencia de noticias global Reuters publicado en arXiv esta semana.
Para Reuters, el problema se agudizó con la aparición de noticias falsas, que se han convertido en un factor importante en la distorsión de la percepción de los acontecimientos.
Pero algunas agencias de noticias, como Associated Press, han empezado a explorar la generación de contenidos mediante servicios automatizados que informan de anuncios generales como noticias financieras y determinados resultados deportivos. Sólo tienen que pegar los datos en plantillas predefinidas: "X informó de unas ganancias de Y millones en el Q3, en unos resultados que superaron los pronósticos de Wall Street ..."
Así que otras agencias de noticias están empezando a sentirse presionadas para acoger la automatización en la producción de noticias. Ahora, Reuters describe cómo ha automatizado casi por completo la identificación de las últimas noticias. Xiaomo Liu y varios compañeros suyos de Reuters Research and Development y Alibaba afirman que el nuevo sistema funciona bien. De hecho, tiene el potencial de revolucionar el negocio de las noticias. Pero también plantea inquietudes sobre cómo un sistema así podría ser aprovechado por personas con fines perversos.
El nuevo sistema se llama Reuters Tracer. Utiliza Twitter como una especie de sensor global que registra eventos de noticias a medida que ocurren. Luego, el sistema usa varios tipos de minería de datos y aprendizaje automático para seleccionar los acontecimientos más relevantes, identificar el tema central, clasificar su prioridad y redactar un título y un resumen. Las noticias después son distribuidas por el servicio de noticias globales de la compañía.
El primer paso consiste en filtrar el flujo de datos de Twitter. Tracer examina aproximadamente 12 millones de tuits cada día, el 2% del total. La mitad son muestreados al azar; la otra mitad proviene de una lista de cuentas de Twitter recopilada por periodistas humanos de Reuters. Incluyen las cuentas de otras organizaciones de noticias, empresas importantes, personas influyentes y más.
La siguiente etapa determina cuándo se ha producido un acontecimiento informativo. Para ello, Tracer presupone que un acontecimiento se ha producido si varias personas comienzan a hablar de él a la vez. Entonces emplea un algoritmo de agrupamiento para encontrar estas conversaciones. Por supuesto, estas agrupaciones incluyen spam, anuncios, conversaciones corrientes y más cosas irrelevantes. Solo algunos de ellos se refieren a acontecimientos de interés periodístico.
La fase siguiente consiste en clasificar y priorizar los acontecimientos. Tracer usa una serie de algoritmos. El primero identifica el tema de la conversación. Después, lo compara con una base de datos de temas que el equipo de Reuters ha recopilado de tuits producidos por 31 cuentas de noticias oficiales, como @CNN, @BBCBreaking y @nytimes, así como también agregadores de noticias como @BreakingNews.
En esta etapa, el algoritmo también determina la ubicación del acontecimiento mediante una base de datos de ciudades y palabras clave relacionadas con la ubicación.
Una vez que una conversación o un rumor sea identificado como una noticia potencial, es necesario confirmar su veracidad. Para ello, Tracer busca la fuente identificando el tuit más antiguo de la conversación que menciona el tema y cualquier página web a las que apunte. Entonces consulta una base de datos que enumera productores conocidos de noticias falsas, como National Report o fuentes de noticias satíricas como The Onion.
Finalmente, el sistema redacta un título y un resumen y distribuye la noticia a través de la organización de Reuters.
Las pruebas demuestran que el sistema funciona bien, según el equipo de Reuters. "Tracer es capaz de lograr precisión competitiva, puntualidad y veracidad en la detección y entrega de noticias", aseguran.
Para respaldar sus conclusiones, el equipo ofrece una serie de estadísticas. El sistema procesa 12 millones de tuits cada día, de los cuales rechaza casi el 80% como ruido. El resto son asignados a aproximadamente 6.000 agrupaciones que el sistema clasifica como diferentes tipos de noticias. Todo esto lo hacen 13 servidores que ejecutan 10 algoritmos diferentes. En comparación, Reuters emplea a unos 2.500 periodistas de todo el mundo que en conjunto generan alrededor de 3.000 alertas de noticias cada día utilizando una variedad de fuentes, incluido Twitter. De todas ellas, alrededor de 250 acaban convirtiéndose en noticias emitidas por los medios.
Reuters comparó las historias que identifica Tracer con las que aparecen en las noticias de organizaciones como la BBC y CNN. "Los resultados indican que Tracer puede cubrir alrededor del 70% de las noticias con el 2% de los datos de Twitter", escribe el equipo de Lui.
Y el sistema desde luego es rápido. El equipo resaltó el ejemplo del tiroteo en Las Vegas (EEUU) en octubre de 2017, que dejó 58 muertos. Un testigo informó el incidente a la 1:22 de la madrugada, lo que desencadenó una agrupación en Tracer. Sin embargo, esa agrupación no cumplió con los criterios del sistema para que un acontecimiento sea incluido en el servicio de noticias hasta la 1:39. "Reuters informó del incidente a la 1:49", señala el equipo de Lui.
Es un trabajo interesante que suscita una serie de preguntas, especialmente sobre lo fácil que sería manipular este sistema. No resulta difícil imaginar a grupos de presión diseñando conversaciones de Twitter con la intención específica de engañar a Tracer.
Pero es difícil predecir si este sistema será más fácil de engañar que el actual, en el cual los humanos son engañados con regularidad.
Luego, está el papel de los humanos en el negocio de las noticias. El futuro de las noticias claramente incluye un aumento de la automatización. Cómo encajarán los humanos aún está por determinarse.
Ref: arxiv.org/abs/1711.04068: Reuters Tracer: Toward Automated News Production Using Large Scale Social Media Data