Inteligencia Artificial
La 'verdad fundamental': la pieza que falta para luchar contra las 'fake news'
Una nueva investigación ha elaborado un potente enfoque para que la IA identifique automáticamente las noticias falsas. Para que funcione correctamente necesita más ejemplos de contenidos veraces y de bulos pero, ¿cómo se define y detecta la verdad en su sentido más básico?
Cuando el presidente ejecutivo de Facebook, Mark Zuckerberg, prometió al Congreso de EE. UU. que la inteligencia artificial (IA) ayudaría a resolver el problema de las noticias falsas, no entró en detalles sobre cómo pensaba hacerlo. Pero una investigación podría darnos unas cuantas pistas.
En un extenso estudio que se presentará en una conferencia a finales de este mes, un equipo de investigadores del MIT (EE.UU.), del Instituto para Investigaciones Informáticas de Qatar (QCRI) y de la Universidad de Sofía (Bulgaria) han analizado más de 900 variables para predecir la fiabilidad de un medio de comunicación. Su trabajo probablemente representa el mayor conjunto de variables de este tipo que se haya planteado nunca.
Los investigadores entrenaron a un modelo de aprendizaje automático con diferentes combinaciones de las variables para ver cuál producía los resultados más precisos. El mejor modelo catalogó cada medio de comunicación en función de su nivel de veracidad, la cual podría ser "baja", "media" o "alta". Su nivel de precisión fue bastante alto, pero solo en el 65 % de los casos.
Aunque esta tasa de acierto está lejos de convertirse en una solución definitiva, el experimento revela cuestiones importantes sobre los elementos necesarios para que una máquina pueda verificar medios y contenidos. El científico principal de QCRI y uno de los investigadores del estudio, Preslav Nakov, es optimista y cree que las fuentes de noticias falsas podrían detectarse automáticamente siguiendo este enfoque.
Pero eso no significa que vaya a ser fácil.
El método de locura
Desde que se descubrió que las noticias falsas habían conseguido influir en las elecciones presidenciales de EE. UU. en 2016, los estudios para averiguar cómo detectarlas no han cesado. De estas investigaciones nacieron cuatro enfoques principales: la verificación de afirmaciones individuales, la detección de artículos falsos, la búsqueda de troles y la medición de la fiabilidad de los medios en sí mismos. En su estudio, Nakov y su equipo eligieron centrarse en el cuarto enfoque porque es el que está más cerca del origen de la manipulación, y además ha sido el menos estudiado.
Los anteriores estudios intentaban caracterizar la fiabilidad de una fuente de noticias en función de la cantidad de las afirmaciones ciertas y falsas publicadas, y que habían sido previamente verificadas. En otras palabras, una máquina comparaba el historial de afirmaciones objetivas hechas por un medio de noticias con las conclusiones de sitios como Snopes o PolitiFact. Pero, este mecanismo se basa en la verificación de los hechos por parte de las personas y evalúa el historial y no el presente inmediato. Cuando las últimas afirmaciones se tienen que verificar manualmente, "ya es demasiado tarde", explica Nakov.
Para detectar una fuente de noticias falsas casi en tiempo real, Nakov y sus colaboradores entrenaron su sistema mediante variables medibles que podrían estructurarse en forma de tabla, independientemente de los verificadores de hechos humanos. Dichas variables incluían el análisis del contenido, como la estructura de las frases de los titulares y la diversidad de palabras en los artículos; los indicadores generales del sitio, como la estructura de URL y el tráfico de la página web; y medidas de influencia, como sus seguidores en redes sociales y su página de Wikipedia, en caso de que la hubiera.
Para elegir las variables, los investigadores se basaron en investigaciones previas (los estudios anteriores han demostrado que las noticias falsas tienden a repetir muchos términos, por ejemplo) y en nuevas hipótesis.
Al probar diferentes combinaciones de variables, los investigadores fueron capaces de identificar los mejores indicadores de la fiabilidad de un medio de comunicación. Disponer de una página de Wikipedia es una variable muy predictiva. Por el contrario, el tráfico no es indicativo de nada. Este análisis ayudó a los investigadores a determinar más variables que podrían explorar en el futuro.
Sed de datos
Pero existe otro obstáculo: la escasez de datos de entrenamiento de la "verdad fundamental", como lo describe Nakov.
La mayoría de tareas de aprendizaje automático simplemente necesitan tener datos de entrenamiento correctamente etiquetados. Si queremos crear un sistema que detecte artículos sobre deportes, estos contenidos se pueden etiquetar como relacionados o no relacionados con el tema. Luego, solo hay que alimentar a la máquina con ese conjunto de datos para que aprenda las características de un artículo deportivo.
Pero etiquetar los medios de comunicación en función de su veracidad es mucho más complicado. Es una tarea para periodistas profesionales con metodologías rigurosas y es un proceso que requiere mucho tiempo. Al final, resulta un reto construir un conjunto sólido de datos de entrenamiento. Esa es, en parte, la razón por la que la precisión del modelo del estudio es tan baja. "La forma más obvia de aumentar la precisión sería más datos de entrenamiento", sostiene Nakov.
Actualmente, Media Bias Fact Check, la organización elegida para proporcionar la "verdad fundamental" para la investigación, ha evaluado 2.500 fuentes de medios, una cifra muy baja en términos de aprendizaje automático. Pero Nakov afirma que la base de datos está creciendo rápidamente. Además de obtener más datos de entrenamiento, los investigadores también siguen intentando mejorar el rendimiento de su modelo con más variables. Algunas de ellas se centran en describir la estructura de la página web, si tiene información de contacto, y sus patrones de publicación y eliminación del contenido.
También han empezado a construir un agregador de noticias que ofrece pistas importantes a los lectores sobre la fiabilidad de cada noticia y fuente compartida. A pesar del trabajo que queda por hacer, Nakov cree que dicha tecnología puede ayudar a resolver la epidemia de las noticias falsas con relativa rapidez si las plataformas como Facebook y Twitter contribuyen con su propio esfuerzo. El investigador concluye: "Es como luchar contra el spam. Nunca detendremos las noticias falsas por completo, pero podemos tenerlas bajo control".