La producción de investigaciones asociadas a la COVID-19 se ha disparado, lo que complica la tarea de los científicos de plantear hipótesis basadas en datos reales. Para ayudarles, el algoritmo SciFact selecciona estudios relevantes y los clasifica en función de si apoyan o rechazan una idea concreta sobre el virus
Una herramienta experimental está ayudando a los investigadores a repasar la enorme cantidad de investigaciones sobre el coronavirus (COVID-19) para verificar si los nuevos estudios cumplen con el consenso científico.
Por qué es importante: desde el inicio de la pandemia de coronavirus, se ha generado una avalancha de artículos en preprint e investigaciones realizadas por autores con diferentes niveles de experiencia y examinados con distintos criterios de revisión por pares. Esto ha dificultado los intentos de los investigadores de avanzar en su comprensión del virus y de separar los datos científicos de la ficción.
Cómo funciona: La herramienta SciFact, desarrollada por el Instituto Allen para la Inteligencia Artificial (AI2), la organización sin ánimo de lucro de Seattle (EE. UU.), está diseñada para ayudar con este proceso. La idea consiste en escribir una afirmación científica en su barra de búsqueda [por ejemplo, "la hipertensión es una comorbilidad del COVID-19" (traducción: la hipertensión puede causar complicaciones para los enfermos de COVID-19)]. Después, ScieFact ofrecerá una selección de estudios relevantes, y los clasificará según apoyen o rechacen dicha afirmación. También muestra los resúmenes de cada artículo y resalta las frases específicas que ofrecen los argumentos más relevantes para valorar esa afirmación.
Cómo se creó: el sistema se basa en una red neuronal denominada VeriSci que fue entrenada con un conjunto de datos de verificación de hechos ya existente recogido de Wikipedia y adaptado con un nuevo conjunto de datos de verificación de hechos científicos, el cual contiene 1.409 afirmaciones científicas y 5.183 resúmenes.
Los investigadores de AI2 organizaron este último conjunto de datos mediante Semantic Scholar, una base pública de artículos científicos, que esta organización sin ánimo de lucro lanzó en 2015 y la ha mantenido desde entonces. Seleccionaron aleatoriamente una muestra de artículos de una docena de revistas científicas de prestigio, como Cell, Nature y JAMA. Luego extrajeron algunas frases de los estudios que incluían citas y pidieron a los expertos que las reescribieran en forma de afirmaciones científicas que se pudieran corroborar o contradecir. Para cada una de ellas, los expertos leyeron los resúmenes de las citas correspondientes e identificaron las frases que contenían argumentos a favor o en contra.
Cómo funciona: cuando los investigadores probaron VeriSci con las afirmaciones científicas relacionadas con la COVID-19, descubrieron que la herramienta extrajo artículos relevantes y los clasificó correctamente 23 veces de un total de 36. A pesar de este rendimiento imperfecto, el resultado supera a la misma red neuronal entrenada en otras bases de datos de verificación de hechos existentes y sirve como la primera conocida prueba de concepto de la posibilidad de tener un sistema basado en inteligencia artificial para la verificación de hechos científicos. En el futuro, algunos de los errores de la herramienta podrían reducirse en parte con más datos de entrenamiento; otros necesitarán más avances en la comprensión del lenguaje natural.
Para qué debería usarse y para qué no: SciFact se ha creado para ayudar a los científicos que investigan la COVID-19 a verificar rápidamente sus hipótesis o las nuevas afirmaciones con la literatura científica existente. No pretende disipar los bulos ni las teorías de conspiración que circulan en las redes sociales (por ejemplo, que la COVID-19 es un arma biológica), ni tampoco declaraciones basadas en opiniones (como, por ejemplo, que los gobiernos deberían exigir a las personas que se mantengan a dos metros de distancia para disminuir la velocidad de la propagación del virus). Dada la naturaleza experimental de la herramienta, los expertos deberían leer los resúmenes de los trabajos en vez de confiar únicamente en las clasificaciones "a favor" y "en contra". Los investigadores también señalan que la herramienta no verifica la legitimidad de los artículos extraídos, por lo que los expertos deben proceder según sus propios criterios.