MIT Technology Review en español | La revista de tecnología del MIT

Los chatbots especializados podrían marcar la diferencia para personas con acceso limitado a la atención sanitaria. Sin más pruebas, no sabemos si ayudarán o perjudicarán.

A principios de este mes, Microsoft lanzó Copilot Health, un nuevo espacio dentro de su aplicación Copilot donde los usuarios podrán conectar sus historiales médicos y hacer preguntas específicas sobre su salud. Pocos días antes, Amazon había anunciado que Health AI, una herramienta basada en LLM anteriormente restringida a los miembros de su servicio One Medical, ahora estaría ampliamente disponible. Estos productos se suman a las filas de ChatGPT Health, que OpenAI lanzó en enero, y Claude de Anthropic, que puede acceder a los historiales médicos de los usuarios si se le otorga permiso. La IA de salud para las masas es oficialmente una tendencia.

Existe una clara demanda de chatbots que proporcionen asesoramiento sanitario, dada la dificultad que tienen muchas personas para acceder a él a través de los sistemas médicos existentes. Y algunas investigaciones sugieren que los LLM actuales son capaces de hacer recomendaciones seguras y útiles. Pero los investigadores afirman que estas herramientas deberían ser evaluadas de forma más rigurosa por expertos independientes, idealmente antes de su lanzamiento masivo.

En un ámbito tan crítico como la salud, confiar en que las empresas evalúen sus propios productos podría resultar imprudente, especialmente si esas evaluaciones no se ponen a disposición de la revisión de expertos exte os. E incluso si las empresas están realizando investigaciones de calidad y rigurosas —como parece que hacen algunas, incluida OpenAI—, aún podrían tener puntos ciegos que la comunidad investigadora en general podría ayudar a subsanar.

“En la medida en que siempre se va a necesitar más atención médica, creo que deberíamos explorar todas las vías que funcionen”, afirma Andrew Bean, estudiante de doctorado en el Oxford Inte et Institute. “Me parece totalmente plausible que estos modelos hayan alcanzado un punto en el que realmente vale la pena implementarlos.”

“Pero”, añade, “la base de evidencia realmente tiene que estar presente.”

Puntos de inflexión

Según los desarrolladores, estos productos de salud se están lanzando ahora porque los modelos de lenguaje grandes han alcanzado de hecho un punto en el que pueden proporcionar asesoramiento médico de manera efectiva. Dominic King, vicepresidente de salud de Microsoft AI y excirujano, cita el avance de la IA como una razón fundamental por la que se formó el equipo de salud de la empresa y por la que Copilot Health existe ahora. “Hemos visto este enorme progreso en las capacidades de la IA generativa para poder responder preguntas de salud y dar buenas respuestas”, dice.

Pero eso es solo la mitad de la historia, según King. El otro factor clave es la demanda. Poco antes de que se lanzara Copilot Health, Microsoft publicó un informe y una publicación de blog complementaria, que detallaban cómo las personas utilizaban Copilot para obtener asesoramiento de salud. La compañía afirma que recibe 50 millones de preguntas relacionadas con la salud cada día, y que la salud es el tema de debate más popular en la aplicación móvil de Copilot.

Otras empresas de IA han notado y respondido a esta tendencia. «Incluso antes de nuestros productos de salud, estábamos viendo un aumento rapidísimo en el número de personas que utilizaban ChatGPT para preguntas relacionadas con la salud», afirma Karan Singhal, quien dirige el equipo de IA para la Salud de OpenAI. (OpenAI y Microsoft mantienen una asociación de larga data, y Copilot está impulsado por los modelos de OpenAI.)

Es posible que las personas simplemente prefieran plantear sus problemas de salud a un bot sin prejuicios que está disponible las 24 horas del día, los 7 días de la semana. Pero muchos expertos interpretan este patrón a la luz del estado actual del sistema de salud. «Hay una razón por la que estas herramientas existen y tienen una posición en el panorama general», afirma Girish Nadka i, director de IA en el Mount Sinai Health System. «Eso es porque el acceso a la atención médica es difícil, y es particularmente difícil para ciertas poblaciones».

La prometedora visión de los chatbots de salud con LLM dirigidos al consumidor se basa en la posibilidad de que puedan mejorar la salud de los usuarios a la vez que reducen la presión sobre el sistema sanitario. Esto podría consistir en ayudar a los usuarios a decidir si necesitan o no atención médica, una tarea conocida como triaje. Si el triaje mediante chatbots funciona, los pacientes que necesiten atención de urgencia podrían buscarla antes de lo que lo habrían hecho de otro modo, y aquellos con preocupaciones más leves podrían sentirse cómodos gestionando sus síntomas en casa con el consejo del chatbot, en lugar de congestionar innecesariamente las salas de urgencias y las consultas médicas.

Pero un estudio reciente y ampliamente discutido de Nadka i y otros investigadores del Mount Sinai descubrió que ChatGPT Health a veces recomienda un exceso de atención para afecciones leves y no logra identificar emergencias. Aunque Singhal y algunos otros expertos han sugerido que su metodología podría no ofrecer una imagen completa de las capacidades de ChatGPT Health, el estudio ha suscitado preocupaciones sobre la escasa evaluación exte a a la que se someten estas herramientas antes de ser lanzadas al público.

La mayoría de los expertos académicos entrevistados para este artículo coincidieron en que los chatbots de salud basados en LLM podrían tener beneficios considerables, dado el escaso acceso a la atención sanitaria que tienen algunas personas. Pero los seis expresaron su preocupación porque estas herramientas están siendo lanzadas sin pruebas por parte de investigadores independientes para evaluar si son seguras. Aunque algunos usos promocionados de estas herramientas, como recomendar planes de ejercicio o sugerir preguntas que un usuario podría hacer a un médico, son relativamente inofensivos, otros conllevan riesgos evidentes. El triaje es uno; otro es pedir a un chatbot que proporcione un diagnóstico o un plan de tratamiento.

La interfaz de ChatGPT Health incluye una exención de responsabilidad destacada que afirma que no está destinada al diagnóstico o tratamiento, y los anuncios de Copilot Health y Health AI de Amazon incluyen advertencias similares. Pero esas advertencias son fáciles de ignorar. «Todos sabemos que la gente lo va a usar para el diagnóstico y la gestión», afirma Adam Rodman, médico de medicina inte a e investigador del Beth Israel Deaconess Medical Center y también investigador visitante en Google.

Pruebas médicas

Las empresas afirman estar probando los chatbots para asegurar que ofrecen respuestas seguras la gran mayoría de las veces. OpenAI ha diseñado y lanzado HealthBench, un benchmark que evalúa a los LLM según cómo responden en conversaciones realistas relacionadas con la salud, aunque las conversaciones en sí mismas son generadas por LLM. Cuando GPT-5, que impulsa tanto ChatGPT Health como Copilot Health, fue lanzado el año pasado, OpenAI informó de las puntuaciones de HealthBench del modelo: obtuvo resultados sustancialmente mejores que los modelos anteriores de OpenAI, aunque su rendimiento general estuvo lejos de ser perfecto.

Pero las evaluaciones como HealthBench tienen limitaciones. En un estudio publicado el mes pasado, Bean —el doctorando de Oxford— y sus colegas descubrieron que, incluso si un LLM puede identificar con precisión una condición médica a partir de un escenario escrito ficticio por sí mismo, un usuario no experto a quien se le da el escenario y se le pide que determine la condición con la ayuda del LLM, podría acertar solo una tercera parte de las veces. Si carecen de experiencia médica, los usuarios podrían no saber qué partes de un escenario —o de su experiencia en la vida real— son importantes incluir en su prompt, o podrían malinterpretar la información que les proporciona un LLM.

Bean sostiene que esta brecha de rendimiento podría ser significativa para los modelos de OpenAI. En el estudio original de HealthBench, la compañía informó que sus modelos tuvieron un rendimiento relativamente bajo en conversaciones que les exigían recabar más información del usuario. De ser este el caso, los usuarios que no poseen suficientes conocimientos médicos para proporcionar a un chatbot de salud la información que necesita de antemano podrían recibir consejos inútiles o imprecisos.

Singhal, responsable de salud en OpenAI, señala que la serie actual de modelos GPT-5 de la compañía, que aún no se había lanzado cuando se realizó el estudio original de HealthBench, es mucho mejor a la hora de solicitar información adicional que sus predecesores. Sin embargo, OpenAI ha informado que GPT-5.4, el modelo insignia actual, es en realidad peor a la hora de buscar contexto que GPT-5.2, una versión anterior.

Idealmente, dice Bean, los chatbots de salud deberían someterse a pruebas controladas con usuarios humanos, como se hizo en su estudio, antes de ser lanzados al público. Eso podría ser una tarea ardua, particularmente dado lo rápido que avanza el mundo de la IA y el tiempo que pueden llevar los estudios en humanos. El propio estudio de Bean utilizó GPT-4o, que se lanzó hace casi un año y ya está obsoleto.

A principios de este mes, Google publicó un estudio que cumple los estándares de Bean. En el estudio, los pacientes abordaron sus problemas médicos con el Articulate Medical Intelligence Explorer (AMIE) de la compañía, un *chatbot* médico LLM que aún no está disponible para el público, antes de reunirse con un médico humano. En general, los diagnósticos de AMIE fueron tan precisos como los de los médicos, y ninguna de las conversaciones planteó importantes preocupaciones de seguridad para los investigadores.

A pesar de los alentadores resultados, Google no tiene previsto lanzar AMIE a corto plazo. «Si bien la investigación ha avanzado, existen limitaciones significativas que deben abordarse antes de la aplicación en el mundo real de sistemas para diagnóstico y tratamiento, incluyendo una mayor investigación sobre la equidad, la imparcialidad y las pruebas de seguridad», escribió Alan Karthikesalingam, científico investigador de Google DeepMind, en un correo electrónico. Google sí reveló recientemente que Health100, una plataforma de salud que está desarrollando en colaboración con CVS, incluirá un asistente de IA impulsado por sus modelos estrella Gemini, aunque esa herramienta presumiblemente no estará destinada a diagnóstico o tratamiento.

Rodman, quien lideró el estudio AMIE junto a Karthikesalingam, no cree que estudios tan extensos y plurianuales sean necesariamente el enfoque correcto para chatbots como ChatGPT Health y Copilot Health. «Hay muchas razones por las que el paradigma de los ensayos clínicos no siempre funciona en la IA generativa», afirma. «Y ahí es donde entra en juego esta conversación sobre la evaluación comparativa. ¿Existen puntos de referencia [de] un tercero de confianza que podamos acordar que sean significativos, a los que los laboratorios puedan ceñirse?»

La clave reside en los "terceros". Por muy exhaustivamente que las empresas evalúen sus propios productos, es difícil confiar plenamente en sus conclusiones. Una evaluación por parte de terceros no solo aporta imparcialidad, sino que, si hay muchos terceros implicados, también ayuda a proteger contra los puntos ciegos.

Singhal, de OpenAI, dice que está firmemente a favor de la evaluación exte a. "Hacemos todo lo posible por apoyar a la comunidad", afirma. "Parte de la razón por la que lanzamos HealthBench fue, de hecho, para dar a la comunidad y a otros desarrolladores de modelos un ejemplo de cómo es una muy buena evaluación."

Dada la costosa producción de una evaluación de alta calidad, dice, se muestra escéptico de que cualquier laboratorio académico individual pudiera producir lo que él denomina "la evaluación única que los domine a todos". Pero sí elogia los esfuerzos que han hecho los grupos académicos para agrupar evaluaciones preexistentes y novedosas en suites de evaluación completas —como el framework MedHELM de Stanford, que prueba modelos en una amplia variedad de tareas médicas. Actualmente, GPT-5 de OpenAI ostenta la puntuación MedHELM más alta.

Nigam Shah, profesor de medicina en la Universidad de Stanford y director del proyecto MedHELM, afirma que este tiene limitaciones. Concretamente, solo evalúa respuestas individuales de los chatbots, pero alguien que busca consejo médico de una herramienta de chatbot podría entablar con ella una conversación interactiva de múltiples intercambios. Afirma que él y algunos colaboradores se están preparando para desarrollar una evaluación que pueda calificar esas conversaciones complejas, pero que esto requerirá tiempo y dinero. «Usted y yo no tenemos ninguna capacidad para impedir que estas empresas lancen [productos orientados a la salud], así que harán lo que les venga en gana», dice. «Lo único que gente como nosotros puede hacer es encontrar una forma de financiar el benchmark».

Ninguna de las personas entrevistadas para este artículo argumentó que los LLM de salud necesiten un rendimiento perfecto en evaluaciones de terceros para ser lanzados. Los propios médicos cometen errores—y para alguien que solo tiene acceso ocasional a un médico, un LLM constantemente accesible que a veces cometa errores podría seguir siendo una enorme mejora respecto al *statu quo*, siempre y cuando sus errores no sean demasiado graves.

Sin embargo, con el estado actual de la evidencia, es imposible saber con certeza si las herramientas actualmente disponibles constituyen de hecho una mejora, o si sus riesgos superan a sus beneficios.

“Pero”, añade, “la base de evidencia realmente tiene que estar presente.”

Puntos de inflexión

Pruebas médicas

Buscar en MIT Technology Review

Explorar Temas

Secciones

Existen más herramientas de salud con IA que nunca —pero ¿hasta qué punto funcionan?