Skip to main content
El «Dr. Google» tuvo sus problemas. ¿ChatGPT Health puede funcionar mejor?

Durante las dos últimas décadas, había un primer paso claro para cualquiera que comenzara a experimentar nuevos síntomas médicos: buscarlos en Internet. La práctica se volvió tan común que ganó el apodo peyorativo de “Dr. Google”. Pero los tiempos están cambiando, y muchas personas que buscan información médica ahora utilizan modelos de lenguaje de gran tamaño (LLM, por sus siglas en inglés). Según OpenAI, 230 millones de personas realizan consultas relacionadas con la salud a ChatGPT cada semana. 

Ese es el contexto del lanzamiento del nuevo producto ChatGPT Health, que debutó a principios de enero. Llegó en un momento poco oportuno: dos días antes, el sitio de noticias SFGate había revelado la historia de Sam Nelson, un adolescente que murió por sobredosis el año pasado después de mantener extensas conversaciones con ChatGPT sobre cómo combinar diferentes drogas del “mejor” modo posible. A raíz de ambas noticias, varios periodistas cuestionaron la prudencia de depender de una herramienta que podría causar daños tan extremos al ofrecer consejos médicos. 

Aunque ChatGPT Health vive en una pestaña lateral separada del resto de ChatGPT, no se trata de un nuevo modelo. Es más bien una envoltura que proporciona a uno de los modelos ya existentes de OpenAI orientación y herramientas para ofrecer asesoramiento sanitario (incluidas algunas que le permiten acceder a la historia clínica electrónica de un usuario o a los datos de sus aplicaciones de actividad física, si este concede el permiso). No cabe duda de que ChatGPT y otros modelos de lenguaje de gran tamaño pueden cometer errores médicos, y OpenAI subraya que ChatGPT Health está pensado como un apoyo adicional, no como un sustituto del médico. Pero cuando los profesionales sanitarios no están disponibles o no pueden ayudar, la gente busca alternativas.

Algunos médicos consideran que los LLM son una bendición para la alfabetización médica. El paciente promedio puede tener dificultades para navegar por el vasto panorama de información sanitaria disponible en línea y, en particular, para distinguir fuentes de alta calidad de páginas web muy pulidas pero de dudosa veracidad; pero los LLM pueden hacer ese trabajo por ellos, al menos en teoría. Tratar a pacientes que habían buscado sus síntomas en Google requería “mucho de combatir la ansiedad del paciente [y] de reducir la desinformación”, afirma Marc Succi, profesor asociado en Harvard Medical School e investigador y radiólogo en ejercicio. Pero ahora, señala, “ves a pacientes con formación universitaria o de secundaria haciendo preguntas del nivel de lo que preguntaría un estudiante de medicina en sus primeros años”. 

El lanzamiento de ChatGPT Health y el posterior anuncio de Anthropic sobre nuevas integraciones sanitarias para Claude indican que los gigantes de la IA están cada vez más dispuestos a reconocer y fomentar los usos relacionados con la salud de sus modelos. Tales usos conllevan, sin duda, riesgos, dado que los LLM tienen bien documentada su tendencia a estar de acuerdo con los usuarios y a inventarse información en lugar de admitir que no saben algo. 

Pero esos riesgos también deben sopesarse frente a los posibles beneficios. Aquí existe una analogía con los vehículos autónomos: cuando los responsables políticos consideran si permitir la circulación de Waymo en su ciudad, la métrica clave no es si sus coches se ven implicados en accidentes, sino si causan menos daños que el statu quo de depender de conductores humanos. Si el “Dr. ChatGPT” es una mejora con respecto al “Dr. Google” (y las primeras evidencias apuntan a que podría serlo), es posible que reduzca la enorme carga de desinformación médica y ansiedad innecesaria que internet ha generado. 

Determinar la eficacia de un chatbot como ChatGPT o Claude para la salud del consumidor, sin embargo, es complicado. “Es extremadamente difícil evaluar un chatbot de propósito abierto”, afirma Danielle Bitterman, responsable clínica de ciencia de datos e IA en el sistema sanitario Mass General Brigham (Massachusetts, EE. UU.). Los modelos de lenguaje de gran tamaño obtienen buenos resultados en los exámenes de licencia médica, pero esos exámenes se basan en preguntas de opción múltiple que no reflejan el modo en que la gente utiliza los chatbots para buscar información sanitaria 

Sirisha Rambhatla, profesora asistente de ciencias de la gestión e ingeniería en la Universidad de Waterloo (Ontario, Canadá), trató de cerrar esa brecha evaluando cómo respondía GPT‑4 a preguntas de examen de licencia cuando no tenía acceso a la lista de posibles respuestas. Los expertos médicos que evaluaron esas respuestas consideraron que solo alrededor de la mitad eran completamente correctas. Pero las preguntas de opción múltiple están diseñadas para ser lo bastante complejas como para que las opciones no revelen la respuesta por sí solas, y aun así siguen siendo una aproximación bastante lejana a lo que un usuario escribiría en ChatGPT. 

Otro estudio, que probó GPT‑4o con indicaciones más realistas enviadas por voluntarios humanos, descubrió que respondía correctamente a preguntas médicas aproximadamente el 85 % de las veces. Cuando hablé con Amulya Yadav, profesor asociado en la Universidad Estatal de Pensilvania (Pensilvania, EE. UU.), director del Responsible AI for Social Emancipation Lab y autor principal del estudio, dejó claro que él, personalmente, no es partidario de los LLM orientados directamente a los pacientes. Pero admite abiertamente que, desde un punto de vista técnico, parecen estar a la altura: después de todo, señala, los médicos humanos diagnostican erróneamente entre el 10 % y el 15 % de los casos. “Si lo observo sin emociones, parece que el mundo va a cambiar, me guste o no”, afirma. 

Para quienes buscan información médica en línea, dice Yadav, los LLM sí parecen ser una mejor opción que Google. Succi, el radiólogo, también concluyó que los LLM pueden ser una alternativa superior a la búsqueda web cuando comparó las respuestas de GPT‑4 a preguntas sobre afecciones médicas crónicas comunes con la información presentada en el ‘knowledge panel’ de Google, el recuadro informativo que a veces aparece en el lado derecho de los resultados. 

Desde que los estudios de Yadav y Succi aparecieron en línea, en la primera mitad de 2025, OpenAI ha lanzado múltiples nuevas versiones de GPT, y es razonable esperar que GPT‑5.2 se desempeñe aún mejor que sus predecesores. No obstante, los estudios presentan limitaciones importantes: se centran en preguntas directas y factuales, y examinan únicamente interacciones breves entre usuarios y chatbots o herramientas de búsqueda web. Algunas de las debilidades de los LLM (sobre todo su zalamería y su tendencia a alucinar) podrían aflorar con mayor probabilidad en conversaciones más extensas y con personas que afrontan problemas más complejos. Reeva Lederman, profesora de la Universidad de Melbourne (Victoria, Australia) especializada en tecnología y salud, señala que los pacientes que no aceptan el diagnóstico o las recomendaciones de tratamiento de un médico podrían buscar otra opinión en un LLM, y este, si es zalamero, podría animarlos a rechazar el consejo médico. 

Algunos estudios han comprobado que los LLM alucinan y exhiben zalamería en respuesta a indicaciones relacionadas con la salud. Por ejemplo, un estudio mostró que GPT‑4 y GPT‑4o aceptaban sin problemas información farmacológica incorrecta incluida en la pregunta de un usuario y seguían construyendo sobre ella. En otro, GPT‑4o inventaba con frecuencia definiciones para síndromes y pruebas de laboratorio ficticios mencionados en la consulta. Dada la abundancia de diagnósticos y tratamientos médicamente dudosos que circulan por internet, estos patrones de comportamiento podrían contribuir a la difusión de desinformación médica, especialmente si la gente percibe a los LLM como herramientas fiables. 

OpenAI ha informado de que la serie de modelos GPT‑5 es marcadamente menos zalamera y menos propensa a alucinaciones que sus predecesoras, por lo que los resultados de estos estudios podrían no aplicarse a ChatGPT Health. La empresa también evaluó el modelo que impulsa ChatGPT Health según sus respuestas a preguntas específicas de salud utilizando su benchmark público HealthBench. HealthBench recompensa a los modelos que expresan incertidumbre cuando corresponde, recomiendan al usuario buscar atención médica cuando es necesario y evitan causar estrés innecesario al sugerir que su afección es más grave de lo que realmente es. Es razonable suponer que el modelo subyacente a ChatGPT Health mostró dichos comportamientos en las pruebas, aunque Bitterman señala que parte de las indicaciones de HealthBench fueron generadas por LLM, no por usuarios, lo que podría limitar su traslado al mundo real. 

Un LLM que evita el alarmismo parece claramente una mejora frente a sistemas que llevan a la gente a convencerse de que tiene cáncer después de unos pocos minutos navegando. Y a medida que los modelos de lenguaje de gran tamaño y los productos construidos sobre ellos, continúan desarrollándose, cualquier ventaja del “Dr. ChatGPT” sobre el “Dr. Google” probablemente crecerá. La introducción de ChatGPT Health es sin duda un paso en esa dirección: al revisar tu historial médico, ChatGPT puede obtener mucha más información contextual sobre tu situación sanitaria específica de la que podría captarse en cualquier búsqueda de Google, aunque numerosos expertos han advertido en contra de ofrecer a ChatGPT ese acceso por motivos de privacidad. 

Incluso si ChatGPT Health y otras herramientas nuevas representan una mejora significativa respecto a las búsquedas en Google, aún podrían tener un impacto negativo en la salud general. De modo similar a cómo los vehículos autónomos, incluso si son más seguros que los coches conducidos por humanos, podrían resultar un perjuicio neto si fomentan un menor uso del transporte público, los LLM podrían perjudicar la salud de los usuarios si inducen a las personas a depender de internet en lugar de médicos reales, aunque incrementen la calidad de la información sanitaria disponible en línea. 

Lederman sostiene que este resultado es plausible. En su investigación, ha observado que los miembros de comunidades en línea centradas en la salud tienden a confiar en usuarios que se expresan bien, independientemente de la validez de la información que comparten. Como ChatGPT se comunica como una persona articulada, algunas personas podrían confiar demasiado en él, incluso hasta el punto de relegar la opinión de su médico. Pero los LLM ciertamente no son un sustituto de un médico humano (al menos por ahora).