Modelos de lenguaje como GPT-4 y Llama 3 muestran limitaciones en su desempeño en escenarios médicos reales, según estudio de Oxford

TecnologíaInteligencia artificial

Modelos de lenguaje como GPT-4 y Llama 3 muestran limitaciones en su desempeño en escenarios médicos reales, según estudio de Oxford

Aunque sobresalen en exámenes médicos, los modelos de lenguaje enfrentan limitaciones en interacciones reales con pacientes, según un estudio de Oxford.

Descripción

Los grandes modelos de lenguaje como GPT-4o, Llama 3 y Command R+ han logrado resultados cercanos a la perfección en pruebas de conocimientos médicos, incluyendo la aprobación en exámenes similares a los de médicos en Estados Unidos, así como en tareas de resumen de historias clínicas y clasificación de síntomas. Sin embargo, un estudio reciente publicado en la revista Nature Medicine y realizado por investigadores de la Universidad de Oxford revela que estos avances no se traducen eficazmente en la interacción real con pacientes. La investigación, que reclutó a 1.298 participantes en Reino Unido, evaluó el desempeño de estos modelos en escenarios médicos cotidianos como dolores de cabeza intensos, dolor en el pecho durante el embarazo o diarrea con sangre, para determinar qué enfermedades presentaban y qué acciones deberían tomarse, como consultar a un médico, acudir a una sala de emergencias o llamar a una ambulancia.

Los resultados mostraron que, sin interacción con humanos, los modelos identificaban al menos una enfermedad relevante en el 94,9% de los casos. Además, tenían una precisión del 56,3% en las recomendaciones correctas para la acción a seguir. Sin embargo, cuando se involucró a personas reales consultando las respuestas de los modelos, estos valores cayeron significativamente: la identificación adecuada de enfermedades relevantes se redujo al 34,5%, y la precisión en las recomendaciones fue similar, alrededor del 43%, sin diferencias notables entre los grupos con o sin apoyo de la inteligencia artificial. En otras palabras, la interacción con usuarios humanos mostró que la fiabilidad de los modelos disminuye en escenarios clínicos reales.

Un análisis detallado de las conversaciones entre usuarios y modelos reveló dos problemas principales: los participantes suelen proporcionar información incompleta o incorrecta, y muchas personas interpretan erróneamente las respuestas de los chatbots, aunque estos puedan mencionar diagnósticos precisos en el 65–73% de los casos. La confianza en las respuestas de los modelos puede ser engañosa, ya que los sistemas pueden ofrecer diagnósticos erróneos con aparente seguridad y convicción, lo que podría inducir a errores peligrosos en la toma de decisiones médicas.

Por otro lado, los modelos superan en la mayoría de los casos las pruebas de conocimientos médicos (como el MedQA), pero su rendimiento en interacciones con humanos es mucho menor. Esto indica que no basta con responder correctamente a preguntas objetivas, sino que es crucial que estos sistemas gestionen eficazmente la comunicación, el reconocimiento de emergencias, la gestión de riesgos, los límites y la elaboración de anamnesis estructurada para realizar un triage confiable. Los expertos coinciden en que, para que los chatbots médicos sean seguros y útiles, deben estar diseñados con base en evidencia, ofrecer información actualizada, reconocer situaciones de emergencia y gestionar riesgos de manera adecuada.

Sin embargo, implementar estos modelos especializados presenta desafíos significativos, incluyendo la regulación, la responsabilidad legal, la protección de datos y la integración técnica en los sistemas de atención sanitaria. Los investigadores de Oxford concluyen que, antes de emplear estos sistemas a gran escala en el sector salud, es imprescindible someter estos chatbots a pruebas con usuarios reales, y no solo a exámenes o conversaciones simuladas. Asimismo, algunos expertos proponen que los chatbots certificados podrían ofrecerse a través de las aseguradoras y ser recomendados por los médicos en la consulta inicial, pero sin obligar a la ciudadanía a utilizarlos. En definitiva, aunque la inteligencia artificial muestra avances prometedores, todavía existe un largo camino para que estos sistemas puedan sustituir o complementar de manera segura y efectiva la atención médica humana.