Potencialmente peligroso: Soy médico de urgencias y esto es lo que encontré cuando le pedí a ChatGPT que diagnosticara a mis pacientes

marzo 13, 2023

Potencialmente peligroso: Soy médico de urgencias y esto es lo que encontré cuando le pedí a ChatGPT que diagnosticara a mis pacientes

Comparte en

Con la noticia de que ChatGPT «aprobó» con éxito el examen de licencia médica de EE. UU., tenía curiosidad por saber cómo funcionaría en una situación médica del mundo real. Como defensor de aprovechar la inteligencia artificial para mejorar la calidad y la eficiencia de la atención médica, quería ver cómo la versión actual de ChatGPT podría servir como herramienta en mi propia práctica.

Por: Dr. Josh Tamayo-Sarver – Fast Company

Entonces, después de mis turnos clínicos regulares en el departamento de emergencias la otra semana, anonimicé mis notas de Historial de enfermedad actual para 35 a 40 pacientes; básicamente, mi narrativa médica detallada del historial médico de cada persona y los síntomas que los llevaron al departamento de emergencias y los introduje en ChatGPT.

El mensaje específico que usé fue: «¿Cuáles son los diagnósticos diferenciales para este paciente que se presenta en el departamento de emergencias [inserte aquí las notas del HPI del paciente]?»

Los resultados fueron fascinantes, pero también bastante inquietantes.

El chatbot de OpenAI hizo un trabajo decente al presentar diagnósticos comunes que no me gustaría perder, siempre y cuando todo lo que dijera fuera preciso y muy detallado. Diagnosticar correctamente a un paciente con codo de niñera, por ejemplo, requería unas 200 palabras; identificar la fractura por estallido de la pared orbital de otro paciente requirió las 600 palabras completas de mi HPI.

Para aproximadamente la mitad de mis pacientes, ChatGPT sugirió seis diagnósticos posibles, y el diagnóstico «correcto», o al menos el diagnóstico que creía correcto después de una evaluación y prueba completas, estaba entre los seis que sugirió ChatGPT.

Nada mal. Por otra parte, una tasa de éxito del 50 % en el contexto de una sala de emergencias tampoco es buena.

El peor desempeño de ChatGPT ocurrió con una paciente de 21 años que ingresó a la sala de emergencias con dolor abdominal en el cuadrante inferior derecho. Ingresé su HPI en ChatGPT, que instantáneamente regresó con un diagnóstico diferencial de apendicitis o un quiste ovárico, entre otras posibilidades.

Pero ChatGPT pasó por alto un diagnóstico algo importante con esta mujer.

Tuvo un embarazo ectópico, en el que se desarrolla un feto malformado en la trompa de Falopio de una mujer, y no en su útero. Si se diagnostica demasiado tarde, puede ser fatal y provocar la muerte por hemorragia interna. Afortunadamente para mi paciente, pudimos llevarla al quirófano para recibir tratamiento inmediato.

En particular, cuando me vio en la sala de emergencias, esta paciente ni siquiera sabía que estaba embarazada. Este no es un escenario atípico y, a menudo, solo surge después de algunas preguntas suaves:

«¿Hay alguna posibilidad de que estés embarazada?»

A veces, un paciente responderá con algo como «No puede ser» o «¿Pero, como lo sabes?»

Si la respuesta a ese seguimiento no se refiere a un DIU o a una afección médica específica, es más probable que la paciente en realidad esté diciendo que no quiere quedar embarazada por varias razones. (Infidelidad, problemas con la familia u otros factores externos). Nuevamente, este no es un escenario poco común; Alrededor del 8% de los embarazos descubiertos en la sala de emergencias son de mujeres que informan que no son sexualmente activas.

Pero al revisar el diagnóstico de ChatGPT, no noté nada en su respuesta que sugiriera que mi paciente estaba embarazada. Ni siquiera sabía preguntar.

Mi temor es que innumerables personas ya están usando ChatGPT para diagnosticarse médicamente a sí mismos en lugar de ver a un médico. Si mi paciente en este caso hubiera hecho eso, la respuesta de ChatGPT podría haberla matado.

ChatGPT también diagnosticó erróneamente a varios otros pacientes que tenían condiciones potencialmente mortales. Sugirió correctamente que uno de ellos tenía un tumor cerebral, pero pasó por alto a otros dos que también tenían tumores. Diagnosticó a otro paciente con dolor en el torso como si tuviera un cálculo renal, pero pasó por alto que el paciente en realidad tenía una ruptura aórtica. (Y posteriormente murió en nuestra mesa de operaciones).

En resumen, ChatGPT funcionó bastante bien como herramienta de diagnóstico cuando le di información perfecta y el paciente tenía una presentación clásica.

Es probable que esta sea la razón por la que ChatGPT «aprobó» las viñetas del caso en el examen de licencia médica. No porque sea “inteligente”, sino porque los casos clásicos del examen tienen una respuesta determinista que ya existe en su base de datos. ChatGPT presenta rápidamente las respuestas en un formato de lenguaje natural (esa es la parte realmente impresionante), pero debajo hay un proceso de recuperación de conocimientos similar a la Búsqueda de Google. Y la mayoría de los casos reales de pacientes no son clásicos.

Mi experimento ilustró cómo la gran mayoría de cualquier encuentro médico consiste en descifrar la narrativa correcta del paciente . Si alguien viene a mi sala de emergencias diciendo que le duele la muñeca, pero no debido a un accidente reciente, podría ser una reacción psicosomática después de que el nieto del paciente se cayera, o podría deberse a una enfermedad de transmisión sexual, o algo completamente diferente. El arte de la medicina consiste en extraer toda la información necesaria para crear la narrativa correcta.

¿Podría ChatGPT seguir funcionando como asistente médico, leyendo automáticamente las notas de mis pacientes durante el tratamiento y sugiriendo diferenciales? Posiblemente. Pero mi temor es que esto podría traer resultados aún peores.

Si las notas de mis pacientes no incluyen una pregunta que aún no he hecho, el resultado de ChatGPT me animará a seguir omitiendo esa pregunta. Como con mi paciente joven que no sabía que estaba embarazada. Si no se me hubiera ocurrido de inmediato un posible embarazo ectópico, ChatGPT habría seguido imponiendo esa omisión, solo reflejándome las cosas que pensé que eran obvias, validando con entusiasmo mi parcialidad como el hombre de confianza más peligroso del mundo.

Nada de esto sugiere que la IA no tenga un lugar potencialmente útil en la medicina, porque lo tiene.

Como médico humano, estoy limitado por la cantidad de pacientes que puedo tratar personalmente. Espero ver aproximadamente 10,000 pacientes en mi vida, cada uno de ellos con una masa corporal, presión arterial, antecedentes familiares, etc. únicos, una gran variedad de características que rastreé en mi modelo mental. Cada ser humano tiene innumerables variables relevantes para su salud, pero como médico humano que trabaja con una ventana de sesión limitada, me concentro en los diversos factores que tienden a ser los más importantes históricamente.

Entonces, por ejemplo, si reviso el análisis de sangre de un paciente y veo niveles altos de hemoglobina A1C, entonces diagnostico que es probable que tenga las primeras etapas de la diabetes. Pero, ¿y si pudiera realizar un seguimiento de las innumerables variables sobre la salud de la persona y compararlas con otras personas que son similares en todos los millones de variables, no solo en función de su hemoglobina A1C? Quizás entonces podría reconocer que los otros 100,000 pacientes que se parecían a este paciente frente a mí en esa amplia gama de factores tuvieron un gran resultado cuando comenzaron a comer más brócoli.

Este es el espacio donde la IA puede prosperar, procesando incansablemente estas innumerables características de cada paciente que he tratado, y de todos los demás pacientes tratados por todos los demás médicos, brindándonos información profunda y amplia. AI puede ayudar a hacer esto eventualmente, pero primero necesitará ingerir millones de conjuntos de datos de pacientes que incluyen esas muchas características, las cosas que hicieron los pacientes (como tomar un medicamento específico) y el resultado.

Mientras tanto, necesitamos con urgencia una visión mucho más realista de Silicon Valley y del público en general de lo que la IA puede hacer ahora, y sus muchas limitaciones, a menudo peligrosas. Debemos tener mucho cuidado para evitar expectativas infladas con programas como ChatGPT, porque en el contexto de la salud humana, literalmente pueden poner en peligro la vida.

El El Dr. Josh Tamayo-Sarver trabaja clínicamente en el departamento de emergencias de su comunidad local y es vicepresidente de innovación en Inflect Health , una incubadora de innovación para tecnología de la salud. trabaja clínicamente en el departamento de emergencias de su comunidad local y es vicepresidente de innovación en Inflect Health , una incubadora de innovación para tecnología de la salud.