Adam Rodman, experto en medicina interna del Centro Médico Beth Israel Deaconess, de Boston, esperaba con confianza que los chatbots creados con inteligencia artificial ayudaran a los médicos a diagnosticar enfermedades. Se equivocaba.
En cambio, en un estudio que Rodman ayudó a diseñar, los médicos que recibieron ChatGPT-4 junto con los recursos convencionales obtuvieron resultados solo ligeramente mejores que quienes no tuvieron acceso al bot. Para sorpresa de los investigadores, ChatGPT por sí solo superó a los médicos. “Me quedé en shock”, dijo Rodman.
El chatbot, de la empresa OpenAI, obtuvo una puntuación media de 90 por ciento al diagnosticar una afección médica a partir de un informe de caso y explicar su razonamiento. Los médicos asignados al azar para utilizar el chatbot obtuvieron una puntuación media de 76 por ciento. Los que no lo utilizaron obtuvieron una puntuación media de 74 por ciento.
El estudio demostró algo más que el rendimiento superior del chatbot: puso de manifiesto que los médicos a veces creen inquebrantablemente en su diagnóstico, incluso cuando un chatbot sugiere uno mejor.
El estudio ilustró que, aunque los médicos están expuestos a las herramientas de la inteligencia artificial para su trabajo, pocos saben cómo explotar las capacidades de los chatbots. En consecuencia, no aprovecharon la capacidad de los sistemas de IA para resolver problemas de diagnóstico complejos y ofrecer explicaciones de sus diagnósticos.
Los sistemas de inteligencia artificial deberían ser “extensores de médicos”, dijo Rodman, que ofrezcan valiosas segundas opiniones sobre los diagnósticos, parece que queda camino por recorrer antes de que se aproveche ese potencial.
Metodología del análisis
En el experimento participaron 50 especialistas, una mezcla de residentes y médicos adjuntos reclutados a través de algunos grandes sistemas hospitalarios estadunidenses, y se publicó el mes pasado en la revista JAMA Network Open.
Los sujetos de la prueba recibieron seis historias clínicas y fueron calificados según su capacidad para sugerir diagnósticos y explicar sus razones. Las calificaciones también incluían acertar el diagnóstico final.
Los calificadores eran expertos médicos que solo veían las respuestas de los participantes, sin saber si eran de un médico con o sin ChatGPT o el robot por sí mismo.
Los casos utilizados en el estudio se basaban en pacientes reales y forman parte de un conjunto de 105 casos que los investigadores llevan utilizando desde la década de 1990. Intencionadamente, los casos nunca se han publicado para que los estudiantes de medicina y otras personas puedan someterse a pruebas con ellos sin ningún conocimiento previo. ChatGPT tampoco podría haberse entrenado con ellos.
Para ilustrar en qué consistía el estudio, los investigadores publicaron uno de los seis casos en los que se examinó a los médicos, junto con las respuestas a las preguntas de ese caso de un médico que obtuvo una puntuación alta y de otro cuya puntuación fue baja.
Ese caso de prueba se refería a un paciente de 76 años con fuertes dolores en la parte baja de la espalda, las nalgas y las pantorrillas cuando caminaba. El dolor empezó unos días después de que le hubieran tratado con una angioplastia con balón para ensanchar una arteria coronaria. Le habían tratado con heparina, un anticoagulante, durante 48 horas tras la intervención.
El hombre se quejaba de que se sentía febril y cansado. Su cardiólogo le hizo estudios de laboratorio que indicaban una nueva aparición de anemia y una acumulación de nitrógeno y otros productos de desecho renales en la sangre. El paciente se había sometido a una operación de bypass por cardiopatía una década antes.
La viñeta del caso continuaba, incluyendo detalles de la exploración física del hombre, y luego proporcionaba los resultados de sus pruebas de laboratorio.
El diagnóstico correcto era que tenía embolia de colesterol, una enfermedad en la que fragmentos de cristales de colesterol se desprenden de la placa de las arterias y obstruyen vasos sanguíneos.
Se pidió a los participantes tres posibles diagnósticos, con evidencias de apoyo para cada uno. También se les pidió que indicaran, para cada posible diagnóstico, los hallazgos que no lo apoyaban o que se esperaban pero no estaban presentes. Además, un diagnóstico final, y nombrar hasta tres pasos adicionales que darían en su proceso de diagnóstico.
Al igual que el diagnóstico del caso publicado, los diagnósticos de los otros cinco casos del estudio no eran fáciles de averiguar. Pero tampoco eran tan raros como para resultar casi inauditos. En promedio, los médicos lo hicieron peor que el chatbot.
¿Qué estaba pasando?, se preguntaron los investigadores. La respuesta parece girar en torno a cuestiones como la forma en que los médicos establecen un diagnóstico y la forma en que utilizan una herramienta como la inteligencia artificial.
El médico en la máquina
El problema, dijo Andrew Lea, historiador de la medicina del Hospital Brigham and Women’s, quien no participó en el estudio, “es que realmente no sabemos cómo piensan los médicos. Cuando describen cómo llegaron a un diagnóstico, suelen usar su intuición o se basan en su experiencia”.
Este tipo de ambigüedad ha desafiado a los investigadores por décadas, en su intento de crear programas informáticos capaces de pensar como un médico. La búsqueda comenzó hace casi 70 años.
“Desde que existen las computadoras, hay gente que intenta utilizarlas para hacer diagnósticos”, aseguró Lea.
Uno de los intentos más ambiciosos comenzó en la década de 1970 en la Universidad de Pittsburgh. Los informáticos reclutaron allí a Jack Myers, presidente del departamento de medicina interna de la facultad de medicina, quien era conocido como un maestro del diagnóstico. Tenía memoria fotográfica y pasaba 20 horas a la semana en la biblioteca médica, intentando aprender todo lo que se sabía en medicina.
Myers recibía detalles médicos de los casos y explicaba su razonamiento mientras reflexionaba sobre los diagnósticos; los informáticos convirtieron sus cadenas lógicas en código. El programa resultante, llamado Internist-1, incluía más de 500 enfermedades y unos 3 mil 500 síntomas de enfermedad.
Para probarlo, le dieron casos del New England Journal of Medicine. “La computadora lo hizo realmente bien —recordó Rodman—. Su rendimiento fue probablemente mejor de lo que podría hacerlo un humano”.
Pero Internist-1 nunca despegó. Era difícil de utilizar, y se necesitaba más de una hora para proporcionarle la información necesaria para hacer un diagnóstico. Y, señalaron sus creadores: “La forma actual del programa no es suficientemente fiable para aplicaciones clínicas”.
La investigación continuó. A mediados de los 90 había una media decena de programas informáticos que intentaban hacer diagnósticos médicos. Ninguno llegó a utilizarse de forma generalizada.
“No es solo que tuviera que ser fácil de usar, sino que los médicos tenían que confiar en él”, dijo Rodman. Y ante la incertidumbre sobre cómo piensan los médicos, los expertos empezaron a preguntarse si debería importarles. ¿Hasta qué punto es importante intentar diseñar programas informáticos que realicen diagnósticos del mismo modo que lo hacen los humanos?
“Hubo discusiones sobre hasta qué punto un programa informático debe imitar el razonamiento humano —compartió Lea—. ¿Por qué no le apostamos a las fortalezas de la computadora?”.
Puede que la computadora no sea capaz de dar una explicación clara de su vía de decisión, pero qué importa si acierta en el diagnóstico.
La conversación cambió con la llegada de grandes modelos de lenguaje como ChatGPT, que no hacen ningún intento explícito de replicar el pensamiento de un médico; su capacidad de diagnóstico procede de su habilidad para predecir el lenguaje.
“La interfaz de chat es la aplicación que cambia el juego —dijo Jonathan H. Chen, médico e informático de Stanford, y uno de los autores del nuevo estudio—. Podemos introducir un caso completo en la computadora. Antes de hace un par de años, las computadoras no entendían el lenguaje”.
Error del operador
Tras su sorpresa inicial por los resultados del nuevo estudio, Rodman decidió indagar un poco más en los datos y mirar los registros reales de los mensajes entre los médicos y ChatGPT. Los doctores debían haber visto los diagnósticos y razonamientos del chatbot, ¿por qué no les iba mejor a los que utilizaban el chatbot?
Resulta que a menudo los médicos no se dejaban convencer por el chatbot cuando señalaba algo que discrepaba de sus diagnósticos, y tendían a aferrarse a su propia idea del diagnóstico correcto.
“No escuchaban a la IA cuando esta les decía cosas con las que no estaban de acuerdo”, aseguró Rodman.
Esto tiene sentido, dijo Laura Zwaan, quien estudia el razonamiento clínico y los errores de diagnóstico en el Centro Médico Erasmus, en Rotterdam, y no participó en el estudio: “En general, la gente se confía demasiado cuando cree que tiene razón”, dijo.
Pero había otro problema: muchos de los médicos no sabían cómo utilizar un chatbot a su máximo potencial. Chen se dio cuenta de que, cuando echaba un vistazo a los registros de chat de los médicos, “lo trataban como un motor de búsqueda de preguntas dirigidas. Solo una parte de ellos se dio cuenta de que podía copiar y pegar literalmente todo el historial del caso en el chatbot y pedirle que diera una respuesta exhaustiva a toda la pregunta”, añadió Chen.
“Solo una fracción de los médicos vio realmente las respuestas sorprendentemente inteligentes y completas que el chatbot era capaz de producir”, expresó.
(milenio.com)