Un chatbot multimodal impulsado por IA ofrece resultados mixtos en el análisis de imágenes visuales
Según un nuevo estudio transversal, la última versión del chatbot ChatGPT-4 impulsado por IA respondió con precisión a aproximadamente dos tercios de las preguntas de opción múltiple basadas en imágenes en un conjunto de datos disponible públicamente sobre afecciones oculares.1
Sin embargo, el modelo de lenguaje grande (LLM) respondió correctamente a las preguntas que no dependían de la interpretación de imágenes oculares (82%) que a las preguntas basadas en imágenes (65%). El chatbot se clasificó por especialidad, obteniendo el mejor rendimiento en casos de retina y el peor en casos de neurooftalmología.
El equipo de investigación dirigido por Rajeev H. Mooney, MD, MSc, Departamento de Oftalmología, St. Michael's Hospital, escribió: “Con la creciente prevalencia del MBA multimodal, sigue siendo necesario enfatizar continuamente su uso apropiado en medicina y resaltar las preocupaciones en torno a la confidencialidad. y ética de la ciencia.” Biología”. Unidad de Salud de Toronto.
La evidencia reciente ha señalado la naturaleza potencialmente transformadora de los chatbots basados en IA en medicina, especialmente en oftalmología, para aliviar la carga de los profesionales de la salud, desde la educación del paciente hasta el monitoreo remoto de enfermedades oculares.2 Sin embargo, como cualquier tecnología nueva, antes de tomar una decisión es necesario abordar el cumplimiento normativo, la privacidad y la integración de la IA en los sistemas sanitarios.
Investigaciones anteriores realizadas por Mooney y sus colegas encontraron que una versión anterior de ChatGPT-4, limitada a indicaciones de texto, mejoró su rendimiento a un ritmo impresionante en entornos médicos y oftalmológicos.3 Dado que la oftalmología se basa en la interpretación de imágenes multimodales para confirmar la precisión del diagnóstico, el equipo señala que esta nueva capacidad del chatbot para interpretar imágenes oftálmicas podría ser crucial para pasar a la siguiente etapa.1
«La nueva versión del chatbot tiene un gran potencial para mejorar la eficiencia de la interpretación de imágenes oftálmicas, lo que puede reducir la carga de trabajo de los médicos, mitigar la variabilidad en las interpretaciones y los errores y, en última instancia, mejorar los resultados de los pacientes», escribieron.
El análisis transversal utilizó datos disponibles públicamente de la plataforma de educación médica OCTCases ubicada en el Centro de Investigación de Canadá. Cada condición está organizada en retina, neurooftalmología, uveítis, glaucoma, oncología ocular y oftalmología pediátrica. Se examinaron para su análisis todas las preguntas de opción múltiple de todos los casos de oftalmología disponibles en la plataforma.
Mooney y sus colegas crearon una nueva cuenta ChatGPT Plus para confirmar que no había ningún historial de chat previo con el LLM antes de que comenzara el estudio. OpenAI, la organización matriz del chatbot, otorgó a la cuenta LLM capacidad multimodal, y todas las instancias e imágenes relevantes se ingresaron desde el 16 de octubre hasta octubre de 2023. La precisión del chatbot, medida como una proporción de respuestas correctas, se utilizó para el reconocimiento de imágenes, pt Final primario de análisis.
En general, el análisis consta de 136 casos con 448 imágenes que contienen OCTCases. De ellas, 429 tenían formato de preguntas de opción múltiple (82%) y se realizó análisis estadístico. En estos casos, 125 casos fueron acompañados de tomografías de coherencia óptica (OCT) (92%) y 82 casos fueron acompañados de fotografías del fondo de ojo (60%).
Después del análisis, Mooney y sus colegas descubrieron que ChatGPT-4 respondió correctamente 299 preguntas de opción múltiple en todas las condiciones oftálmicas (70%). LLM obtuvo el mejor desempeño en las preguntas sobre retina (77%) y el peor en la categoría de neurooftalmología (58%) (diferencia, 18%) [95% CI, 7.5–29.4]; s <.001).
Mostró un desempeño promedio en preguntas de otras especialidades oftalmológicas, incluidas las categorías de oncología ocular (72%), oftalmología pediátrica (68%), uveítis (67%) y glaucoma (61%).
De 303 preguntas de opción múltiple que requerían interpretación de imágenes, ChatGPT-4 respondió correctamente 196 preguntas (65%). Entre las 126 preguntas sin imágenes, la puntuación fue mayor, con 103 respuestas correctas (82%). En general, el chatbot obtuvo mejores resultados en preguntas sin imágenes (diferencia, 17%). [95% CI, 7.8 – 25.1]; s <.001), pero especialmente en el grupo de oftalmología pediátrica (diferencia, 47%) [95% CI, 8.5 - 69.0]; s = .02).
Mooney y sus colegas señalaron que los análisis futuros deberían centrarse en la capacidad del chatbot para interpretar diferentes modalidades de imágenes oculares, para ver cuándo llegan a ser tan precisas como los sistemas de aprendizaje automático específicos en oftalmología.
«A medida que la precisión del chatbot aumenta con el tiempo, puede desarrollar la capacidad de informar la toma de decisiones clínicas en oftalmología a través del análisis en tiempo real de casos oftálmicos», escribieron Mooney y sus colegas.
Referencias
- Mihalacci A, Huang RS, Popovich MM, et al. Precisión de la interpretación de imágenes oculares clínicas por chatbot de IA. Ojos gamma. Publicado en línea el 29 de febrero de 2024. doi:10.1001/jamaophthalmol.2024.0017
- Tan TF, Thirunavukkarasu AJ, Jin L, Lim J, Poh S, Teo ZL, Ang M, Chan RVP, Ong J, Turner A, Carlstrom J, Wong TY, Stern J, Ting DS. Inteligencia artificial y salud digital en la salud ocular global: oportunidades y desafíos. Lancet Globe Salud. 2023 septiembre;11(9):e1432-e1443. doi: 10.1016/S2214-109X(23)00323-6. PMID: 37591589.
- Iapoce C. Un chatbot de inteligencia artificial parece mejorar la evaluación de conocimientos relacionados con la oftalmología. HCP en vivo. 18 de julio de 2023. Consultado el 1 de marzo de 2024. https://www.hcplive.com/view/artificial-intelligence-chatbot-appears-improve-ophthalmic-knowledge-assessment.