Un estudio muestra que la ingeniería ágil mejora el cumplimiento de las directrices médicas por parte de la IA
En un estudio reciente publicado en la revista medicina digital npjun grupo de investigadores examinó la eficacia de la ingeniería rápida para mejorar la confiabilidad y la coherencia de los modelos de lenguaje grande (LLM) para alinearlos con las pautas clínicas en medicina basadas en evidencia.
Estancia: Ingeniería rápida para lograr coherencia y confiabilidad con pautas basadas en evidencia para LLM
fondo
MBA ha logrado avances significativos en el procesamiento del lenguaje natural (PNL), lo que se muestra prometedor para aplicaciones médicas como el diagnóstico y el cumplimiento de directrices. Sin embargo, su desempeño en el campo médico varía, especialmente en casos complejos y en la coherencia con las pautas, debido a la diferente precisión y confiabilidad. La ingeniería rápida, cuyo objetivo es mejorar las afirmaciones para obtener mejores respuestas de los MBA, parece ser una estrategia prometedora para mejorar su desempeño en contextos clínicos. Se necesita más investigación para mejorar la precisión y confiabilidad del LLM y su relevancia en entornos clínicos, apoyando la toma de decisiones clínicas y la atención al paciente.
Sobre el estudio
El estudio actual probó la coherencia de los LLM con las pautas basadas en evidencia para la osteoartritis (OA) de la Academia Estadounidense de Cirujanos Ortopédicos (AAOS), respaldadas por evidencia detallada y cobertura de tratamiento para la educación del paciente. AAOS, como la asociación mundial más grande de especialistas musculoesqueléticos, proporciona pautas de acceso abierto respaldadas por evidencia de investigación e incluye varias recomendaciones de manejo, lo que la convierte en un recurso confiable en este campo.
El estudio implementó cuatro tipos diferentes de estímulos: estimulación de entrada-salida (IO), estimulación de cadena de pensamiento cero (0-COT), estimulación de cadena de pensamiento (P-COT) y retorno al pensamiento ( ROT), con el objetivo de examinar el cumplimiento de los LLM con las pautas de la AAOS y la confiabilidad de sus respuestas, tras consultas repetidas. Estas indicaciones están diseñadas para facilitar a los LLM la generación de respuestas que se evaluarán de acuerdo con las recomendaciones de las pautas de la AAOS.
Se utilizaron nueve programas LLM diferentes, accesibles a través de interfaces web o interfaces de programación de aplicaciones (API), con ajustes realizados de acuerdo con los protocolos descritos en la plataforma OpenAI. El análisis estadístico se realizó utilizando SPSS y Python y se centró en medir la consistencia y confiabilidad de las respuestas del MBA. La coherencia estuvo determinada por los casos en los que las recomendaciones de los LLM coincidían exactamente con las directrices de la AAOS. Mientras tanto, la confiabilidad se midió por la frecuencia de respuestas a las mismas preguntas, que se evaluó mediante la prueba Fleiss Kappa.
Resultados
Los resultados del estudio actual destacaron el transformador generativo preentrenado (gpt)-4-Web como el modelo superior en términos de consistencia, exhibiendo tasas entre 50,6% y 63% en diferentes reclamaciones. Comparativamente, otros modelos como gpt-3.5-ft-0 y gpt-4-API-0 mostraron tasas de consistencia más bajas con reclamos específicos, observándose la mayor consistencia con reclamos ROT en gpt-4-Web. Esto indica que la integración de gpt-4-Web con la estimulación ROT se alinea de manera más efectiva con las pautas clínicas. Un análisis de diferentes modelos y afirmaciones reveló una amplia gama de tasas de coherencia: los modelos GPT-4 alcanzaron hasta el 62,9 % y los modelos GPT-3.5, incluidas las versiones optimizadas, alcanzaron hasta el 55,3 %. Los modelos de Bard mostraron un rango de consistencia del 19,4% al 44,1%, lo que indica una efectividad variable de las reclamaciones en los diferentes ciclos de LLM.
El análisis de subgrupos se realizó según la clasificación AAOS de niveles de recomendación desde fuerte hasta consenso. Este análisis tiene como objetivo investigar si la solidez de la evidencia afecta las tasas de consistencia. Se encontró que con niveles moderados de evidencia, no se observaron diferencias significativas en las tasas de consistencia dentro de gpt-4-Web. Sin embargo, surgieron diferencias notables con evidencia limitada, y los catalizadores ROT e IO superaron significativamente a P-COT en gpt-4-Web. A pesar de estos resultados, los niveles de consistencia en otros modelos generalmente se mantuvieron por debajo del 70%.
La evaluación de la confiabilidad mediante la prueba Fleiss Kappa varió ampliamente entre modelos y afirmaciones, con valores que oscilaron entre -0,002 y 0,984. Esta variabilidad indica diferentes niveles de redundancia en las respuestas a las mismas preguntas en todos los formularios y sugerencias. En particular, el indicador de E/S en gpt-3.5-ft-0 y gpt-3.5-API-0 mostró una confiabilidad casi perfecta, mientras que el indicador P-COT en gpt-4-API-0 mostró una gran confiabilidad. Sin embargo, la confiabilidad general de las otras afirmaciones y formularios fue moderada o inferior.
Los datos no válidos se clasifican y manejan de acuerdo con procedimientos específicos, y una parte importante de las respuestas a algunas indicaciones se consideran no válidas, especialmente en gpt-3.5-API-0. Esto contrasta con gpt-4-Web, que tuvo una tasa relativamente baja de respuestas no válidas.
Conclusiones
En resumen, el estudio destaca el impacto de la ingeniería rápida en la precisión de MBA en las respuestas clínicas, con especial referencia al rendimiento superior de gpt-4-Web al tiempo que requiere que ROT cumpla con las pautas clínicas de OA. Enfatiza la importancia de combinar ingeniería rápida, configuración de parámetros y ajustes para mejorar la utilidad de LLM en medicina clínica. Los hallazgos exigen una mayor exploración de estrategias de ingeniería rápida y el desarrollo de marcos de evaluación que involucren a profesionales de la salud y pacientes, con el objetivo de mejorar la efectividad y confiabilidad de LLM en entornos clínicos.