Der Einfluss großer Sprachmodelle auf die diagnostische Urteilsfindung

Eine randomisierte klinische Studie [1] hat gezeigt, dass der Einsatz eines kommerziell verfügbaren LLM-Chatbots die diagnostische Urteilsfindung von Ärzten bei komplexen klinischen Fällen nicht verbessert hat, obwohl das LLM allein signifikant bessere Ergebnisse erzielte als die teilnehmenden Ärzte.
Dieses Ergebnis war über verschiedene Untergruppen von Ärzten (unterschiedliche Ausbildungsstufen und Erfahrungen mit dem Chatbot) hinweg konsistent. Die Studie legt nahe, dass der alleinige Zugang zu LLMs die diagnostische Urteilsfindung in der Praxis nicht verbessert, was besonders relevant ist, da viele Gesundheitssysteme solche Chatbots oft ohne ausreichende Schulung anbieten.

Es gab keine signifikanten Unterschiede im Zeitaufwand für die Falllösung. Die überlegene Leistung des LLM allein könnte auf die Sensitivität der Ergebnisse gegenüber der Formulierung der Prompts zurückzuführen sein. Schulungen für Kliniker im Prompting oder die Nutzung vordefinierter Prompts könnten die Leistung verbessern. Auch Anpassungen in der Interaktion zwischen LLM und Mensch, wie das Hervorheben nicht passender Merkmale, könnten die diagnostische Leistung steigern.

Die Autoren betonen, dass medizinische Ausbildungs- und Praxisrahmen überdacht werden müssen, um neue Technologien optimal zu nutzen. Die Ergebnisse bedeuten jedoch nicht, dass LLMs autonom zur Diagnose eingesetzt werden sollten; ärztliche Aufsicht bleibt unerlässlich. Die Studie verwendete kuratierte Fallvignetten, was nicht alle Aspekte der klinischen Urteilsfindung (z.B. Patientengespräch, Datenerhebung, Kontextverständnis) abbildet.

Ein neuartiger Beitrag der Studie ist die Entwicklung eines Bewertungsinstruments basierend auf strukturierter Reflexion, das eine gute Übereinstimmung zwischen Bewertern und interne Reliabilität zeigte. Dies stellt einen Fortschritt gegenüber früherer LLM-Forschung dar, die sich oft auf weniger klinisch relevante Benchmarks konzentrierte. Mit der zunehmenden Integration von KI in die Klinik wird eine zuverlässige Messung der diagnostischen Leistung mit realistischen Methoden immer wichtiger.

[1] Goh, E., Gallo, R., Hom, J., Strong, E., Weng, Y., Kerman, H., Cool, J. A., Kanjee, Z.,
Parsons, A. S., Ahuja, N., Horvitz, E., Yang, D., Milstein, A., Olson, A. P. J., Rodman,
A., and Chen, J. H. Large language model influence on diagnostic reasoning: A randomized clinical
trial. JAMA Network Open 7, 10 (10 2024), e2440969–e2440969.
https://doi.org/10.1001/jamanetworkopen.2024.40969