Die Nutzung von künstlicher Intelligenz (KI) in der medizinischen Beratung erfreut sich zunehmender Beliebtheit. Immer mehr Menschen konsultieren digitale Systeme wie ChatGPT oder spezialisierte Symptom-Checker-Apps, wenn sie Beschwerden verspüren oder sich über mögliche Krankheiten informieren möchten. Diese Entwicklung verspricht einen niederschwelligen Zugang zu medizinischem Wissen, birgt jedoch auch erhebliche Risiken, wie aktuelle Studien zeigen. Insbesondere der Vergleich zwischen großen Sprachmodellen und symptomfokussierten Anwendungen offenbart signifikante Unterschiede in der Qualität der Empfehlungen – mit potenziellen Auswirkungen auf die Effizienz und Belastung des Gesundheitssystems.
Die von Kopka et al. (2024) durchgeführten Studien beleuchten sowohl das Verhalten der KI-Systeme als auch ihren Einfluss auf die Entscheidungen medizinischer Laien. In einer umfassenden Analyse wurden große Sprachmodelle wie ChatGPT von OpenAI und Llama 2 von Meta sowie zwölf spezialisierte Symptom-Checker-Apps (beispielsweise Ada oder Healthwise) anhand realer Patientenvignetten getestet. Diese Vignetten umfassten sowohl ernsthafte Erkrankungen wie Krebs oder Hirnverletzungen als auch banale Beschwerden wie Muskelverspannungen oder Hautirritationen.
Das zentrale Ergebnis der Untersuchung ist ernüchternd für die Vertreter generativer KI in der Medizin: Während spezialisierte Symptom-Checker in vielen Fällen sinnvolle Einschätzungen lieferten und eine differenzierte Triage vornahmen, neigten Sprachmodelle wie ChatGPT systematisch zur Übertriage. Sie stuften nahezu jeden Fall als potenziell bedrohlich ein und empfahlen häufig den sofortigen Gang in die Notaufnahme – selbst bei harmlosen Symptomen. Diese systematische Überbewertung kann nicht nur unnötige Ängste schüren, sondern auch zu einer massiven Belastung medizinischer Einrichtungen führen.
In einem weiteren Studienschritt wurde untersucht, wie sich die KI-Einschätzungen auf die Entscheidungen von Laien auswirken. 600 Probanden wurden erneut mit realistischen Symptombeschreibungen konfrontiert, wobei sie in manchen Fällen zusätzlich Empfehlungen von ChatGPT oder der App Ada erhielten. Die Ergebnisse zeigen, dass Menschen sich nicht blind auf die KI verlassen, sondern sie als ergänzende Informationsquelle betrachten. Gleichwohl war der Einfluss auf die Entscheidungsqualität unterschiedlich: Während die Einschätzungen von ChatGPT zu keiner signifikanten Verbesserung führten (Trefferquote konstant bei 54 %), konnten Teilnehmer mithilfe der Ada-App ihre Entscheidungssicherheit deutlich steigern (Trefferquote auf 64,5 % erhöht).
Diese Resultate legen nahe, dass nicht jede Form von KI gleichermaßen zur Verbesserung der Selbstdiagnose beiträgt. Vielmehr ist die Genauigkeit der Systeme stark abhängig vom zugrunde liegenden Design und Anwendungszweck. Während große Sprachmodelle eher generalistische Textgeneratoren sind, zeichnen sich spezialisierte medizinische Apps durch strukturierte Entscheidungsbäume und evidenzbasierte Klassifikationen aus. Der Versuch, ChatGPT als universellen Gesundheitsberater zu etablieren, kann daher mehr schaden als nutzen, wenn er nicht durch eine fundierte medizinische Datenbasis und stringente Regularien ergänzt wird.
Darüber hinaus betont man, dass der Kontext der Fallvignetten eine entscheidende Rolle bei der Bewertung von KI-Systemen spielt. In ihrer Studie entwickelten die Forschenden das sogenannte RepVig-Framework, das realitätsnahe, von Nutzer:innen formulierte Symptomberichte als Bewertungsgrundlage verwendet – ein entscheidender Fortschritt gegenüber früheren methodischen Standards, die häufig stark abstrahierte und klinisch konstruierte Fälle nutzten. Dieses Vorgehen ergab, dass die Leistung sowohl von Laien als auch von KI-Systemen bei realitätsnahen Fallbeispielen signifikant besser war. Allerdings zeigte sich auch hier eine Tendenz zur Übertriage, insbesondere bei Sprachmodellen, was die Notwendigkeit einer gezielten Schulung und Kontrolle dieser Systeme unterstreicht.
KI-gestützte Beratungstools besitzen zwar ein wertvolles Potenzial zur Unterstützung von Laien bei der Ersteinschätzung gesundheitlicher Beschwerden, aber nur dann, wenn sie auf diesen Zweck spezialisiert und entsprechend kalibriert sind. Derzeit bieten große Sprachmodelle wie ChatGPT nicht die nötige diagnostische Differenzierung, um im Gesundheitskontext verlässlich zu agieren, sondern tragen durch übervorsichtige Empfehlungen zur Fehlsteuerung medizinischer Ressourcen be. Spezialisierte Symptom-Checker hingegen zeigen, dass eine KI-gestützte Entscheidungsfindung sinnvoll sein kann, insbesondere dann, wenn sie die Eigenverantwortung des Nutzers respektiert und evidenzbasierte Inhalte bereitstellt.
Literatur
Kopka, M., Napierala, H., Privoznik, M., Sapunova, D., Zhang, S. & Feufel, M. A. (2024). The RepVig framework for designing use-case specific representative vignettes and evaluating triage accuracy of laypeople and symptom assessment applications. Scientific Reports, 14, doi:10.1038/s41598-024-83844-z