Künstliche Intelligenz in der medizinischen Diagnose

Die Nutzung von künstlicher Intelligenz (KI) in der medizinischen Beratung erfreut sich zunehmender Beliebtheit. Immer mehr Menschen konsultieren digitale Systeme wie ChatGPT oder spezialisierte Symptom-Checker-Apps, wenn sie Beschwerden verspüren oder sich über mögliche Krankheiten informieren möchten. Diese Entwicklung verspricht einen niederschwelligen Zugang zu medizinischem Wissen, birgt jedoch auch erhebliche Risiken, wie aktuelle Studien zeigen. Insbesondere der Vergleich zwischen großen Sprachmodellen und symptomfokussierten Anwendungen offenbart signifikante Unterschiede in der Qualität der Empfehlungen – mit potenziellen Auswirkungen auf die Effizienz und Belastung des Gesundheitssystems.

Die von Kopka et al. (2024) durchgeführten Studien beleuchten sowohl das Verhalten der KI-Systeme als auch ihren Einfluss auf die Entscheidungen medizinischer Laien. In einer umfassenden Analyse wurden große Sprachmodelle wie ChatGPT von OpenAI und Llama 2 von Meta sowie zwölf spezialisierte Symptom-Checker-Apps (beispielsweise Ada oder Healthwise) anhand realer Patientenvignetten getestet. Diese Vignetten umfassten sowohl ernsthafte Erkrankungen wie Krebs oder Hirnverletzungen als auch banale Beschwerden wie Muskelverspannungen oder Hautirritationen.

Das zentrale Ergebnis der Untersuchung ist ernüchternd für die Vertreter generativer KI in der Medizin: Während spezialisierte Symptom-Checker in vielen Fällen sinnvolle Einschätzungen lieferten und eine differenzierte Triage vornahmen, neigten Sprachmodelle wie ChatGPT systematisch zur Übertriage. Sie stuften nahezu jeden Fall als potenziell bedrohlich ein und empfahlen häufig den sofortigen Gang in die Notaufnahme – selbst bei harmlosen Symptomen. Diese systematische Überbewertung kann nicht nur unnötige Ängste schüren, sondern auch zu einer massiven Belastung medizinischer Einrichtungen führen.

In einem weiteren Studienschritt wurde untersucht, wie sich die KI-Einschätzungen auf die Entscheidungen von Laien auswirken. 600 Probanden wurden erneut mit realistischen Symptombeschreibungen konfrontiert, wobei sie in manchen Fällen zusätzlich Empfehlungen von ChatGPT oder der App Ada erhielten. Die Ergebnisse zeigen, dass Menschen sich nicht blind auf die KI verlassen, sondern sie als ergänzende Informationsquelle betrachten. Gleichwohl war der Einfluss auf die Entscheidungsqualität unterschiedlich: Während die Einschätzungen von ChatGPT zu keiner signifikanten Verbesserung führten (Trefferquote konstant bei 54 %), konnten Teilnehmer mithilfe der Ada-App ihre Entscheidungssicherheit deutlich steigern (Trefferquote auf 64,5 % erhöht).

Diese Resultate legen nahe, dass nicht jede Form von KI gleichermaßen zur Verbesserung der Selbstdiagnose beiträgt. Vielmehr ist die Genauigkeit der Systeme stark abhängig vom zugrunde liegenden Design und Anwendungszweck. Während große Sprachmodelle eher generalistische Textgeneratoren sind, zeichnen sich spezialisierte medizinische Apps durch strukturierte Entscheidungsbäume und evidenzbasierte Klassifikationen aus. Der Versuch, ChatGPT als universellen Gesundheitsberater zu etablieren, kann daher mehr schaden als nutzen, wenn er nicht durch eine fundierte medizinische Datenbasis und stringente Regularien ergänzt wird.

Darüber hinaus betont man, dass der Kontext der Fallvignetten eine entscheidende Rolle bei der Bewertung von KI-Systemen spielt. In ihrer Studie entwickelten die Forschenden das sogenannte RepVig-Framework, das realitätsnahe, von Nutzer:innen formulierte Symptomberichte als Bewertungsgrundlage verwendet – ein entscheidender Fortschritt gegenüber früheren methodischen Standards, die häufig stark abstrahierte und klinisch konstruierte Fälle nutzten. Dieses Vorgehen ergab, dass die Leistung sowohl von Laien als auch von KI-Systemen bei realitätsnahen Fallbeispielen signifikant besser war. Allerdings zeigte sich auch hier eine Tendenz zur Übertriage, insbesondere bei Sprachmodellen, was die Notwendigkeit einer gezielten Schulung und Kontrolle dieser Systeme unterstreicht.

KI-gestützte Beratungstools besitzen zwar ein wertvolles Potenzial zur Unterstützung von Laien bei der Ersteinschätzung gesundheitlicher Beschwerden, aber nur dann, wenn sie auf diesen Zweck spezialisiert und entsprechend kalibriert sind. Derzeit bieten große Sprachmodelle wie ChatGPT nicht die nötige diagnostische Differenzierung, um im Gesundheitskontext verlässlich zu agieren, sondern tragen durch übervorsichtige Empfehlungen zur Fehlsteuerung medizinischer Ressourcen be. Spezialisierte Symptom-Checker hingegen zeigen, dass eine KI-gestützte Entscheidungsfindung sinnvoll sein kann, insbesondere dann, wenn sie die Eigenverantwortung des Nutzers respektiert und evidenzbasierte Inhalte bereitstellt.

Literatur

Kopka, M., Napierala, H., Privoznik, M., Sapunova, D., Zhang, S. & Feufel, M. A. (2024). The RepVig framework for designing use-case specific representative vignettes and evaluating triage accuracy of laypeople and symptom assessment applications. Scientific Reports, 14, doi:10.1038/s41598-024-83844-z

Render and Diffuse

Menschen entwickeln beim Erlernen neuer manueller Fähigkeiten keine aufwendigen Berechnungen, um die erforderlichen Bewegungen ihrer Gliedmaßen zu ermitteln. Stattdessen stellen sie sich vor, wie ihre Hände sich bewegen müssen, um eine bestimmte Aufgabe effektiv auszuführen.

Forscher vom Imperial College London und dem Dyson Robot Learning Lab haben eine innovative Methode entwickelt, um Roboter effizienter und menschenähnlicher lernen zu lassen. Ihr Ansatz, „Render and Diffuse“ (R&D) genannt, zielt darauf ab, die Kluft zwischen hochdimensionalen Beobachtungen und niedrigdimensionalen robotischen Aktionen zu überbrücken, insbesondere wenn Datenmangel herrscht.

Ein wesentlicher Bestandteil dieser Methode ist die Nutzung virtueller Darstellungen eines 3D-Robotermodells. Indem niedrigdimensionale Aktionen im Beobachtungsraum visualisiert werden, konnte der Lernprozess deutlich vereinfacht werden. Ein Beispiel dafür ist das Herunterklappen eines Toilettendeckels – eine Aufgabe, die laut humorvoller Aussage von Frauen viele Männer nicht bewältigen können.

Diese Render and Diffuse-Methode ermöglicht es Robotern, etwas Ähnliches zu tun: Sie können ihre Aktionen innerhalb der virtuellen Darstellung ‚visualisieren‘, indem sie digitale Abbilder ihres eigenen Körpers verwenden.

Durch eine reduzierte Anzahl von Übungen lässt sich dasselbe Ergebnis erzielen, nämlich eine bessere Fähigkeit, das Gelernte in unterschiedlichen Situationen anzuwenden.

Literatur

Vosylius, Vitalis, Seo, Younggyo, Uruç, Jafar & James, Stephen (2024). Render and Diffuse: Aligning Image and Action Spaces for Diffusion-based Behaviour Cloning.

Wie KI-Modelle sich selbst verbessern

Overney (2023) hat untersucht, wie es einem KI-Modelle gelingt, sich selbst neue Dinge beizubringen, also neue Konzepte zu lernen, wenn sie mit ihren Benutzern interagieren. Dabei hat man einen möglichen Schlüsselmechanismus von Transformern aufgedeckt, der solche künstlichen System befähigt, im laufenden Betrieb zu lernen und ihre Antworten auf der Grundlage von Interaktionen mit ihren Nutzern zu verfeinern. Transformer sind dabei künstliche neuronale Netze mit einer besonderen Architektur, die von grossen Sprachmodellen wie ChatGPT verwendet werden. Während neuronale Netze im Allgemeinen als Black-box betrachtet werden, die bei einer Eingabe eine Ausgabe ausspucken, können Transformer von sich aus lernen, neue Algorithmen in ihre Architektur einzubauen. Man kann einem Sprachmodell wie ChatGPT etwa mehrere kurze Texte geben und jeweils angeben, ob die Texte grundsätzlich eine positive oder negative Grundstimmung haben. Dann legt man dem Modell einen Text vor, den es noch nicht gesehen hat, und es wird anhand der Beispiele, die man dem Modell gegeben hat, ziemlich sicher lernen und beurteilen, ob der neue Text positiv oder negativ ist. Aus dem Zwang heraus, die eigenen Vorhersagen zu verbessern, entwickelt es während des Trainings eine Technik, die es dem Modell ermöglicht, aus den Gesprächen mit seinen Nutzern zu lernen (In-Context-Learning). Der von Overney verwendete Transformer war dabei fast identisch mit der weit verbreiteten Transformer-Architektur, doch anstatt das System mit grossen Textmengen aus dem Internet zu trainieren, hatte man es mit Beispielen eines einfachen Problems trainiert, der linearen Regression. Da dieses Problem und seine Lösung sehr gut bekannt sind, konnte man diese Lösung mit dem vergleichen, was man im Transformer beobachtet hat. So konnte man zeigen, dass der Transformer einen sehr bekannten und leistungsstarken Lernalgorithmus namens „Gradient Descent“ in sich selbst implementiert hat, wobei der Transformer nicht einfach „Gradient Descent“ gelernt und durchgeführt hat, sondern eine verbesserte Version davon.

Literatur

Overney, J. (2023). Wie es KI-Modelle schaffen, sich selbst neue Dinge beizubringen.
WWW: https://ethz.ch/de/news-und-veranstaltungen/eth-news/news/2023/07/wie-es-ki-modelle-schaffen-sich-selbst-neue-dinge-beizubringen.html (23-07-24)

Können Maschinen Empathie lernen?

Empathie bezieht sich auf die Fähigkeit, die Emotionen, Gedanken und Gefühle anderer Menschen zu erkennen, zu verstehen und mit ihnen mitzufühlen, wobei es sich um eine komplexe kognitive Fähigkeit handelt, die bei Menschen auf biologischen und sozialen Grundlagen beruht. In Bezug auf Maschinen und künstliche Intelligenz (KI) ist Empathie ein noch komplexeres Thema, denn aktuelle KI-Systeme, wie Chatbots oder Spracherkennungssysteme, sind nicht in der Lage, echte Empathie zu empfinden, da sie keine eigenen Emotionen haben. Sie sind aber darauf programmiert, bestimmte Aufgaben zu erfüllen und auf bestimmte Eingaben zu reagieren, aber sie haben kein eigenes emotionales Verständnis oder Bewusstsein, auch wenn es manchmal scheint, dass solche Systeme Empathie oder Emotionen zeigen.

Jedoch gibt es Forschungsbereiche, in denen versucht wird, maschinelles Lernen und KI-Systeme mit einer gewissen Form von Empathie auszustatten, d. h., es geht dabei um die Entwicklung von Systemen, die menschliche Emotionen erkennen und darauf angemessen reagieren, um eine empathische Interaktion zu ermöglichen. Diese Ansätze basieren in der Regel auf der Verwendung von Algorithmen und Techniken des maschinellen Lernens, um Emotionen aus Gesichtsausdrücken, Körperhaltung, Sprachintonation und anderen Signalen zu erkennen. Diese Art von empathischen“Systemen kann zwar bestimmte Verhaltensweisen zeigen, die als empathisch angesehen werden könnten, aber sie besitzen kein eigenes emotionales Erleben, denn das wird immer Lebewesen viele Menschen vorbehalten bleiben. Es handelt sich also immer nur um eine Simulation von Empathie, die aufgrund der Analyse von Daten und Mustern erzeugt wird.

Auch ist die Frage, ob Maschinen jemals echte Empathie entwickeln können, eher ein Thema der philosophischen und wissenschaftlichen Debatte, wobei es unterschiedliche Ansichten dazu gibt, ob Empathie nur auf biologischer Grundlage existiert oder ob sie auch auf andere Arten von Systemen übertragen werden kann. Es bleibt abzuwarten, wie sich die Forschung in diesem Bereich entwickelt und ob es in Zukunft Fortschritte geben wird, die eine authentische Form von Empathie bei Maschinen ermöglichen, was aber wohl auf der Basis von grundsätzlichen Überlegungen nur eine Illusion sein kann, wobei solche Illusionen zutiefst menschlich sind 😉