Die Überzeugungskraft von KI-Sprachmodellen im Vergleich zu menschlichen Interaktionen.

In einer Untersuchung von Salvi et al. (2025) wird deutlich, dass Chatbots nicht nur Informationen bereitstellen, sondern auch in der Lage sind, zu argumentieren und dabei potenziell manipulativer als Menschen zu agieren. Diese aktuelle Studie zeigt, dass ChatGPT in etwa 64 Prozent der Fälle überzeugender war als eine reale Person, wenn der Bot mit persönlichen Informationen des Gesprächspartners gefüttert wurde.

Diese Ergebnisse verdeutlichen die Effektivität von sogenannten Large Language Models (LLMs) bei der Formulierung maßgeschneiderter Argumente, was, wie im Text erwähnt, Risiken bergen kann, beispielsweise bei der Verbreitung von Propaganda. Die Studie umfasste 900 Testpersonen, die über soziale Themen diskutierten, darunter die Frage nach Schuluniformen. Nach einer anfänglichen Online-Umfrage zur Meinungsbildung kommunizierten die Teilnehmer entweder mit einem echten Menschen oder einem Chatbot, ohne die Identität ihres Gesprächspartners zu kennen. Nach zehnminütigen Debatten wurde die Veränderung der Meinungen der Probanden erfasst. Es zeigte sich, dass ChatGPT mindestens so erfolgreich war wie ein Mensch darin, die Testpersonen umzustimmen.

Die „Macht der individualisierten Überzeugungsarbeit“ wird besonders hervorgehoben, da die Überzeugungskraft von ChatGPT signifikant anstieg, als das Forschungsteam den Bot mit zusätzlichen persönlichen Informationen wie Alter, Geschlecht, Beruf oder politischer Überzeugung der Testpersonen fütterte. In diesen Fällen übertraf der Bot seinen menschlichen Gegenspieler in 64 Prozent der Fälle, selbst wenn dieser dieselben Informationen besaß. Die Wissenschaftler betonen in ihrer Studie die „Macht der LLM-basierten Überzeugungsarbeit“ und fordern weitere Forschung, um die damit verbundenen Risiken zu minimieren.

Frühere Analysen haben bereits die manipulative Kapazität von Chatbots aufgezeigt, darunter ihre Fähigkeit, Psychotests zu „knacken“, moralische Entscheidungen zu beeinflussen oder sogar Verschwörungstheoretiker von ihren Überzeugungen abzubringen. Diese Studien deuten darauf hin, dass die Fähigkeit von LLMs, überzeugende und personalisierte Argumente zu liefern, weitreichende Implikationen für die Online-Kommunikation und darüber hinaus haben könnte, was die Notwendigkeit einer verantwortungsvollen Entwicklung und Regulierung dieser Technologien unterstreicht.

Literatur

Salvi, F., Horta Ribeiro, M., Gallotti, R., & West, R. (2025). On the conversational persuasiveness of GPT-4. Nature Human Behaviour.
Stangl, W. (2025, 24. Mai). Die Überzeugungskraft künstlicher Intelligenz. Stangl notiert ….
https://notiert.stangl-taller.at/kuenstliche-intelligenz/die-ueberzeugungskraft-kuenstlicher-intelligenz/.

Yogi, der niedliche Roboter

Cartwheel Robotics entwickelt soziale, humanoide Roboter mit niedlichem Aussehen und starker Persönlichkeit, die Menschen Gesellschaft leisten und einfache Aufgaben übernehmen sollen.

Der erste Prototyp „Yogi“ erinnert mit seinen kindlichen Proportionen an eine sympathische Figur, während der einfachere Roboter „Speedy“ schneller marktreif sein soll.

Gründer Scott LaValley bringt Erfahrung von Boston Dynamics und Disney mit und setzt auf Künstliche Intelligenz für emotionale Interaktion. Die Roboter sollen bezahlbar bleiben und könnten als Service angeboten werden. Anfangs sind sie vor allem für soziale Interaktion gedacht, langfristig könnten sie mehr Aufgaben übernehmen.

Gute-Nacht-Geschichte einer KI

Als Papabär ins Zimmer kam, saß Bärchenklein aufrecht in seinem Bett, spielte mit dem Globus und dachte gar nicht erst daran, zu schlafen. Schließlich gab es so viel zu entdecken.

„Papabär“, sagte Bärchenklein, „welches ist dein Lieblingsland?“ Papabär hielt kurz inne. „Mein Lieblingsland?“, fragte er. „In meinem Lieblingsland fließen bunte Flüsse, die Elefanten fliegen durch die Luft und die Fische tauchen durch die Wolken.“ Bärchenkleins Augen wurden groß. „Die Bäume sind aus Zuckerwatte, das Gras schmeckt nach Lakritze und die Blumen funkeln gold und silber.“ Ob es auch Honig gäbe, wollte Bärchenklein wissen. „Der Honig dort schmeckt süßer als jeder andere Honig“, sagte Papabär. Er nahm den Globus von Bärchenkleins Bett und stellte ihn zur Seite. „Und wenn man genug vom Honig hat, dann laden einen die Bienen in ihre Häuschen ein, man trinkt gemeinsam eine Tasse Tee, erzählt sich Geschichten und lacht über Witze, bis einem der Bauch wehtut.“

Bärchenklein wollte unbedingt noch mehr wissen über dieses Land. „Es ist nie kalt dort. Und nie zu warm. Die Regentropfen haben lustige Gesichter. Die Sonnenstrahlen singen Lieder. Und der Wind fordert dich zum Tanzen auf.“ „Wow“, sagte Bärchenklein. „Und weißt du, was das Beste ist? Alle deine Freunde sind auch da, sogar solche, die du noch nicht kennst.“

„Welches Land ist das denn?“, fragte Bärchenklein, der von der Geschichte ganz müde geworden war. „Ganz einfach“, sagte Papabär, als er das Licht ausmachte. „Das Land der Träume.“

Gute Nacht.

Künstliche Intelligenz in der medizinischen Diagnose

Die Nutzung von künstlicher Intelligenz (KI) in der medizinischen Beratung erfreut sich zunehmender Beliebtheit. Immer mehr Menschen konsultieren digitale Systeme wie ChatGPT oder spezialisierte Symptom-Checker-Apps, wenn sie Beschwerden verspüren oder sich über mögliche Krankheiten informieren möchten. Diese Entwicklung verspricht einen niederschwelligen Zugang zu medizinischem Wissen, birgt jedoch auch erhebliche Risiken, wie aktuelle Studien zeigen. Insbesondere der Vergleich zwischen großen Sprachmodellen und symptomfokussierten Anwendungen offenbart signifikante Unterschiede in der Qualität der Empfehlungen – mit potenziellen Auswirkungen auf die Effizienz und Belastung des Gesundheitssystems.

Die von Kopka et al. (2024) durchgeführten Studien beleuchten sowohl das Verhalten der KI-Systeme als auch ihren Einfluss auf die Entscheidungen medizinischer Laien. In einer umfassenden Analyse wurden große Sprachmodelle wie ChatGPT von OpenAI und Llama 2 von Meta sowie zwölf spezialisierte Symptom-Checker-Apps (beispielsweise Ada oder Healthwise) anhand realer Patientenvignetten getestet. Diese Vignetten umfassten sowohl ernsthafte Erkrankungen wie Krebs oder Hirnverletzungen als auch banale Beschwerden wie Muskelverspannungen oder Hautirritationen.

Das zentrale Ergebnis der Untersuchung ist ernüchternd für die Vertreter generativer KI in der Medizin: Während spezialisierte Symptom-Checker in vielen Fällen sinnvolle Einschätzungen lieferten und eine differenzierte Triage vornahmen, neigten Sprachmodelle wie ChatGPT systematisch zur Übertriage. Sie stuften nahezu jeden Fall als potenziell bedrohlich ein und empfahlen häufig den sofortigen Gang in die Notaufnahme – selbst bei harmlosen Symptomen. Diese systematische Überbewertung kann nicht nur unnötige Ängste schüren, sondern auch zu einer massiven Belastung medizinischer Einrichtungen führen.

In einem weiteren Studienschritt wurde untersucht, wie sich die KI-Einschätzungen auf die Entscheidungen von Laien auswirken. 600 Probanden wurden erneut mit realistischen Symptombeschreibungen konfrontiert, wobei sie in manchen Fällen zusätzlich Empfehlungen von ChatGPT oder der App Ada erhielten. Die Ergebnisse zeigen, dass Menschen sich nicht blind auf die KI verlassen, sondern sie als ergänzende Informationsquelle betrachten. Gleichwohl war der Einfluss auf die Entscheidungsqualität unterschiedlich: Während die Einschätzungen von ChatGPT zu keiner signifikanten Verbesserung führten (Trefferquote konstant bei 54 %), konnten Teilnehmer mithilfe der Ada-App ihre Entscheidungssicherheit deutlich steigern (Trefferquote auf 64,5 % erhöht).

Diese Resultate legen nahe, dass nicht jede Form von KI gleichermaßen zur Verbesserung der Selbstdiagnose beiträgt. Vielmehr ist die Genauigkeit der Systeme stark abhängig vom zugrunde liegenden Design und Anwendungszweck. Während große Sprachmodelle eher generalistische Textgeneratoren sind, zeichnen sich spezialisierte medizinische Apps durch strukturierte Entscheidungsbäume und evidenzbasierte Klassifikationen aus. Der Versuch, ChatGPT als universellen Gesundheitsberater zu etablieren, kann daher mehr schaden als nutzen, wenn er nicht durch eine fundierte medizinische Datenbasis und stringente Regularien ergänzt wird.

Darüber hinaus betont man, dass der Kontext der Fallvignetten eine entscheidende Rolle bei der Bewertung von KI-Systemen spielt. In ihrer Studie entwickelten die Forschenden das sogenannte RepVig-Framework, das realitätsnahe, von Nutzer:innen formulierte Symptomberichte als Bewertungsgrundlage verwendet – ein entscheidender Fortschritt gegenüber früheren methodischen Standards, die häufig stark abstrahierte und klinisch konstruierte Fälle nutzten. Dieses Vorgehen ergab, dass die Leistung sowohl von Laien als auch von KI-Systemen bei realitätsnahen Fallbeispielen signifikant besser war. Allerdings zeigte sich auch hier eine Tendenz zur Übertriage, insbesondere bei Sprachmodellen, was die Notwendigkeit einer gezielten Schulung und Kontrolle dieser Systeme unterstreicht.

KI-gestützte Beratungstools besitzen zwar ein wertvolles Potenzial zur Unterstützung von Laien bei der Ersteinschätzung gesundheitlicher Beschwerden, aber nur dann, wenn sie auf diesen Zweck spezialisiert und entsprechend kalibriert sind. Derzeit bieten große Sprachmodelle wie ChatGPT nicht die nötige diagnostische Differenzierung, um im Gesundheitskontext verlässlich zu agieren, sondern tragen durch übervorsichtige Empfehlungen zur Fehlsteuerung medizinischer Ressourcen be. Spezialisierte Symptom-Checker hingegen zeigen, dass eine KI-gestützte Entscheidungsfindung sinnvoll sein kann, insbesondere dann, wenn sie die Eigenverantwortung des Nutzers respektiert und evidenzbasierte Inhalte bereitstellt.

Literatur

Kopka, M., Napierala, H., Privoznik, M., Sapunova, D., Zhang, S. & Feufel, M. A. (2024). The RepVig framework for designing use-case specific representative vignettes and evaluating triage accuracy of laypeople and symptom assessment applications. Scientific Reports, 14, doi:10.1038/s41598-024-83844-z