Universität Oxford: KI-Chatbots liefern oft falsche Diagnosen bei Notfällen

Wissen

Gefahr für Patienten?Studie: KI bei Diagnosen schlechter als gedacht

11.02.2026, 10:51 Uhr

Folgen auf:

Bei akuten Beschwerden vertrauen viele auf KI-Chatbots als medizinische Ratgeber. Eine Untersuchung der Universität Oxford offenbart nun deren erstaunlich schlechte Leistung. Die Systeme schneiden dabei nicht besser ab als eine herkömmliche Internet-Suche.

Ein stechender Schmerz, eine schlaflose Nacht - erst einmal abwarten oder lieber zum Arzt, vielleicht sogar in die Notaufnahme? KI-Chatbots sind erstaunlich schlecht darin, Menschen mit akuten Beschwerden akkurate medizinische Ratschläge zu geben. Das fand ein Forscherteam der Universität Oxford in Kooperation mit weiteren Institutionen in einem Experiment heraus, über das die Gruppe im Fachjournal "Nature Medicine" berichtet.

Die rund 1300 Studienteilnehmer bekamen zufällig verschiedene, von Ärzten ausgewählte, fiktive Krankheitssymptome zugeteilt, zu denen sie sich informieren und Ratschläge einholen sollten, was in der Situation medizinisch angeraten ist. Zu den Fallbeispielen zählte etwa eine junge Mutter, die unter starken Erschöpfungssymptomen leidet, sowie ein 47 Jahre alter Mann mit Leistenschmerzen und Blut im Urin.

Im Austausch mit den Studienteilnehmern sollten die untersuchten KI-Tools eine Diagnose stellen und den nächsten Schritt empfehlen – also etwa zum schnellstmöglichen Ruf des Krankenwagens oder zu einem Routinetermin beim Hausarzt raten. Für jedes Szenario definierten die beteiligten Mediziner zuvor die richtige Lösung.

Die Teilnehmenden interagierten in dem Experiment entweder mit einem der untersuchten KI-Sprachmodelle (GPT-4o, Llama 3 oder Command R+) oder waren Teil der Kontrollgruppe, die auf konventionelleren Wegen daheim Informationen und Rat suchten, darunter normale Suchmaschinen.

Die Chatbots lagen oft daneben

Das Ergebnis: Nur in etwa einem Drittel der Fälle (weniger als 35 Prozent) stellten die Chatbots die korrekte Diagnose. Den richtigen nächsten Schritt empfahlen die Bots in weniger als 44 Prozent der Fälle. Damit schnitten die KI-Nutzer in der Studie nicht besser ab als jene Gruppe, die sich ohne KI Informationen suchte.

Erstaunlicherweise schnitten die getesteten Chatbots besser in Tests ab, bei denen keine realen menschlichen Probanden beteiligt waren, die ihnen die Symptome schilderten. In diesem simulierten Szenario identifizierten die KIs Krankheiten in 95 Prozent der Fälle korrekt und empfahlen in immerhin mehr als der Hälfte der Fälle (rund 56 Prozent) den richtigen nächsten Schritt.

Probleme im Umgang mit Laien

Das Forschungsteam ging diesem überraschenden Unterschied in ausgewählten Fällen genauer auf den Grund und entdeckte einige Muster: So waren die Nutzerinnen und Nutzer oft unsicher, welche Informationen sie dem Chatbot mitteilen sollten. Umgekehrt fielen die Antworten der Bots in der Interaktion mit den Personen durchwachsen aus: So variierten die Antworten stark je nach Formulierung in den Fragestellungen. Außerdem warfen die Bots oft Antworten aus, die sowohl richtige und hilfreiche als auch schlechte, fehlerhafte Informationen enthielten.

Die nicht an der Studie beteiligte Expertin für Gesundheitskommunikation von der Universität München, Anne Reinhardt, betont, bisherige Studien hätten KI vor allem in Prüfungsformaten und standardisierten Szenarien getestet. "Dort wirken die Ergebnisse oft sehr positiv. Diese Benchmarks blenden aber einen entscheidenden Teil des Alltags aus: die Interaktion mit Laien, die Symptome beschreiben, nachfragen, Antworten einordnen und daraus konkrete Entscheidungen ableiten müssen." Viele Menschen hätten – anders als beim Umgang mit schon länger etablierten Suchmaschinen – noch nicht genug Erfahrungen damit, welche Befehle oder Rückfragen Chatbots für möglichst optimale Ergebnisse bräuchten.

"KI noch nicht bereit für Rolle von Ärzten"

"Diese Ergebnisse verdeutlichen, wie schwierig es ist, KI-Systeme zu entwickeln, die Menschen in sensiblen, risikoreichen Bereichen wie der Gesundheit wirklich unterstützen können", erklärt die leitende Ärztin und Autorin Rebecca Payne von der Universität Oxford. "Trotz des ganzen Hypes ist die KI einfach noch nicht bereit, die Rolle von Ärzten zu übernehmen." Wenn Patienten Chatbots ihre Symptome anvertrauten, müssten sie sich bewusst sein, dass es zu falschen Diagnosen kommen könne und möglicherweise nicht erkannt werde, wann dringende Hilfe nötig sei.

Iryna Gurevych von der Technischen Universität Darmstadt – selbst nicht an der Studie beteiligt – meint: "Ein medizinischer Chatbot müsste mehr können als nur Fragen beantworten, wenn er als erste Kontaktstelle nützlich sein soll. Er sollte die Nutzenden dazu anleiten, vollständige Informationen anzugeben, und gegebenenfalls Folgefragen stellen, wenn etwas fehlt. Außerdem sollte er keine definitiven Antworten geben, wenn die beschriebene Situation unklar ist."

Das Forschungsteam sieht eine große Notwendigkeit, die Testung von Sprachmodellen zielgenau weiterzuentwickeln. Bisherige Tests und Bewertungen reichten nicht aus, um die Modelle daraufhin zu prüfen, wie gut sie in der Interaktion mit Menschen funktionierten.

Quelle: ntv.de, Larissa Schwedes, dpa

Künstliche Intelligenz Medizin Suchmaschinen Studien Gesundheit Chatbots