Ein Tag in der Notaufnahme – wie viele Diagnosen stellt ein KI-Tool richtig?

ChatGPT könnte viele Fragen eines Medizinexamens lösen, aber wenn man es für reale Menschen verwenden würde, wäre das schnell tödlich, sagt ein Arzt, der es einem Praxistest unterzogen hat.

Erfolg von ChatGPT weckt hohe Erwartungen - zu Recht?

Anfang 2023 sorgte die Nachricht, dass der Chatbot ChatGPT Examina an juristischen und wirtschaftlichen Fakultäten und sogar das amerikanische Staatsexamen für Medizin (USMLE) bestehen könne, bei manchen für sehr hohe Erwartungen und bei anderen für Besorgnis.

Die Forscher hatten ChatGPT mit 350 von 376 öffentlich zugänglichen Fragen aus dem USMLE des Vorjahres geprüft. Das USMLE besteht aus drei Teilprüfungen, bei denen der Bot zwischen 52,4 und 75% der Punkte erreichte – die Leistung lag also nahe an oder um die Bestehensgrenze von 60%.1 Bedeutet das, dass uns das KI-Tool bei der klinischen Entscheidungsfindung unterstützen könnte?

„Die Ergebnisse waren faszinierend, aber auch ziemlich beunruhigend.“

Am Ende seiner regulären Schichten in einer Notaufnahme anonymisierte Dr- Tamayo-Sarver die Daten von 35 bis 40 Patienten und gab seine Notizen aus der Krankengeschichte (Anamnese sowie aktuelle Klinik) in ChatGPT 3.5 ein. Auf die Abfrage "Was sind die Differentialdiagnosen für diesen Patienten, der sich mit xy (hier Notizen einfügen) in der Notaufnahme vorstellt?" schlug sich das KI-TooI ordentlich in der Nennung wichtiger und gängiger Diagnosen. Dies funktionierte jedoch nur gut, wenn das klinische Bild typisch und die Eingaben präzise und sehr detailliert waren. So waren für die korrekte Diagnose einer Radiusköpfchen-Subluxation (Kindermädchen-Ellenbogen) etwa 200 Wörter Input nötig; eine Blow-out-Fraktur der Orbitawand eines anderen Patienten erforderte die gesamten 600 Wörter der Notizen des Arztes.

Bei etwa 50% der Patienten befand sich unter den durchschnittlich sechs von ChatGPT vorgeschlagenen Diagnosen die Richtige (die, die der Arzt nach Abschluss all seiner Untersuchungen gestellt hatte). Nicht schlecht, aber für eine Notaufnahme wiederum keine gute Trefferquote, meint Tamayo-Sarver.2,3

Das Problem: Viele Patientenfälle sind eben nicht "lehrbuchmäßig" 

Die Erfolgsquote von 50% bedeutete auch, dass lebensbedrohliche Zustände oft übersehen wurden. Beispielsweise wurde bei einem Patienten korrekt ein Hirntumor vermutet, bei zwei anderen Patienten mit Tumoren wurde diese Möglichkeit jedoch komplett übersehen. Ein weiterer Patient stellte sich mit Schmerzen im Rumpf vor und ChatGPT hätte einen Nierenstein diagnostiziert. Es lag jedoch eine Aortenruptur vor, an der er intraoperativ verstarb.

Am sträflichsten versagte das System bei einer 21-jährigen Frau mit Schmerzen im rechten unteren Quadranten. Der Bot zeigte sofort Appendizitis oder eine Ovarialzyste an, neben anderen Möglichkeiten. In Wirklichkeit bestand eine ektope Schwangerschaft – eine Diagnose, die bei zu später Erkennung letal verlaufen kann. Jeder Medizinstudent lernt, dass ein akutes Abdomen bei einer Frau im gebärfähigen Alter zwingend die Abklärung nach sich ziehen muss, ob eine Schwangerschaft bestehen könnte. Tamayo-Sarver dachte zum Glück prompt daran (und wie im Klinikalltag so oft, erwartete diese Patientin mitnichten, dass sie schwanger sein könnte).2,3

ChatGPT jedoch warf die Möglichkeit einer Schwangerschaft in keiner Antwort auf und hätte auch überhaupt nicht danach gefragt. Und hierin liegt für Tamayo-Sarver eine der wichtigsten Limitationen: Tools wie ChatGPT können einem nur Dinge beantworten, nach denen man überhaupt fragt. Ist man auf dem Holzweg, wird das KI-Tool diese Voreingenommenheit verstärken, indem es immer weiter die zu den eigenen Beobachtungen und Inputs passenden Informationen zurückspielt. Eine Verzerrung durch eine übersehene Frage oder Fehlannahme wird durch solche Tools weiter amplifiziert. 

Brauchen wir einen nüchterneren Blick auf die Möglichkeiten der KI?

ChatGPT konnte also einige gute Differenzialdiagnosen vorschlagen, aber nur wenn es mit perfekten Informationen gefüttert wurde und die klinische Präsentation der Erkrankung absolut klassisch war. Das wird auch der Grund sein, warum das KI-Tool 60% der Fallvignetten des Staatsexamens bestehen konnte: "Nicht weil es „schlau“ ist, sondern weil die klassischen Fälle in der Prüfung eine eindeutige Antwort haben, die bereits in der Datenbank vorhanden ist", so Tamayo-Sarver. Das USMLE ist ein Test des Auswendiglernens, nicht des Urteilsvermögens.

Die Kunst in der Medizin, so Tamayo-Sarver, bestehe vor allem darin, das richtige Narrativ oder die relevanten Informationen zu erkennen. Er befürchtet, dass bereits unzählige Menschen ChatGPT nutzen, um sich selbst zu diagnostizieren, anstatt einen Arzt aufzusuchen. ChatGPT liefert Antworten und Informationen, die für Leute, die keine Experten auf dem Gebiet sind, hervorragend erscheinen. Hätte die junge Frau mit der ektopen Schwangerschaft dies getan, hätte dies für sie in einer inneren Blutung enden können.

"In der Zwischenzeit brauchen wir im Silicon Valley und in der breiten Öffentlichkeit dringend eine viel realistischere Sicht auf das, was KI heute leisten kann – und auf ihre vielen, oft gefährlichen Grenzen. Wir müssen sehr vorsichtig sein, um überzogene Erwartungen an Programme wie ChatGPT zu vermeiden, denn im Zusammenhang mit der menschlichen Gesundheit können sie buchstäblich lebensbedrohlich sein", schließt Tamayo-Sarvers Erfahrungsbericht.2,3
 

Quellen:
  1. Tran, T. H. ChatGPT Passed a Notoriously Difficult Medical Exam. The Daily Beast.
  2. I’m an ER doctor: Here’s what I found when I asked ChatGPT to diagnose my patients. Medium.
  3. Tamayo-Sarver, J. I’m an ER doctor: Here’s what I found when I asked ChatGPT to diagnose my patients. Fast Company.

    letzter Zugriff auf Websites: 09.07.23