The Great Reality Check Teil 1: Akute Hirnblutung
Lesen Sie die Ergebnisse unserer neuen Anwenderstudien – aktuell und transparent!
Zweck:
Ziel der Studie war es, die Performance gängiger AI-Assistenten bei akuter Hirnblutung prospektiv zu bestimmen, validiert mit den Akutbefunden von in der Notfallradiologie spezialisierten Radiologen sowie bildgebendem und klinischem Follow up.
Patienten, Material und Methoden:
Im Jahr 2025 wurden 218 Patienten, die nach einem stumpfen Schädeltrauma zur CT des Neurokraniums an ERS Emergency Radiology Schueller, einem Anbieter teleradiologischer Dienste überwiesen worden waren, über acht aufeinanderfolgende Wochen randomisiert und prospektiv in die Studie aufgenommen. Die CT-Untersuchungen dieser Patienten wurden randomisiert von einem von zwei gängigen, käuflich erwerblichen AI-Assistenten ausgewertet. Die Radiologen beurteilten die CT-Untersuchungen, ohne die AI-Ergebnisse im Vorfeld zu kennen, und verglichen die radiologischen Befunde in einem zweiten Schritt mit den AI-Ergebnissen. Als Goldstandard galten die radiologischen Befunde sowie das klinische Follow up. Bei Diskrepanzen zwischen den radiologischen Befunden und den AI-Ergebnissen wurden die CT-Untersuchungen spätestens innerhalb von 30 Minuten einer Zweitbefundung unterzogen.
Ergebnisse:
Von 218 Patienten konnten 18 AI-Ergebnisse nicht abgerufen werden. Für 200 Patienten diagnostizierten Radiologen und das klinische Follow up 58 akute intrakranielle Blutungen (0,29 %). Die AI-Assistenten lieferten 58 richtig positive (TP), 0 falsch positive (FP), 40 falsch negative (FN) und 82 richtig negative (TN) Befunde; Sensitivität 0,592; Spezifität 1,0; positiver Vorhersagewert (PPV) 1,0; negativer Vorhersagewert (NPV) 0,672. Es zeigte sich kein signifikanter Unterschied zwischen den Ergebnissen der verwendeten AI-Assistenten. FN-Befunde betrafen Blutungen mit einem Durchmesser von 5 mm oder weniger (Mittelwert 3,5 mm, SD ± 1,9 mm). Die minimale Ausdehnung einer von den AI-Assistenten als TP gewerteten Blutung betrug 5 mm (Spanne 5–15 mm; Mittelwert 9 mm, SD ± 7 mm).
Diskussion:
Die AI-Assistenten erkannten alle akute Hirnblutungen. Das Fehlen FP-Ergebnisse deutet darauf hin, dass typische Fehlerquellen wie Aufhärtungsartefakte, Knochenränder und Verkalkungen entlang der Tabula interna von den Softwarefirmen behoben sind. Die überraschend hohe FN-Rate lässt jedoch vermuten, dass AI-Assistenten derzeit nicht für die Triage von Patienten mit Schädel-Hirn-Trauma in der professionellen High-end Teleradiologie geeignet sind. Die hohe FN-Rate insbesondere für kleinere Blutungen lässt an ihrem Einsatz als Second Look im hektischen Alltag der Akutradiologie ebenso zweifeln. Unsere Daten sind nicht mit den offiziellen Angaben der AI-Hersteller vergleichbar, welche Sensitivitäts- und Spezifitätsangaben von jeweils zumindest 90 % veröffentlichten. Sicherlich trägt, als eine Limitation, die relativ geringe Fallzahl unserer Studie zu dieser Diskrepanz bei. Weiters sollten zukünftige Studien auch eine größere Anzahl von AI-Assistenten testen.

