Medizinische Tests sind nie perfekt – Der Post hoc ergo propter hoc-Blog

Angenommen, ihr seid unermesslich reich, aber krank. Man weiß nicht so recht, was euch fehlt. Könnte man in diesem Fall nicht einfach ein Labor beauftragen, euch auf alle möglichen Erkrankungen zu testen? Sind Patienten, bei denen man keine Diagnose findet, nur einfach zu arm bzw. unser Gesundheitssystem nicht leistungsfähig genug?

Spezifität und Sensitivität

Die Antwort kann man direkt vorweg nehmen: Nein, tatsächlich ist der Grund kein wirtschaftlicher. Selbst wenn Geld keine Rolle spielen würde, gibt es einen rationalen Grund, wieso es gut bedacht sein sollte, ob ein Test angeordnet wird. Um diesen zu verstehen, muss man zunächst ein paar grundlegende Gütekriterien medizinischer Tests verstehen. Das sind zunächst einmal die Spezifität und Sensitivität, die mittlerweile durch die Corona-Schnelltests etwas ins allgemeine Bewusstsein gelangt sind.

Beide Maßzahlen können Werte zwischen 0 und 100 % annehmen. Die Spezifität gibt an, welcher Anteil gesunder Menschen, an denen der Test durchgeführt, auch als gesund erkannt werden. Machen wir einen Test X, der eine Spezifität von 90 % hat, bei 100 gesunden Menschen, dann werden 90 davon einen (richtig-)negativen und 10 einen (falsch-)positiven Test erhalten. Je höher der Wert, desto weniger falsch-positive Ergebnisse liefert der Test. Aber Achtung: Die Spezifität ist nicht gleich der Wahrscheinlichkeit, dass ein positiver Test auch richtig-positiv ist. Das nennt man den positiven prädiktiven Wert, auf den wir gleich noch genauer zu sprechen kommen.

Analog dazu gibt die Sensitivität an, welcher Anteil kranker Menschen von einem Test als krank erkannt werden. Hat unser Test X eine Sensitivität von 95%, und wir testen 100 kranke Menschen, wird der Test 95 davon als krank erkennen (richtig-positiv), 5 davon jedoch als gesund (falsch-negativ). Und analog darf man die Sensitivität nicht mit dem negativen prädiktiven Wert verwechseln, der angibt, wie hoch die Wahrscheinlichkeit ist, gesund zu sein, wenn das Testergebnis negativ ist.

Die Spezifität ist der Anteil an gesunden Menschen (hier in grün), die durch einen Test als solche erkannt werden. Eine Spezifität unter 100 % führt zu falsch-positiven Testergebnissen. Die Sensitivität ist dementsprechend der Anteil an kranken Menschen (in rot), die durch den Test als solche erkannt werden. Eine Sensitivität unter 100 % führt zu falsch-negativen Testergebnissen.

Optimalerweise hat ein Test nun eine möglichst hohe Spezifität und Sensitivität. Bei Tests, die eine quantitative Messgröße erfassen (und das sind die meisten Tests), verhalten sich Spezifität und Sensitivität jedoch reziprok zueinander: Wenn die Spezifität steigt, sinkt die Sensitivität und umgekehrt. Das kann man an einem Beispiel ganz gut verstehen. Nehmen wir die Messung des (Nüchtern-)Blutzuckers, um die Diagnose der Zuckerkrankheit (“Diabetes mellitus”, oder kurz einfach Diabetes) zu stellen. Aktuell gilt ein Wert unter 100 mg/dl als normal und ein Wert >125 mg/dl als Diabetes. (Dazwischen liegt ein Graubereich, den wir heute mal ignorieren.) Mit diesem Grenzwert von 125 mg/dl hat der Test eine gewisse Sensitivität und Spezifität. Würden wir jetzt den Wert von 125 auf 150 mg/dl erhöhen, würden weniger Menschen nach einer Messung des Nüchternblutzuckers die Diagnose Diabetes erhalten, nämlich alle, bei denen Werte zwischen 125 und 150 mg/dl gemessen wurden. Bei den Menschen, bei denen der Test jetzt noch positiv ist (>150 mg/dl), sind wir uns also viel sicherer, dass sie Diabetes haben: Die Spezifität ist mit dem neuen Grenzwert deutlich gestiegen. Wir werden jedoch einige Menschen, die eigentlich krank wären, mit dem neuen Grenzwert nicht mehr als krank erfassen: Die Sensitivität des Tests sinkt. Wir sehen also, dass sich Sensitivität und Spezifität mit dem Grenzwert, ab dem wir einen Test als positiv ansehen, verändern, und zwar immer entgegengesetzt: Sinkt die Spezifität, steigt die Sensitivität und umgekehrt.

Um mit dem Diabetes ein alltägliches Beispiel nehmen zu können, ignorieren wir, dass eine Definition (von mehreren) des Diabetes ein Nüchternblutzucker von mehr als 125 mg/dl ist, und dass es somit definitionsgemäß gar keine falsch-positiven bzw. falsch-negativen Ergebnisse geben kann. Das bedeutet auch, dass die Definition dazu führt, dass Sensitivität und Spezifität 100% wären. Natürlich ist eine Definition mehr oder weniger willkürlich – der Wert von 125 mg/dl wurde so gewählt, dass Spezifität und Sensitivität möglichst hoch sind, und aus genau dem gleichen Grund existiert der erwähnte Graubereich. “In echt” kann natürlich auch eine Messung von 126 mg/dl bei einem Nicht-Diabetiker auftreten, und ein Diabetiker könnte einen Wert von weniger als 125 mg/dl haben – nur eben selten. Und zu guter Letzt gibt es noch andere Laboruntersuchungen, durch die man definitionsgemäß die Diagnose Diabetes mellitus stellen kann. Dazu gehören der orale Glucosetoleranztest, bei dem man den Blutzucker 2 Stunden nach dem Trinken einer definierten Glucoselösung misst, und der HbA1c (ein Laborwert, den ich bestimmt an anderer Stelle mal ausführlicher erklären werde).

Das bedeutet aber auch, dass es keinen perfekten Test gibt. Je nach Art des Tests können diese beiden Messgrößen höher oder niedriger liegen (und der Test damit eher gut bzw. schlecht sein), und wir können durch Anpassung des Grenzwertes die Spezifität auf Kosten der Sensitivität anpassen (und umgekehrt), wir werden aber immer auch falsch-positive und falsch-negative Messergebnisse erhalten. Das liegt in der Natur jedes medizinischen Tests. Und damit sind wir auch beim Grund, wieso man nicht bei jedem wagen Verdacht einen Test anordnen sollte, und damit auch nicht einfach mal auf “alles” testen kann. Damit das Ganze noch etwas plastischer wird, schauen wir uns das Thema Screening an, das das Problem nochmal besonders gut erläutert.

Screeningmaßnahmen

Nehmen wir an, in einer bestimmten Population, zu der wir auch selbst gehören, leidet eine Person von 1000 an einer bestimmten, noch unerkannten Erkrankung X (z.B. eine Krebsform). Wir selbst fühlen uns gesund, wollen aber an einer Vorbeugemaßnahme teilnehmen, bei der auf X getestet wird. Der Test ist dabei ziemlich gut: Die Sensitivität beträgt 99 % und die Spezifität 98 %. Der Test fällt bei uns positiv aus. Der Schock ist groß, schließlich ist der erste Schluss bei einem positiven Test, dass er auch stimmt (d.h. richtig-positiv ist). Wir klammern uns aber an eine Hoffnung: Schließlich könnte der Test doch auch falsch-positiv sein! Genau diese Wahrscheinlichkeit beschreibt der schon oben erwähnte positive prädiktive Wert. Er gibt an, wie hoch die Wahrscheinlichkeit ist, an einer Krankheit auch wirklich erkrankt zu sein, wenn der Test darauf positiv ausfällt. In unserem Beispiel lässt er sich sehr leicht errechnen. Angenommen, wir testen alle 1000 Personen. Mit einer Sensitivität von 99 % wird der Test bei der einen Person, die wirklich erkrankt ist, vermutlich positiv ausfallen. Bei den 999 Gesunden haben wir jedoch das Problem, dass eine Spezifität von 98 % bedeutet, dass 2 % fälschlicherweise positiv getestet werden. Neben einem richtig-positivem Test haben wir also (fast) 20 falsch-positive Tests. Die Wahrscheinlichkeit, dass ein richtiger Test von der erkrankten Person kommt, beträgt daher nur 1/21, d.h. etwa 5 %.

Bei einer niedrigen Krankheitshäufigkeit (Prävalenz) kann auch ein Test mit guter Spezifität und Sensitivität zu deutlich mehr falsch-positiven als richtig-positiven Testergebnisse führen.

Ist jeder Test damit also quasi unnütz? Natürlich nicht. Der positive prädiktive Wert ist stark von der Häufigkeit der Erkrankung in der untersuchten Population abhängig. Er steigt, wenn entweder die Krankheit häufig ist, oder die Population eingeschränkt wird. Beide Fälle sind wichtig, und daher schauen wir sie uns der Reihe nach an.

Betrachten wir das gleiche Beispiel, jedoch unter der Annahme, dass die Krankheit hundertfach häufiger vorkommt, also bei 100 von 1000 Personen. Wieder werden von 100 kranken Personen und einer Sensitivität von 99 % die meisten (99) erkannt werden. Von den 900 gesunden Getesteten erhalten nur 18 ein positives Ergebnis (da die Spezifität 98 % beträgt). Der positive prädiktive Wert eines positiven Tests schnellt also von 5 % von einer Krankheitshäufigkeit von 1:1000 auf 99/118 = ca. 84 % bei einer Häufigkeit von 1:10. An diesem Beispiel kann man gut verstehen, wieso Screeningmaßnahmen insbesondere bei häufigen Krankheiten gut funktionieren.

Mit der Prävalenz steigt auch der Anteil richtig-positiver Testergebnisse.

Der zweite Punkt ist aber fast noch wichtiger, denn er liegt unter unserer Kontrolle: Die Population, die wir testen. Das ist eigentlich kein neues Konzept, sondern etwas, das wir alle intuitiv verstehen. Wie hoch ist die Wahrscheinlichkeit, dass ein Einwohner einer beliebigen Stadt eine Appendizitis (“Blinddarmentzündung”) hat? Nicht sonderlich hoch. Wenn wir jetzt aber nur alle Einwohner betrachten, die auch Bauchschmerzen haben, steigt die Chance deutlich an. Wenn noch weitere typische Symptome einer Appendizitis hinzukommen, steigt die Chance noch weiter an. Jetzt gibt es keine spezifischen Test für eine Appendizitis (man spricht hier von einer “klinischen Diagnose”), gäbe es einen solchen aber, wäre der positive prädiktive Wert natürlich bei der ersten Gruppe (alle Einwohner) deutlich niedriger als bei der letzten Gruppe (mehrere typische Symptome einer Appendizitis). Wie gesagt, eigentlich ist das logisch. Aber was folgt daraus? Bei jedem medizinischen Test muss immer bedacht werden, an welcher Population (d.h. an welchem konkreten Patient) man ihn durchführt. Wohingegen ein MRT zur Detektion eines Schlaganfalls bei einem Patienten mit plötzlicher Halbseitenlähmung sehr sinnvoll ist, wäre ein MRT bei einem gesunden Menschen total unnötig. Denn dort haben wir das Problem, dass der Test – wenn er denn positive ausfallen sollte – viel wahrscheinlicher falsch-positiv ist. Im schlimmsten Fall müssen dann weitere, mitunter invasive oder anderweitig schädliche Tests folgen, um dieses falsch-positive Testergebnis weiter abzuklären. Im Bereich der Krebsvorsorge ist das Problem besonders plastisch. Ein falsch-positives Ergebnis einer Mammografie führt zu viel Verunsicherung (deren psychische Belastung man nicht unterschätzen sollte), weiteren Tests und ggf. einer Biopsie. Sind die falsch-positiven Ergebnisse deutlich häufiger als richtig-positive Ergebnisse kann eine Screeningmaßnahme also (im statistischen Mittel!) mehr schaden als nützen. Deswegen gibt es nur für eine Handvoll Krebserkrankungen auch Screeningprogramme, deren Nutzen klar wissenschaftlich belegt ist. Diese Krebserkrankungen gehören übrigens allesamt zu den häufigen Tumoren – wir verstehen jetzt, warum.

Empfohlene Screeningmaßnahmen für Krebserkrankungen in Deutschland sind folgende: Pap-Screening zur Gebärmutterhalskrebsvorsorge ab 20 Jahren, Hautkrebsscreening ab 35 Jahren, Mammografie zur Brustkrebsvorsorge ab 50 Jahren und eine Koloskopie zur Darmkrebsvorsorge ab 50 (♂) bzw. 55 (♀) Jahren. Das Pap-Screening ist dabei die erfolgreichste Krebs-Screeningmaßnahme ever (jede Frau sollte daran teilnehmen!), und an zweiter Stelle kommt klar die Koloskopie, die leider auch die unangenehmste Untersuchungsmethode ist, und daher häufig nicht in Anspruch genommen wird. Sie kann aber viele Leben retten. Die Kosten hierfür werden übrigens auch von den gesetzlichen Krankenkassen übernommen. Und die Altersbegrenzungen – ihr habt es vermutlich geahnt – dienen der Einschränkung der Population, denn das Krebsrisiko nimmt mit dem Alter zu. Mehr Schaden als Nutzen verursachen – am Rande erwähnt – u.a. das PSA-Screening des Prostatakarzinoms und das Ultraschall-Screening auf Eierstockkrebs, die aber leider immer noch als individuelle Gesundheitsleistungen (IGeL) angeboten werden, d.h. vom Patient selbst bezahlt werden müssen.

Conclusio

Ein weiterer Aspekt, den man bedenken muss, wenn man “auf alles” testen will, ist auch die Frage, was ein Messergebnis denn überhaupt bedeutet. Besonders anschaulich wird das bei genetischen Tests, über die ich hier bereits geschrieben habe.

Wer sich jetzt fragt, wieso man dann überhaupt Tests durchführt, wenn sie doch sowieso alle fehlerhaft sind, der sei beruhigt. Natürlich können wir auch in der Medizin sehr sichere Aussagen über das Vorliegen oder den Ausschluss einer Erkrankung tätigen (auch wenn es in der Medizin nie hundertprozentige Sicherheit gibt). Denn das Allerwichtigste ist nicht der einzelne Test, sondern der Gesamtbefund, also das Betrachten aller vorhandenen Informationen über einen Patienten. Dazu gehören die Anamnese, die körperliche Untersuchung und Tests wie Laboruntersuchungen, Bildgebung und funktionelle Untersuchungen (EKG, etc.). Zeigen alle in die Richtung einer bestimmten Erkrankung, dann lässt sich diese auch mit großer Sicherheit diagnostizieren. Wir verstehen jetzt aber auch, wieso nicht jede Diagnose immer gänzlich gesichert ist, nur weil ein einzelner Test positiv war – selbst wenn seine Spezifität und Sensitivität sehr hoch sind.

Spezifität und Sensitivität

Screeningmaßnahmen

Conclusio

Kommentar hinterlassen Antworten abbrechen