Die RCT (randomized controlled trial, im Deutschen “randomisierte Doppelblindstudie” genannt) ist der Goldstandard, um die Wirksamkeit einer medizinischen Intervention zu beurteilen. Dort werden Patienten mit einer bestimmten Erkrankung zufällig (“randomisiert”) auf zwei Gruppen verteilt. Dadurch ist gewährleistet, dass sich beide Gruppen (wenn sie ausreichend groß sind) in keiner Eigenschaft (z.B. Alter oder Vorerkrankungen) voneinander nennenswert unterscheiden, und Unterschiede nun einzig durch die zu untersuchende Therapie bedingt sind. Denn die eine Gruppe bekommt nun diese Therapie (sog. Verum-Gruppe), und die andere bekommt die genau gleiche (Schein-)Therapie, der jedoch der aktive Teil fehlt, den man untersuchen möchte (z.B. eine Pille, die genau gleich wie das echte Medikament aussieht, jedoch gar keinen Wirkstoff enthält). Letztere ist dann die Kontrollgruppe. Wichtig ist, dass weder die Behandelnden (einfache Verblindung) noch die Patienten (doppelt verblindet) wissen, zu welcher Gruppe sie gehören. Den Grund dafür betrachten wir in Teil 5 genauer.
Neben der RCT gibt es noch systematische Reviews (SRs), die (eben systematisch) nach allen RCTs zu einem Thema suchen, diese zusammenfassen und bewerten. Eine Metaanalyse ist eine Unterform des systematischen Reviews, bei der auch die Daten der untersuchten RCTs zusammengefasst und erneut statistisch ausgewertet werden. So wird eine erhöhte Fallzahl erreicht, und dadurch eine aussagekräftigere Auswertung als durch viele Einzelstudien.
Publication Bias
Biostatistiker, die sich mit klinischen Studien auseinandersetzen, kann man grob in zwei Schulen einteilen. Die eine Schule ist der Ansicht, dass die beste Evidenz von Metaanalysen gebildet wird. Die andere Schule vertritt die Ansicht, dass durch viele schlechte Studien (d.h. Studien mit Daten schlechter Qualität) auch in einer gemeinsamen Auswertung im Rahmen einer Metaanalyse keine guten Daten entstehen, was auch als das GIGO-Prinzip beschrieben wird (“garbage in, garbage out”). Ein zusätzliches, prinzipielles Problem entsteht bei Metaanalysen durch das sog. Publication Bias (dt. könnte man es grob als “Publikationsverzerrung” übersetzen, wobei Bias keine wirklich gute Übersetzung hat und einen systematischen Fehler beschreibt, der dazu führt, dass die Realität nicht korrekt abgebildet wird). Das Publication Bias lässt sich mit einem einfachen Beispiel gut erläutern: Angenommen, zu einer bestimmten Fragestellung (Ist A wahr, oder doch B?) werden zehn Studien durchgeführt. Fünf davon untermauern die Hypothese, dass A stimmt, die anderen fünf, dass B stimmt. Werden jetzt aus irgendeinem Grund nur sechs dieser Studien veröffentlicht, und zwar fünf die A unterstützen und nur eine die B unterstützt, dann würde man bei einer Literaturrecherche vermutlich zu dem Schluss kommen, dass A deutlich wahrscheinlicher stimmt als B. Wenn man die Daten in einer Metaanalyse auswerten kann, dann würde sich dort das gleiche Bild zeigen. In der Wissenschaft findet sich dieses Problem häufig, wenn negative Studien, z.B. zur Wirksamkeit eines Medikaments, nicht publiziert werden. Die Gründe dafür können ganz unterschiedlich sein, aber Fakt ist, dass negative Studien leider immer noch als wissenschaftlich “unsexy” gelten, und daher deutlich schwerer publizierbar sind als Studien, die zu einem positiven Ergebnis kommen. Rein vom Gefühl lässt sich das nachvollziehen: keine Zeitung wird auf ihr Titelblatt drucken “Wissenschaftler finden heraus, dass Aspirin vermutlich nicht gegen Schuppenflechte hilft”. Insbesondere bei klinischen Studien kann das allerdings ein enormes Problem werden, da man den Nutzen eines Medikaments dann nicht korrekt beurteilen kann. Mittlerweile müssen klinische Studien registriert werden, bevor sie durchgeführt werden. So soll sichergestellt werden, dass ihre Ergebnisse, egal wie sie ausfallen, dann auch publiziert werden. So kann man Publication Bias immerhin reduzieren (wenn auch nicht ganz beseitigen). Im nächsten Kapitel werden wir sehen, dass speziell die Akupunktur sogar noch ihr ganz eigenes Problem mit Publication Bias hat.
Auch wenn systematische Reviews traditionell als die qualitativ hochwertigste Evidenzform gelten, darf man nicht vergessen, dass es auch bei dieser Studienart reihenweise Fehlerquellen gibt. Daraus folgt, dass sie häufig auch methodologisch schlecht sind, und ihre Ergebnisse in ihrer Aussagekraft eingeschränkt sein können, bis hin zur Bedeutungslosigkeit der Untersuchung. In den letzten Jahren wurden immer mehr systematische Reviews publiziert, von denen vermutlich die wenigsten als qualitativ hochwertig gelten können. John P.A. Ioannidis schätzt in einem Paper von 2016 sogar, dass mittlerweile mehr SRs als echte RCTs publiziert werden.
p-Werte, statistische und klinische Signifikanz
Wenn wir schon über RCTs sprechen, muss man an dieser Stelle noch kurz über den p-Wert reden, dem eine wichtige Rolle bei der Beurteilung klinischer Studien zukommt, und der oft (auch von Ärzten) falsch verstanden wird. Der p-Wert dient dazu, zu beurteilen, ob ein Unterschied zwischen zwei Datensätzen (z.B. dem Therapieerfolg der Verum-Gruppe einer RCT verglichen mit dem der Kontrollgruppe) nur durch den Zufall bedingt ist, oder überzufällig ist. Bei der Beurteilung einer RCT macht der p-Wert also den Unterschied zwischen einer positiven Studien (Therapie wirkt besser als die Kontrolltherapie) und einer negativen Studie (kein Unterschied zwischen beiden Gruppen). Es gibt immer wieder (berechtigte) Kritik an diesem doch sehr entscheidenden Stellenwert des p-Werts. Fakt ist jedoch, dass RCTs aktuell so evaluiert werden.
Die Hypothese, dass zwischen den beiden Gruppen in einer RCT kein Unterschied herrscht (außer dem Zufall) wird als Nullhypothese H0 bezeichnet. Dementsprechend wird die andere Möglichkeit, nämlich dass der Unterschied nicht zufällig bedingt ist (d.h. dass sich ein echter Unterschied zwischen beiden Gruppen findet, bedingt durch eine wirksame Therapie), als Alternativhypothese H1 bezeichnet. Der p-Wert ist definiert als die Wahrscheinlichkeit, dass ein gemessenes Ergebnis so unterschiedlich (bzw. noch unterschiedlicher) ist, wenn es nur durch den Zufall bedingt wäre. Er kann also Werte zwischen 0 und 1 annehmen. Je niedriger der Wert, desto größer ist die Wahrscheinlichkeit, dass der Unterschied nicht durch den Zufall bedingt ist (d.h. dass H1 zutrifft). Ein häufiges Missverständnis ist jedoch, dass der p-Wert wirklich der Wahrscheinlichkeit entspricht, dass H0 zutrifft. Das ist streng genommen falsch, wie wir an der Definition sehen: der p-Wert wird berechnet, unter der Annahme, dass H0 zutrifft (nur Zufall, wirkungslose Therapie). Dementsprechend kann er nicht die Wahrscheinlichkeit angeben, dass H0 zutrifft; das würde irgendwie keinen Sinn ergeben.
Der p-Wert ist also eine konstante Variable, die zwischen 0 (kein Zufall) und 1 (Zufall) jeden beliebigen Wert annehmen kann. Trotzdem muss man irgendeinen Wert festlegen, an dem man den Unterschied zwischen Zufall und echtem Effekt festmacht. In der biomedizinischen Forschung wird hiefür p=0,05 (d.h. 5 %) verwendet, auch Signifikanzniveau α genannt. Liegt p unter diesem Wert, wird von “statistischer Signifikanz” gesprochen, oft leider auch nur von einem “signifikanten” Ergebnis, was eine sehr ungünstige Formulierung ist, wie ich weiter unten erkläre. Diese Schwelle von 0,05 ist ein vollkommen arbiträr definierter Wert, der als Kompromiss angesehen wird: auf der einen Seite wird dadurch nicht jedes zufällige Datenrauschen als echter Effekt bewertet (ein falsch-positives Ergebnis, auch α-Fehler genannt), auf der anderen Seite wird nicht ein enorm hoher Standard für das Erkennen von echten Effekten gesetzt (Vermeidung von falsch-negativen Ergebnissen, auch β-Fehler genannt). Viel der Kritik am p-Wert setzt an diesem arbiträren Wert von 0,05 an: es wird argumentiert, dass die Rate an falsch-positiven Ergebnissen viel zu hoch sei. Letztlich gibt es keinen Wert, der objektiv “am besten” ist und mit dem alle zufrieden sind. Wichtig für die Praxis ist folgendes: insbesondere sollte auf den Wert selber geachtet werden, nicht nur, ob er die magische Schwelle von 5 % unterschreitet, denn je niedriger p, desto unwahrscheinlicher ist das Ergebnis rein zufällig bedingt. Zusätzlich muss auf eine Reihe anderer Aspekte der Studie geachtet werden, u.a. die A priori-Wahrscheinlichkeit des untersuchten Phänomens und die Effektstärke (bei RCTs auch klinische Signifikanz genannt). Erstere wurde in Teil 4 erklärt, Letztere möchte ich noch kurz genauer erläutern.
Ein Beispiel soll dabei helfen. Angenommen, ich untersuche ein neues Blutdruckmedikament. Ich mache eine RCT mit zwei Gruppen: die Verumgruppe erhält das neue Medikament, die Kontrollgruppe ein Placebo, das nicht vom echten Medikament zu unterscheiden ist. In jeder Gruppe finden sich mehrere Tausend Patienten. Vergleicht man in der Auswertung der Studie die Blutdrücke, so findet man in der Verum-Gruppe statistisch signifikant niedrigere Blutdrücke, mit einem p-Wert weit unter 0,05 (sagen wir, 0,001). Die Studie ist also positiv und wir können anfangen unser Medikament zu vermarkten. Hurra! Nur haben wir allerdings eine wichtige Sache vergessen: wir haben uns nicht angeschaut, wie groß unsere Effektstärke war, d.h. um wie viel der Blutdruck durch unser Medikament denn wirklich gesenkt werden konnte. Hätten wir z.B. eine durchschnittliche Reduktion des systolischen Blutdrucks um 1 mmHg gemessen, wäre das zwar sehr sicher kein Zufall (p-Wert sehr klein), aber würde dem Patienten auch nichts bringen: ein Blutdruck von 170/80 oder 169/80 macht keinen merkbaren Unterschied. Das Ergebnis ist zwar statistisch signifikant (p<0,05), aber nicht klinisch signifikant (1 mmHg macht keinen Unterschied). Diese Unterscheidung ist enorm wichtig, aber viel zu oft wird die klinische Signifikanz nicht betrachtet. Aus dem gleichen Grund macht es keinen Sinn von einem rein “signifikanten” Ergebnis zu sprechen. Es muss immer spezifiziert werden, ob die statistische oder klinische Signifikanz gemeint ist. Und nur ein statistisch und klinisch signifikantes Ergebnis ist wirklich hilfreich.
Conclusio
Wenn wir uns also im übernächsten Kapitel mit der Studienlage zur Akupunktur beschäftigen, dann kann man zwei Herangehensweisen wählen. Man kann sich nur die qualitativ besten, einzelnen RCTs anschauen, oder man betrachtet hingegen die Metaanalysen. Da beide ihr Für und Wider haben, und ich zwar selber eher dazu tendieren würde, einzelne RCTs zu betrachten, aber Metaanalysen auch nicht kategorisch als sinnlos ansehe, werden wir beide Ansätze verfolgen.