|
Hans-Heinrich Jörgensen „Traue keiner Statistik,.......“ ("Der Heilpraktiker und Volksheilkunde" Heft 7/2004) „......die du nicht selbst gefälscht hast!“ Dieses Bonmot wird dem ehemaligen britischen Premier Winston Churchill zugeschrieben. Mit großer Wahrscheinlichkeit stammt es nicht von ihm. Aber wie auch immer, man muss die Statistik nicht fälschen. Auch mit korrekter Statistik kann man trefflich die Wirklichkeit verzerren. Und da Wirksamkeitsstudien in der „Evidenz basierten“ Medizin den Nutzen ihrer hochgelobten Produkte ausschließlich statistisch belegen können, sollten wir uns ein wenig mit den Begriffen auseinandersetzen, damit uns nicht allzu oft ein X für ein U vorgemacht wird. Über Jahrhunderte hinweg wurde das therapeutische Handeln von den subjektiven Beobachtungen der Ärzte und dem Wohlbefinden der Patienten bestimmt. Sicher mit vielen Fehlern behaftet, trotzdem nicht immer der schlechteste Weg. Die Gesetzgebung und eine fast religiöse Wissenschaftsgläubigkeit zwingen uns heute Spielregeln auf, nach denen nur die Therapie erlaubt ist, von der zuvor andere behauptet haben, sie sei die richtige. Die Glaubwürdigkeit dieser anderen gilt a priori als gegeben, wenn ihr Schreibtisch in einem Bundesinstitut steht oder ihr Stuhl ein Lehrstuhl ist. Die Tatsache, dass sie würdig genug sind, ihnen Glauben zu schenken, heißt aber noch lange nicht, dass alles, was sie von sich geben, auch hehre Wahrheit ist. Auch sie machen Fehler, übersehen etwas oder deuten etwas irgendwo hinein, haben eigene Erwartungen und Weltbilder, schlimmsten Falls eigene Interessen. Um eine Therapie "marktfähig" zu machen, genügt nicht mehr die positive Erfahrung des Patienten. Die Ergebnisse müssen messbar sein, sie müssen wiederholbar sein und sie müssen Amt und Arzt überzeugen. Dazu werden "Studien" erstellt, die stets von sich behaupten, statistisch signifikant den Sinn der Therapie zu belegen. Seien Sie versichert, jede veröffentlichte Studie zeigt signifikante Ergebnisse, hätte sie keine, würde sie nicht veröffentlicht sondern im Archiv versenkt. Die Frage ist nur, ob die behauptete Signifikanz denn wirklich stimmt, vor allem aber, ob damit eine nutzbringende Erkenntnis bewiesen ist. Die Statistik birgt eine Fülle von Stolpersteinen und Irrtumsmöglichkeiten, die Interpretation ihrer Ergebnisse noch mehr. Sie schafft die ungeahnte Möglichkeit, mit der Wahrheit zu lügen, zu täuschen, zu verzerren, zu verschweigen. Meist nicht einmal aus Bosigkeit, sondern weil man selbst einem Irrtum, einer zu fest eingebrannten Erwartung oder auch nur einer Wissenslücke aufgesessen ist. Ich will versuchen, Sie ein wenig in die Trickkiste der Statistik schauen zu lassen, damit sie zukünftig "Studien" etwas kritischer lesen. Stauchen, Strecken, Ausschneiden
Therapeutische Ergebnisse eines neuen Medikamentes lassen sich durch Balkendiagramme oder Kurven sehr viel eindrucksvoller darstellen, als mit Zahlen allein. Jeder PC ermöglicht heute solche überzeugenden Augenwischereien. In Abbildung 1 finden sie eine Zahlenreihe und die dazu gehörenden Diagramme, die wir einfach als den Cholesterinspiegel eines Patienten über 10 Monate hinweg betrachten. Mit minimalen Schwankungen in der gleichen Größenordnung nach oben wie unten bleibt er schließlich unverändert, wie Skala 1 zeigt. Die Balkenhöhe entspricht der Realität. In Skala 2 ist die Y-Achse (senkrecht) begrenzt auf den Schwankungsspielraum. Dadurch entsteht ein Lupeneffekt, der plötzlich kleinste Veränderungen deutlich erkennbar macht. Das kann durchaus sinnvoll sein, wenn nämlich diesen Minimaleffekten eine diagnostische oder therapeutische Bedeutung zukommt. Meist wird diese Technik jedoch dazu mißbraucht, um Unbedeutendes bedeutsam erscheinen zu lassen. Noch eindrucksvoller wird das Bild, wenn man die senkrechte Y-Achse streckt und die horizontale X-Achse staucht, wie in den Skalen 3 und 4, die zudem deutlich machen, wie durch Ausschnitte plötzlich wünschenswerte Entwicklungen bewiesen werden. Auch weglassen kann zur Lüge werden. Und die beiden Skalen der privaten Konsumausgaben von 2000 bis 2003 (Abbildung 2)zeigen, wie man ein immer noch hohes Wohlstandsniveau zur Katastrophe umdeuten kann. Aber selbst statistische Korrelanz beweist noch lange nicht Kausalität. Der Rückgang der Störche in Südschweden korreliert mit der Geburtenziffer, ist aber - wie ich inzwischen weiß - sicher nicht die Ursache. Dass 80jährige sowohl einen höheren Cholesterinspiegel haben wie auch eine höhere Sterblichkeit korreliert ebenso, ohne jedoch einen Ursachenbeweis zu liefern. Signifikant oder relevant?
Da ist die Sache mit der Signifikanz, deren Bedeutung (lat. = significancia) völlig verzerrt wurde, was uns eine Fülle von Veröffentlichungen beschert hat, die zwar statistisch signifikante Unterschiede zwischen zwei Zahlen aufzeigen, für den suchenden Therapeuten aber ohne jede Bedeutung sind. Signifikant heißt nicht etwa, dass die Ergebnisse bedeutend sind, wie die Übersetzung vermuten ließe, sondern dass die Irrtumswahrscheinlichkeit, jene Wahrscheinlichkeit, dass das schöne Ergebnis nur ein Zufallstreffer war, unter 5% liegt. In der Ergebnistabelle steht dann p<0,05. Diese 5% sind völlig willkürlich gewählt und gelten allgemein als Konsens. Eine Studie mit höherer Irrtumswahrscheinlichkeit hat keine Chance, in einer renommierten Fachzeitschrift veröffentlicht zu werden. Darum müssen Sie die Signifikanz auch nicht prüfen – obwohl das recht einfach geht. Ich zeig's am Schluss des Aufsatzes für Freunde der Mathematik. Aber stolze 5% Irrtumswahrscheinlichkeit akzeptieren wir, wenn wir ein neues Medikament als wirksam ansehen. Am Frankfurter Flughafen starten und landen täglich etwas mehr als 1200 Flugzeuge. Selbst wenn jeden Tag 60 Maschinen (5%) crashend in Flammen aufgehen, könnten wir signifikant behaupten, in Frankfurt sei das Fliegen absolut sicher. Relativer und absoluter Nutzen
Unsere Zeitungen – achten Sie einmal darauf – sind voll von Berichten wie „42% weniger Herzinfarkte“ oder „Sterblichkeit um 47% verringert“. Diese Berichte stellen den relativen Nutzen einer Therapie dar, verschweigen uns aber aus gutem Grund geschamig den absoluten Nutzen. Nur selten kann man ihn aus dem Text heraus filtern. Dazu braucht man die Zahlen aller Probanden der Studie, um den Erfolg der Verum-Probanden mit denen der Placebo-Empfänger vergleichen zu können. Die Differenz dieser beiden Teilgruppen ist der abolute Nutzen. Der liegt bei den meisten der um die Trophäe des Spitzenreiters konkurrierenden Kreislaufmedikamenten so um zwei bis vier Prozent. Und das über einige Jahre gerechnet. Auf's Jahr umgerechnet oft deutlich unter 1%, d.h. wenn 100 Leute das Zeug ein Jahr schlucken, hat noch nicht einmal einer davon einen Nutzen. "NNT = number needed to treat" nennen wir diese Zahl Anders ausgedrückt am Beispiel einer gern zitierten großen Studie zu einem Cholesterinsenker: wenn die Sterblichkeit binnen 5,4 Jahren in der Placebogruppe bei 12,2% liegt und in der Verumgruppe bei 8,7%, dann sind die folgenden drei Aussagen alle richtig: 1. Der absolute Nutzen beträgt in 5,4 Jahren 3,7% (die Differenz
der beiden Gruppen),
Der relative Nutzen (Aussage 2 oder gar 3) klingt natürlich viel eindrucksvoller als eine ehrliche Nutzendarstellung, ist aber fast schon unredlich. Es lohnt sich also immer, auf den absoluten Nutzen zu schauen, oder die NNT zu berechnen. Hier ein paar Beispiele: Studie FIT
Studie 4S
Studie HOPE
Wie bewertet man den Nutzen?
Um auf jeden Fall fündig zu werden, kann man auch mehrere Erfolgskriterien zum Maßstab machen. Wer fleißig sucht, findet auch mehr. Aber da jedem dieser Endpunkte die 5%ige Irrtumswahrscheinlichkeit innewohnt, ist jede Aussage nur zu 95% Wahrscheinlichkeit wahr. Bei drei Zielparametern sinkt also die Richtigkeitswahrscheinlichkeit auf 0,95 x 0,95 x 0,95 = 0,86 = 86%. Soll wirklich die Gesamtsterblichkeit in einem bestimmten Zeitraum zum Kriterium werden, kommt es natürlich auf eine wirklich gleichmäßige Verteilung der Risikopatienten auf Verum- und Placebo-Gruppe an, ebenso auf die Altersverteilung. Bestimmte Kontraindikationen als Ausschlusskriterium nur auf die Verumgruppe anzuwenden, führt logischerweise zu einem Vorteil für diese Gruppe. So geschehen bei einer großen Studie über den angeblichen Nutzen einer Östrogensubstitution für den Kreislauf. Randomisierung
Gibt es also in der Sterblichkeit signifikante Unterschiede, lohnt es sich, die Alters- oder Risikoverteilung im Detail unter die Lupe zu nehmen. Hat der Zufall mehr Ältere in die Placebogruppe gespült oder mehr Mehrfachrisikopatienten, dann wird dort auch die Sterblichkeit größer sein. Und schließlich: wer aus der Verum-Gruppe drei Tage nach dem Enddatum von Gevatter Hein geholt wird, hat dennoch zum Nutzenbeleg beigetragen. Bei der oben zitierten Studie würde es schon genügen, dass die Placebo-Probanden im Mittel um 21 Tage älter waren, um den 0,6%igen Nutzen p.a. auszulösen. Nach folgendem Muster errechnet: durchschnittliche zu erwartende Rest-Lebenszeit bis zur statistischen Lebenserwartung =120 Monate, davon 0,6% = 21 Tage. Neben den von Gevatter Hein aus einer Studie abberufenen Probanden fallen etliche Teilnehmer aus weil sie umziehen, auswandern oder einfach die Lust verlieren, oft wegen unangenehmer Nebenwirkungen. "Drop out" nennt man das. Und es lohnt sich, sehr genau hinzusehen, wie denn dieses "drop out" in die Statistik eingegangen ist. Abgebrochen
Multizentrisch
Wenn nicht der Zeitraum die Zahl der Probanden vermehren kann, dann macht vielleicht die multizentrische Studie Sinn, die eigentlich schon sprachlicher Unsinn ist, denn ein Zentrum kann es eben nur einmal geben. Man prüft an mehreren Kliniken oder lässt viele Ärzte prüfen. Das Problem der multizentrischen Studie liegt ganz woanders. Rechnen Sie mit: Die Kliniken A und B vergleichen – mit unterschiedlichem Eifer – das
Medikament NEURIN gegenüber dem alten bewährten ALTOL. Klinikchef
A hält mehr vom altbewährten, Chef B stürzt sich enthusiastisch
auf das neue. In beiden Kliniken entpuppt sich aber NEURIN als weniger
wirksam, in Klinik A mit 71% statt 77%, in Klinik B mit 85% statt 91% der
Behandelten.
macht aus beiden nicht so berauschenden Studien einfach eine multizentrische Studie, indem er die Zahlen beider Kliniken in einen Topf wirft.
multizentrisch
Oh Wunder der Mathematik: Mit einem Mal schneidet NEURIN mit 83% statt
Ähnlich lässt sich mit der Verschiebung von einer Gruppe in
die andere tricksen.
Ein neues Medikament gegen die Anämie wird getestet, erweist sich aber als Flop. Bei allen Probanden ist der Hb-Spiegel nicht etwa gestiegen, sondern um 0,2 g% gesunken. Nun könnte es ja sein, dass es bei schwerer Anämie mehr bringt, als bei einer leichten. Die Patienten werden in zwei Gruppen geteilt, Hb über 10g% und Hb unter 10 g%. Hier die Laborbefunde:
Nach der Behandlung liegen alle Werte um 0,2 g% schlechter. Dadurch
rutscht der 4. Patient von Gruppe 1 in Gruppe 2:
Wer sagt’s denn? In beiden Gruppen ist dank des hervorragenden neuen Medikamentes der Mittelwert signifikant gestiegen. Von Interpreten
Zum Schluß für Freunde der Mathematik
A = Verum mit Erfolg, B = Verum ohne Erfolg
Die Formel lautet: (N -1)
* (A * D - C * B)2
Je größer R ist, desto geringer ist die Wahrscheinlichkeit, dass es sich um ein Zufallsergebnis handelt. Um einer 5%igen Signifikanz (p<0,05) zu entsprechen, muß R mindestens 3,84 oder größer sein. Um einer Signifikanz von 1% (hoch signifikant, p<0,01) zu entsprechen, muß R größer oder gleich 6,64 sein. Die Zahlen lassen sich jedem Lehrbuch der Statistik entnehmen.
|
|||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||||
Wie man mit Stauchen, Strecken und
Ausschneiden die Wirklichkeit verzerrt
Wie ein hohes Konsumniveau zur Katastrophe
wird
| Private Konsumausgaben über 13 Jahre | Veränderung in % |
geplante Vorträge und Seminare von Hans-Heinrich
Jörgensen
zur Terminliste