Über reale und imaginäre Irrtumswahrscheinlichkeiten

bei statistischen Tests1

 

 

Christoph Kraiker

 

 

Das Mysterium

 

Die Irrtumswahrscheinlichkeit ist die Wahrscheinlichkeit, sich zu irren. Irren kann man sich unter anderem bei Behauptungen, die man aufstellt, bei Überzeugungen, die man hat, und bei Entscheidungen, die man trifft. Bei Signifikanztests Fisherianischer Provenienz (Fisher1956) wird man nach Durchführung des Tests entweder die Nullhypothese zurückweisen oder in agnostischer Unschlüssigkeit verbleiben. Im ersten Fall kann man sich demnach irren, im zweiten Fall nicht, da hier ja keine Entscheidung getroffen wurde. Nach Durchführung eines statistischen Tests im Sinne des so genannten hybriden Modells (z.B. Gigerenzer 1989) wird man (unter anderem) entweder die Nullhypothese zurückweisen oder die Nullhypothese akzeptieren. Damit sind zwei Typen von Irrtumswahrscheinlich­keiten gegeben:  ­

1.      Die Wahrscheinlichkeit, dass man sich irrt, wenn man die Nullhypothese zurückweist.

  1. Die Wahrscheinlichkeit, dass man sich irrt, wenn man die Nullhypothese annimmt.

 

Diese realen aber bislang namenlosen Irrtumswahrscheinlichkeiten sind nicht identisch mit jenen Kennwerten, die in der scientific community  Irrtumswahrscheinlichkeiten genannt werden, nämlich die Wahrscheinlichkeit eines sogenannten Fehlers erster oder zweiter Art (beziehungsweise eines Alpha- oder Beta-Fehlers). Sie lassen sich aus diesen allein auch nicht berechnen. Die in der wissenschaftlichen Literatur erscheinenden imaginären error probabilities sind vielmehr bedingte Wahrscheinlichkeiten, deren erstes Glied ein jeweils hypothetischer Weltzustande ist (die Nullhypothese trifft zu bzw. sie trifft nicht zu) und deren zweites Glied ein Untersuchungsergebnis. Eine klassische Formulierung ist: wenn die Nullhypothese wahr wäre, dann wäre die Wahrscheinlichkeit für ein Ergebnis der gefundenen oder noch stärkeren Ausprägung kleiner als p=0,05. Zum Verfahren des statistischen Testens gehören noch Entscheidungsregeln, die festlegen, bei welchen Ausprägungen der hypothetischen Wahrscheinlichkeiten für das Auftreten bestimmter Ergebnisse die Nullhypothese zurückgewiesen bzw. angenommen wird. Nach einer solchen Entscheidung wissen wir nur, dass wir die Nullhypothese angenommen bzw. zurückgewiesen habe (jedenfalls so lange wir noch bei Trost sind) aber wir wissen nach der Untersuchung genau so wenig wie vorher, wie wahrscheinlich es ist, das wir uns dabei irren. Das ist nun keine originelle Erkenntnis. In jedem Lehrbuch der sogenannten Inferenzstatistik finden wir Sätze wie „rejection of the null hypothesis using a decision rule with a significance level of .05, for example, does not mean that the null hypothesis has a probability of 0.95 of being false, or a probability of 0.05 of being true (Pollard, 1986, 35), und die Aussage, dass die (realen) Irrtumswahrscheinlichkeiten auch nach dem Test unbekannt sind, folgt daraus logisch. Man kann aber nicht sagen, dass dieser Sachverhalt wirklich hervorgehoben und deutlich gemacht wird, denn dann müsste man erklären, was das Ganze eigentlich soll.

Wie kam es zu dem Problem und gibt es eine Lösung? Die falsche (aber vom Standpunkt erfolgreicher Vernebelung her natürlich geniale) Bezeichnung von Alpha und Beta als Irrtumswahrscheinlichkeit ist dem Umstand geschuldet, dass die Normalsprache die Richtung logischer Implikationen (von denen die bedingten Wahrscheinlichkeiten eine spezielle Art sind)  oft nicht klar erkennen lässt. Denn die Wahrscheinlichkeit, dass man die Nullhypothese zurückweist, obwohl sie zutrifft, ist  nicht identisch mit der Wahrscheinlichkeit, dass die Nullhypothese zutrifft, obwohl man sie zurückweist. Und die Wahr­schein­lichkeit, dass man die Nullhypothese annimmt, obwohl sie falsch ist, ist nicht identisch mit der Wahrscheinlichkeit, dass die Nullhypothese falsch ist, obwohl man sie akzeptiert (In beiden Fällen könnte eine numerische Identität höchstens zufällig erscheinen).

 

Der Grund ist der, dass sich aus einer bedingten Wahrscheinlichkeit von Typ

 

Die Wahrscheinlichkeit von A gegeben B                                        p(A|B)

die Wahrscheinlichkeit von B gegeben A                             p(B|A)

 

allein nicht berechnen lässt.

 

Die Wahrscheinlichkeit, dass wir die Nullhypothese zurückweisen, obwohl sie zutrifft, bzw. dass wir die Nullhypothese akzeptieren, obwohl sie nicht zutrifft, ist ziemlich uninteressant. Sie sagt etwas über hypothetische Welten, von denen wir nicht wissen, ob wir drin wohnen. Was uns interessiert ist: Wenn wir nach Anwendung des Test die Nullhypothese zurückweisen, wie wahrscheinlich ist es, dass wir uns irren? Und wenn wir die Nullhypothese annehmen, wie wahrscheinlich ist es, dass sie trotzdem falsch ist? Und beides wissen wir eben nicht, trotz „Studies of Power“, Bonferroni Korrekturen und anderen wunderbaren Sachen.

 

Sensitivität und Spezifität

 

Entscheidungen nach hybriden statistischen Tests lassen sich vergleichen mit den Ergebnisse von binären diagnostischen Tests (Kraiker & Haupt 2009). Um die „Irrtumswahrscheinlichkeiten“ bei diesen Tests zu charakterisieren, werden in der Literatur fast ausschließlich die Kennwerte Sensitivität und Spezifität angegeben. Sensitivität ist dabei die Wahrscheinlichkeit, dass jemand, der die Störung hat, auch tatsächlich ein positive Diagnose erhält, Spezifität die Wahrscheinlichkeit, dass jemand, der die Störung nicht hat, tatsächlich eine negative Diagnose erhält. Nehmen wir an, wir haben einen diagnostischen Test, sagen wir für Schizophrenie, mit einer Sensitivität und Spezifität von jeweils 0,9. Man könnte jetzt so argumentieren:

Bei Leuten, die die Störung haben, gibt es eine Fehlerquote von 10 Prozent. Bei Leuten, die die Störung nicht haben, gibt es ebenfalls eine Fehlerquote von 10 Prozent. Andere Fälle gibt es nicht. Also beträgt die Fehlerquote des Tests 10 Prozent.

Auch hier wird die Richtung der bedingten Wahrscheinlichkeit falsch gesehen. Was uns wirklich interessiert ist einerseits die positive Vorhersagegenauigkeit: wenn ich eine positive Diagnose abgeben, wie wahrscheinlich ist es, dass sie stimmt? Und andererseits die negative Vorhersagegenauigkeit: wenn ich eine negative Diagnose abgebe, wie wahrscheinlich ist es, dass die stimmt? Diese beiden Wahrscheinlichkeiten sind nicht identisch mit Sensitivität und Spezifität und lassen sich aus diesen allein auch nicht errechnen. Wir können das mit obigem Beispiel illustrieren: Wenn Schizophrenie eine Prävalenz von 1 % hat, dann erwarten wir, bei einer Zufallsstichprobe von tausend Personen zehn Personen zu finden, auf die diese Diagnose zutrifft, und neunhundertneunzig, auf die sie nicht zutrifft, Wie man leicht ausrechnen kann, käme man Anwendung des genannten Tests auf die Zufallsstichprobe zu 108 positiven Diagnosen, von denen aber nur neun korrekt sind.  Die positive Vorhersagegenauigkeit beträgt gerade mal 0,083, das heißt, die Irrtumswahrscheinlichkeit liegt hier bei mehr als 91 Prozent.

 

Unterschiede zwischen statistischen Tests und diagnostischen Tests 

 

Nun können wir mit Hilfe des Theorems von Bayes die positiven und negativen Vorhersagegenauigkeiten eines diagnostischen Tests bestimmen, wenn wir neben der Sensitivität und Spezifität die a priori Wahrscheinlichkeit kennen, dass eine Person die zu diagnostizierende Störung hat (Kraiker und Haupt 2009). Diese lässt sich rechnerisch schätzen, wenn die Prävalenz der Störung in der untersuchten Population bekannt ist. Wenn die Prävalenz 5 Prozent beträgt, dann gilt als die a priori Wahrscheinlichkeit für das Vorliegen der Störung eben p=0,05. In analoger Weise könnten wir mit Bayes´ Theorem die realen Irrtumswahrscheinlichkeiten bei statistischen Tests bestimmen, wenn wie die a priori Wahrscheinlichkeit kenne würden, dass die Nullhypothese zutrifft. In Analogie zu diagnostischen Tests müssten wir die Prävalenz von zutreffenden Nullhypothesen in der Population aller Nullhypothesen bestimmen. Das scheint theoretisch möglich, denn unter allen bisher untersuchten Nullhypothesen muss es einen bestimmten Prozentsatz von zutreffenden geben. Tatsächlich aber ist es aus mindestens zwei Gründen unmöglich. Ich könnte zwar im Prinzip eine Zufallstichprobe bisheriger Untersuchungen analysieren, aber ich könnte nur feststellen, wie viele der untersuchten Nullhypothesen abgelehnt bzw. akzeptiert wurden, und das ist etwas ganz anderes. Darüber hinaus ist die Prävalenz einer Störung eine Naturtatsache, die ich vorfinde und die einige Zeit Bestand haben wird. Bei statistischen Tests bin ich aber nicht an den vergangenen Untersuchungen interessiert, sondern an denen, die ich durchführe und durchführen werde. Und die finde ich nicht vor, sondern die konstruieren ich im Lichte der gerade gängigen wissenschaftlichen Interessen und meiner Intentionen und praktischen Möglichkeiten. Von einer naturgegebenen Prävalenz korrekter Nullhypothesen kann da keine Rede sein.

Das Problem der Bestimmung der erforderlichen a priori Wahrscheinlichkeit wird dadurch verschärft, dass es diesbezüglich zwei entgegengesetzte Vor-Urteile gibt. Das eine besagt, dass Nullhypothesen in der Regel falsch sind, da immer irgendwelche Effekte existieren, und seien so noch so klein (Bakan, 1966). Das andere, dass man in der Regel davon ausgehen müsse, dass Nullhypothesen zutreffen, da Untersuchungen primär von dem Interesse geleitet seien, Effekte nachzuweisen, auch wenn sie nicht da sind. Man will Therapien verkaufen, auch wenn sie nicht wirken, und ohne den „Nachweis“ Aufsehen erregender Effekte kann man keinen akademischen oder publikatorischen Blumentopf gewinnen.

 

Was tun?

 

Das Problem erscheint mir rational nicht lösbar, eben weil man dem Begriff der a priori Wahrscheinlichkeit der Nullhypothese keinen objektiven, sondern höchsten einen subjektiven Sinn geben kann. Das Problem der subjektiven Wahrscheinlichkeit ist natürlich das Subjekt. Entweder gibt es alle möglichen Subjekte, dann gibt es auch alle möglichen subjektiven Wahrscheinlichkeiten. Oder man fordert ein idealtypischen Subjekt, das seine Meinung nach objektiven Regeln bildet, und das kann es in diesem Fall eben nicht. Also nochmals: wozu sind statistische Signifikanztests gut? Eines ist jedenfalls sicher: sie dienen nicht der empirischen Inferenz, denn darunter versteht man, dass man aufgrund bekannter Tatsachen und bekannter Gesetze auf Unbekanntes schließt, nicht, dass man aufgrund hypothetischer Annahmen auf etwas schließt, was man schon weiß. Anders gesagt: „the problem of inference, however,  is to say something about the parameters given the observations rather than the other way around“ (Pollard 1986, S. 24).  Die Einführung des hybriden Modells als “inference revolution” zu betrachten (z.B. Gigerenzer et al. 1989, S. 107) verkennt, dass hier keine Inferenz vorliegt, sondern, dass nur so getan wird. Der einzige Lösungsversuch, den ich kenne, ist das sogenannte Fiducial Argument von R.A. Fisher (1956, S. 51ff), von dem Ian Hacking schrieb „ No branch of statistical writing is more mystifying than that which bears on what he (R.A. Fisher, Anm.) calls the fiducial probabilities reached by the fiducial argument“ (1965, S. 133).

Ich konnte dieses Mysterium auch nicht durchdringen, und präsentiere daher folgende Schlussfolgerung:

Das Problem der Signifikanztests (Fisher pur oder hybrid) ist kein Problem der Induktionslogik sondern eines der Wissenschaftssoziologie. Es handelt sich wohl um magische Riten, denen man sich unterziehen muss, um in der wissenschaftlichen Gemeinschaft Ehre und Anerkennung für seine Forschungsergebnisse zu erlangen.

 

 

 

Literaturverzeichnis

 

 

Bakan, D. (1966). The Test of Significance in Psychological Research. Psychological Bulletin, 66, 423-437.

 

Fisher, R., A. (1956). Statistical Methods and Scientific Inference. London: Oliver and Boyd.

 

Gigerenzer, G. et al. (1989). The Empire of Chance. Cambridge: Cambridge University Press.

 

Hacking, Ian (1965) Logic of Statistical Inference. Cambridge: Cambridge University Press.

 

Kraiker, C. & Haupt, T. C. (2009). Qualitätsmerkmale binärer diagnostischer Tests. Klinische Diagnostik und Evaluation, 2, 2- 15.

 

Pollard, W.E. (1986). Bayesian statistics for evaluation research. Beverly Hills: Sage Publications