P-Wert

Aus besserwiki.de

Der p-Wert (nach R. A. Fisher), auch Überschreitungswahrscheinlichkeit oder Signifikanzwert genannt (p für lateinisch probabilitas = Wahrscheinlichkeit), ist in der Statistik und dort insbesondere in der Testtheorie ein Evidenzmaß für die Glaubwürdigkeit der Nullhypothese, die oft besagt, dass ein bestimmter Zusammenhang nicht besteht, z. B. ein neues Medikament nicht wirksam ist. Ein kleiner p-Wert legt nahe, dass die Beobachtungen die Nullhypothese nicht stützen. Neben seiner Bedeutung als Evidenzmaß wird der p-Wert als mathematisches Hilfsmittel zur Feststellung von Signifikanz in Hypothesentests gebraucht, dem p-Wert selbst muss dafür keine besondere Bedeutung zugeschrieben werden.

Der p-Wert ist definiert als die Wahrscheinlichkeit – unter der Bedingung, dass die Nullhypothese in Wirklichkeit gilt – den beobachteten Wert der Prüfgröße oder einen in Richtung der Alternative „extremeren“ Wert zu erhalten. Der p-Wert entspricht dann dem kleinsten Signifikanzniveau, bei dem die Nullhypothese gerade noch verworfen werden kann. Da der p-Wert eine Wahrscheinlichkeit ist, kann er Werte von null bis eins annehmen. Dies bietet den Vorteil, dass er die Vergleichbarkeit verschiedener Testergebnisse ermöglicht. Der konkrete Wert wird durch die gezogene Stichprobe bestimmt. Ist der p-Wert „klein“ (kleiner als ein vorgegebenes Signifikanzniveau; allgemein < 0,05), so lässt sich die Nullhypothese ablehnen. Anders ausgedrückt: Ist die errechnete Prüfgröße größer als der kritische Wert (kann unmittelbar aus einer Quantiltabelle abgelesen werden), so kann die Nullhypothese verworfen werden und man kann davon ausgehen, dass die Alternativhypothese gilt und damit ein bestimmter Zusammenhang besteht (z. B. ein neues Medikament ist wirksam). Wenn die Nullhypothese zugunsten der Alternativhypothese verworfen wird, wird das Resultat als „statistisch signifikant“ bezeichnet. „Signifikant“ bedeutet hierbei lediglich „überzufällig“ und ist nicht gleichbedeutend mit „praktischer Relevanz“ oder „wissenschaftlicher Bedeutsamkeit“. In verschiedenen wissenschaftlichen Disziplinen haben sich festgesetzte Grenzen wie 5 %, 1 % oder 0,1 % etabliert, die verwendet werden, um zu entscheiden, ob die Nullhypothese abgelehnt werden kann oder nicht. Die Größe des p-Werts gibt keine Aussage über die Größe des wahren Effekts.

Der p-Wert wird sehr häufig fehlinterpretiert und falsch verwendet, weswegen sich die American Statistical Association im Jahr 2016 genötigt sah, eine Mitteilung über den Umgang mit p-Werten und statistischer Signifikanz zu veröffentlichen. Einer kleinen kanadischen Feldstudie von 2019 zufolge werden in etlichen Lehrbüchern die Begriffe „p-Wert“ und „statistische Signifikanz“ nicht korrekt vermittelt. Studien von Oakes (1986) und Haller & Krauss (2002) zeigen, dass ein Großteil von Studierenden und von Lehrern der Statistik den p-Wert nicht korrekt interpretieren können. Die falsche Verwendung und die Manipulation von p-Werten (siehe p-Hacking) ist eine Kontroverse in der Meta-Forschung.

Grundlegende Konzepte

In der Statistik wird jede Vermutung über die unbekannte Wahrscheinlichkeitsverteilung einer Sammlung von Zufallsvariablen, die die beobachteten Daten in einer Studie als statistische Hypothese bezeichnet. Wenn wir nur eine Hypothese aufstellen und das Ziel des statistischen Tests darin besteht, festzustellen, ob diese Hypothese haltbar ist, aber nicht, andere spezifische Hypothesen zu untersuchen, dann wird ein solcher Test als Nullhypothesentest bezeichnet.

Da unsere statistische Hypothese per Definition eine Eigenschaft der Verteilung angibt, ist die Nullhypothese die Standardhypothese, unter der diese Eigenschaft nicht existiert. Die Nullhypothese besagt in der Regel, dass ein bestimmter Parameter (z. B. eine Korrelation oder eine Differenz zwischen Mittelwerten) in den interessierenden Populationen Null ist. Beachten Sie, dass unsere Hypothese die Wahrscheinlichkeitsverteilung von genau spezifizieren oder nur angeben, dass sie zu einer bestimmten Klasse von Verteilungen gehört. Häufig reduzieren wir die Daten auf eine einzige numerische Statistik, z. B., dessen marginale Wahrscheinlichkeitsverteilung in engem Zusammenhang mit einer Hauptfrage steht, die in der Studie von Interesse ist.

Der p-Wert wird im Rahmen von Nullhypothesentests verwendet, um die statistische Signifikanz eines Ergebnisses zu quantifizieren, wobei das Ergebnis der beobachtete Wert der gewählten Statistik ist . Je niedriger der p-Wert ist, desto geringer ist die Wahrscheinlichkeit, dass dieses Ergebnis eintritt, wenn die Nullhypothese wahr wäre. Ein Ergebnis gilt als statistisch signifikant, wenn es die Nullhypothese verwerfen kann. Bei sonst gleichen Voraussetzungen werden kleinere p-Werte als stärkerer Beweis gegen die Nullhypothese gewertet.

Grob gesagt bedeutet die Ablehnung der Nullhypothese, dass es genügend Beweise gegen sie gibt.

Ein Beispiel: Wenn eine Nullhypothese besagt, dass eine bestimmte zusammenfassende Statistik der Standardnormalverteilung N(0,1) folgt, dann könnte die Ablehnung dieser Nullhypothese bedeuten, dass (i) der Mittelwert von nicht 0 ist, oder (ii) die Varianz von nicht 1 ist, oder (iii) nicht normalverteilt ist. Verschiedene Tests für dieselbe Nullhypothese würden mehr oder weniger empfindlich auf verschiedene Alternativen reagieren. Doch selbst wenn es uns gelingt, die Nullhypothese für alle drei Alternativen abzulehnen, und selbst wenn wir wissen, dass die Verteilung normalverteilt ist und die Varianz 1 beträgt, sagt uns der Nullhypothesentest nicht, welche Werte des Mittelwerts, die nicht Null sind, nun am plausibelsten sind. Je mehr unabhängige Beobachtungen aus derselben Wahrscheinlichkeitsverteilung man hat, desto genauer wird der Test sein und desto präziser wird man den Mittelwert bestimmen und zeigen können, dass er nicht gleich Null ist; damit steigt aber auch die Bedeutung der Bewertung der realen oder wissenschaftlichen Relevanz dieser Abweichung.

Definition und Interpretation

Definition

Wahrscheinlichkeit, eine realwertige Teststatistik zu erhalten, die mindestens so extrem ist wie die tatsächlich erhaltene

Man betrachte eine beobachtete Teststatistik aus einer unbekannten Verteilung . Dann ist der p-Wert die vorherige Wahrscheinlichkeit, einen Teststatistikwert zu erhalten, der mindestens so "extrem" ist wie wenn die Nullhypothese wahr wäre. Das heißt:

  • für einen einseitigen Rechtsschwanztest,
  • für einen einseitigen Linksschwanztest,
  • für einen zweiseitigen Test. Wenn die Verteilung von symmetrisch um Null ist, dann

Interpretationen

p-Wert als Statistik für die Durchführung von Signifikanztests

Bei einem Signifikanztest wird die Nullhypothese abgelehnt, wenn der p-Wert kleiner oder gleich einem vordefinierten Schwellenwert ist ist, der als Alpha-Niveau oder Signifikanzniveau bezeichnet wird. wird nicht aus den Daten abgeleitet, sondern vom Forscher vor der Untersuchung der Daten festgelegt. wird in der Regel auf 0,05 festgelegt, obwohl manchmal auch niedrigere Alpha-Niveaus verwendet werden.

Der p-Wert ist eine Funktion der gewählten Teststatistik und ist daher eine Zufallsvariable. Wenn die Nullhypothese die Wahrscheinlichkeitsverteilung von Genau, und wenn diese Verteilung kontinuierlich ist, dann ist der p-Wert, wenn die Nullhypothese wahr ist, gleichmäßig zwischen 0 und 1 verteilt. Der p-Wert ist also nicht festgelegt. Wenn derselbe Test unabhängig voneinander mit neuen Daten wiederholt wird, erhält man in der Regel bei jeder Iteration einen anderen p-Wert. Wenn die Nullhypothese zusammengesetzt ist oder die Verteilung der Statistik diskret ist, ist die Wahrscheinlichkeit, einen p-Wert kleiner oder gleich einer Zahl zwischen 0 und 1 zu erhalten, kleiner oder gleich dieser Zahl, wenn die Nullhypothese wahr ist. Es bleibt der Fall, dass sehr kleine Werte relativ unwahrscheinlich sind, wenn die Nullhypothese wahr ist, und dass ein Signifikanztest auf dem Niveau erhält man, indem man die Nullhypothese zurückweist, wenn das Signifikanzniveau kleiner als oder gleich .

Verschiedene p-Werte, die auf unabhängigen Datensätzen beruhen, können kombiniert werden, z. B. mit Hilfe des kombinierten Wahrscheinlichkeitstests von Fisher.

Verteilung

Wenn die Nullhypothese wahr ist, wenn sie die Form und die zugrunde liegende Zufallsvariable kontinuierlich ist, dann ist die Wahrscheinlichkeitsverteilung des p-Wertes gleichmäßig auf dem Intervall [0,1]. Ist dagegen die Alternativhypothese wahr, so hängt die Verteilung vom Stichprobenumfang und dem wahren Wert des untersuchten Parameters ab.

Die Verteilung der p-Werte für eine Gruppe von Studien wird manchmal als p-Kurve bezeichnet. Eine p-Kurve kann verwendet werden, um die Zuverlässigkeit wissenschaftlicher Literatur zu bewerten, z. B. durch Aufdeckung von Publikationsverzerrungen oder p-Hacking.

Für zusammengesetzte Hypothesen

Bei parametrischen Hypothesentests bezieht sich eine einfache oder Punkthypothese auf eine Hypothese, bei der der Wert des Parameters als eine einzige Zahl angenommen wird. Im Gegensatz dazu wird bei einer zusammengesetzten Hypothese der Wert des Parameters durch eine Reihe von Zahlen angegeben. Wenn beispielsweise die Nullhypothese, dass eine Verteilung normal ist und der Mittelwert kleiner oder gleich Null ist, gegen die Alternative getestet wird, dass der Mittelwert größer als Null ist (die Varianz ist bekannt), gibt die Nullhypothese nicht die Wahrscheinlichkeitsverteilung der entsprechenden Teststatistik an. In dem soeben erwähnten Beispiel wäre dies die Z-Statistik, die zum einseitigen Z-Test für eine Stichprobe gehört. Für jeden möglichen Wert des theoretischen Mittelwerts hat die Z-Test-Statistik eine andere Wahrscheinlichkeitsverteilung. Unter diesen Umständen (dem Fall einer so genannten zusammengesetzten Nullhypothese) wird der p-Wert definiert, indem man den ungünstigsten Fall der Nullhypothese nimmt, der typischerweise an der Grenze zwischen Null und Alternative liegt.

Diese Definition gewährleistet die Komplementarität von p-Werten und Alpha-Niveaus. Wenn wir das Signifikanzniveau alpha auf 0,05 festlegen und die Nullhypothese nur dann ablehnen, wenn der p-Wert kleiner oder gleich 0,05 ist, dann hat unser Hypothesentest tatsächlich ein Signifikanzniveau (maximale Fehlerrate vom Typ 1) von 0,05. Wie Neyman schrieb: "Der Fehler, dessen Vermeidung ein praktizierender Statistiker für am wichtigsten halten würde (was eine subjektive Einschätzung ist), wird als Fehler erster Art bezeichnet. Die erste Forderung der mathematischen Theorie besteht darin, solche Testkriterien abzuleiten, die sicherstellen, dass die Wahrscheinlichkeit, einen Fehler der ersten Art zu begehen, gleich (oder annähernd gleich, oder nicht größer) ist als eine vorher festgelegte Zahl α, z. B. α = 0,05 oder 0,01 usw. Diese Zahl wird als Signifikanzniveau bezeichnet"; Neyman 1976, S. 161 in "The Emergence of Mathematical Statistics: A Historical Sketch with Particular Reference to the United States", "On the History of Statistics and Probability", ed. D.B. Owen, New York: Marcel Dekker, S. 149-193. Siehe auch "Confusion Over Measures of Evidence (p's) Versus Errors (a's) in Classical Statistical Testing", Raymond Hubbard und M. J. Bayarri, The American Statistician, August 2003, Vol. 57, No 3, 171--182 (mit Diskussion). Für eine prägnante moderne Erklärung siehe Kapitel 10 von "All of Statistics: A Concise Course in Statistical Inference", Springer; 1st Corrected ed. 20 edition (September 17, 2004). Larry Wasserman.

Verwendung

Der p-Wert wird häufig bei statistischen Hypothesentests verwendet, insbesondere bei Signifikanztests für Nullhypothesen. Bei dieser Methode wählt man vor der Durchführung der Studie zunächst ein Modell (die Nullhypothese) und das Alpha-Niveau α (meist 0,05). Wenn nach der Analyse der Daten der p-Wert kleiner als α ist, bedeutet dies, dass die beobachteten Daten so wenig mit der Nullhypothese übereinstimmen, dass die Nullhypothese verworfen werden kann. Dies beweist jedoch nicht, dass die Nullhypothese falsch ist. Der p-Wert an sich bestimmt nicht die Wahrscheinlichkeiten der Hypothesen. Vielmehr ist er ein Hilfsmittel, um zu entscheiden, ob die Nullhypothese verworfen werden soll.

Falsche Verwendung

Nach Angaben der ASA besteht weitgehende Übereinstimmung darüber, dass p-Werte häufig falsch verwendet und falsch interpretiert werden. Eine Praxis, die besonders kritisiert wurde, ist die Annahme der Alternativhypothese für jeden p-Wert, der nominell kleiner als .05 ist, ohne andere unterstützende Beweise. Obwohl p-Werte hilfreich sind, um zu beurteilen, wie unvereinbar die Daten mit einem bestimmten statistischen Modell sind, müssen auch kontextuelle Faktoren berücksichtigt werden, wie z. B. "das Design einer Studie, die Qualität der Messungen, die externe Evidenz für das untersuchte Phänomen und die Gültigkeit der Annahmen, die der Datenanalyse zugrunde liegen". Ein weiteres Problem ist, dass der p-Wert oft als die Wahrscheinlichkeit missverstanden wird, dass die Nullhypothese wahr ist.

Einige Statistiker haben vorgeschlagen, den p-Wert abzuschaffen und sich mehr auf andere schlussfolgernde Statistiken wie Konfidenzintervalle, Wahrscheinlichkeitsquotienten oder Bayes-Faktoren zu konzentrieren, aber die Machbarkeit dieser Alternativen wird kontrovers diskutiert. Andere haben vorgeschlagen, feste Signifikanzschwellen abzuschaffen und p-Werte als kontinuierliche Indizes für die Stärke der Evidenz gegen die Nullhypothese zu interpretieren. Wieder andere schlugen vor, neben den p-Werten auch die Vorwahrscheinlichkeit eines tatsächlichen Effekts anzugeben, die erforderlich wäre, um ein falsch-positives Risiko (d. h. die Wahrscheinlichkeit, dass kein tatsächlicher Effekt vorliegt) unterhalb eines vorgegebenen Schwellenwerts (z. B. 5 %) zu erhalten.

Berechnung

Normalerweise, eine Teststatistik. Eine Teststatistik ist die Ausgabe einer skalaren Funktion aller Beobachtungen. Diese Statistik liefert eine einzige Zahl, z. B. eine t-Statistik oder eine F-Statistik. Als solche folgt die Teststatistik einer Verteilung, die durch die zur Definition dieser Teststatistik verwendete Funktion und die Verteilung der eingegebenen Beobachtungsdaten bestimmt wird.

Für den wichtigen Fall, dass es sich bei den Daten um eine Zufallsstichprobe aus einer Normalverteilung handelt, wurden in Abhängigkeit von der Art der Teststatistik und den interessierenden Hypothesen über ihre Verteilung verschiedene Nullhypothesentests entwickelt. Einige dieser Tests sind der z-Test für Hypothesen über den Mittelwert einer Normalverteilung mit bekannter Varianz, der t-Test auf der Grundlage der Student's t-Verteilung einer geeigneten Statistik für Hypothesen über den Mittelwert einer Normalverteilung, wenn die Varianz unbekannt ist, der F-Test auf der Grundlage der F-Verteilung einer weiteren Statistik für Hypothesen über die Varianz. Für Daten anderer Art, z. B. kategoriale (diskrete) Daten, können Teststatistiken konstruiert werden, deren Nullhypothesenverteilung auf normalen Annäherungen an geeignete Statistiken beruht, die unter Berufung auf den zentralen Grenzwertsatz für große Stichproben gewonnen werden, wie im Fall des Chi-Quadrat-Tests von Pearson.

Die Berechnung eines p-Wertes erfordert also eine Nullhypothese, eine Teststatistik (sowie die Entscheidung, ob der Forscher einen einseitigen oder zweiseitigen Test durchführt) und Daten. Auch wenn die Berechnung der Teststatistik für gegebene Daten einfach sein mag, ist die Berechnung der Stichprobenverteilung unter der Nullhypothese und die anschließende Berechnung ihrer kumulativen Verteilungsfunktion (CDF) oft ein schwieriges Problem. Heutzutage wird diese Berechnung mit statistischer Software durchgeführt, oft mit numerischen Methoden (anstatt mit exakten Formeln), aber zu Beginn und in der Mitte des 20. Jahrhunderts wurde dies stattdessen mit Wertetabellen durchgeführt, und man interpolierte oder extrapolierte p-Werte aus diesen diskreten Werten. Anstatt eine Tabelle mit p-Werten zu verwenden, hat Fisher stattdessen die CDF invertiert und eine Liste von Werten der Teststatistik für gegebene feste p-Werte veröffentlicht; dies entspricht der Berechnung der Quantilfunktion (inverse CDF).

Beispiel

Prüfung der Fairness einer Münze

Als Beispiel für einen statistischen Test wird ein Experiment durchgeführt, um festzustellen, ob der Wurf einer Münze gerecht ist (gleiche Chance, Kopf oder Zahl zu erhalten) oder ungerecht verzerrt (ein Ergebnis ist wahrscheinlicher als das andere).

Angenommen, die Versuchsergebnisse zeigen, dass die Münze 14 Mal von insgesamt 20 Würfen Kopf zeigt. Die vollständigen Daten wären eine Folge von zwanzig Mal das Symbol "H" oder "T". Die Statistik, auf die man sich konzentrieren könnte, könnte die Gesamtzahl von Köpfen sein. Die Nullhypothese lautet, dass die Münze fair ist und die Münzwürfe unabhängig voneinander sind. Wenn ein rechtsseitiger Test in Betracht gezogen wird, was der Fall wäre, wenn man sich tatsächlich für die Möglichkeit interessiert, dass die Münze voreingenommen ist und Kopf fällt, dann ist der p-Wert dieses Ergebnisses die Wahrscheinlichkeit, dass eine faire Münze mindestens 14 Mal von 20 Würfen auf Kopf fällt. Diese Wahrscheinlichkeit lässt sich anhand der Binomialkoeffizienten wie folgt berechnen

Diese Wahrscheinlichkeit ist der p-Wert, wobei nur extreme Ergebnisse berücksichtigt werden, die für Kopf sprechen. Dies wird ein einseitiger Test genannt. Man kann jedoch auch an Abweichungen in beide Richtungen interessiert sein, die entweder Kopf oder Zahl begünstigen. Stattdessen kann der zweiseitige p-Wert berechnet werden, der Abweichungen berücksichtigt, die entweder Kopf oder Zahl bevorzugen. Da die Binomialverteilung bei einer fairen Münze symmetrisch ist, ist der zweiseitige p-Wert einfach doppelt so hoch wie der oben berechnete einseitige p-Wert: Der zweiseitige p-Wert beträgt 0,115.

Im obigen Beispiel:

  • Nullhypothese (H0): Die Münze ist fair, mit Pr(Kopf) = 0,5
  • Teststatistik: Anzahl der Köpfe
  • Alpha-Niveau (bezeichnete Signifikanzschwelle): 0.05
  • Beobachtung O: 14 Köpfe von 20 Würfen; und
  • Zweiseitiger p-Wert der Beobachtung O bei H0 = 2 × min(Pr(Anzahl der Köpfe ≥ 14 Köpfe), Pr(Anzahl der Köpfe ≤ 14 Köpfe)) = 2 × min(0,058, 0,978) = 2*0,058 = 0,115.

Es ist zu beachten, dass Pr (Anzahl der Köpfe ≤ 14 Köpfe) = 1 - Pr(Anzahl der Köpfe ≥ 14 Köpfe) + Pr (Anzahl der Köpfe = 14) = 1 - 0,058 + 0,036 = 0,978; die Symmetrie dieser Binomialverteilung macht es jedoch unnötig, die kleinere der beiden Wahrscheinlichkeiten zu berechnen. In diesem Fall ist der berechnete p-Wert größer als 0,05, was bedeutet, dass die Daten in 95% der Fälle in den Bereich dessen fallen, was passieren würde, wenn die Münze tatsächlich fair wäre. Die Nullhypothese wird also auf dem Niveau von 0,05 nicht verworfen.

Hätte man jedoch einen weiteren Kopf erhalten, wäre der sich ergebende p-Wert (zweiseitig abgesichert) 0,0414 (4,14 %) gewesen, so dass die Nullhypothese auf dem .05-Niveau abgelehnt worden wäre.

Mehrstufiger Versuchsplan

Der Unterschied zwischen den beiden Bedeutungen von "extrem" wird deutlich, wenn wir ein mehrstufiges Experiment zum Testen der Fairness der Münze betrachten. Nehmen wir an, wir planen das Experiment wie folgt:

  • Wirf die Münze zweimal. Wenn beide Kopf oder Zahl ergeben, wird das Experiment beendet.
  • Andernfalls wirfst du die Münze 4 weitere Male.

Dieses Experiment hat 7 Arten von Ergebnissen: 2 Kopf, 2 Zahl, 5 Kopf, 1 Zahl..., 1 Kopf, 5 Zahl. Wir berechnen nun den p-Wert für das Ergebnis "3 Kopf 3 Zahl".

Wenn wir die Teststatistik verwenden, dann ist der p-Wert unter der Nullhypothese genau 1 für den zweiseitigen p-Wert, und genau für den einseitigen p-Wert für die linke Seite und den gleichen Wert für den einseitigen p-Wert für die rechte Seite.

Wenn wir jedes Ergebnis, das eine gleiche oder geringere Wahrscheinlichkeit als "3 Kopf 3 Zahl" hat, als "mindestens genauso extrem" betrachten, dann ist der p-Wert genau .

Nehmen wir jedoch an, wir wollen die Münze einfach 6 Mal werfen, egal was passiert, dann würde die zweite Definition des p-Wertes bedeuten, dass der p-Wert von "3 Kopf 3 Zahl" genau 1 ist.

Die Definition des p-Wertes "mindestens so extrem" ist also stark kontextabhängig und hängt davon ab, was der Experimentator auch in Situationen, die nicht eingetreten sind, zu tun gedachte.

Geschichte

Chest high painted portrait of man wearing a brown robe and head covering
John Arbuthnot
Pierre-Simon Laplace
Man seated at his desk looking up at the camera
Karl Pearson
Sepia toned photo of young man wearing a suit, a medal, and wire-rimmed eyeglasses
Ronald Fisher

P-Wert-Berechnungen gehen auf das Jahr 1700 zurück, wo sie für das menschliche Geschlechterverhältnis bei der Geburt berechnet wurden und zur Berechnung der statistischen Signifikanz im Vergleich zur Nullhypothese der gleichen Wahrscheinlichkeit männlicher und weiblicher Geburten verwendet wurden. John Arbuthnot untersuchte diese Frage im Jahr 1710 und untersuchte die Geburtsregister in London für jedes der 82 Jahre von 1629 bis 1710. In jedem Jahr überstieg die Zahl der männlichen Geburten in London die Zahl der weiblichen. Wenn man davon ausgeht, dass mehr männliche oder mehr weibliche Geburten gleich wahrscheinlich sind, beträgt die Wahrscheinlichkeit des beobachteten Ergebnisses 1/282 oder etwa 1 zu 4.836.000.000.000.000.000.000.000, modern ausgedrückt, der p-Wert. Dieser Wert ist verschwindend gering, was Arbuthnot zu der Annahme veranlasste, dass dies nicht dem Zufall, sondern der göttlichen Vorsehung zu verdanken sei: "Daraus folgt, dass nicht der Zufall, sondern die Kunst regiert". Modern ausgedrückt, verwarf er die Nullhypothese der gleichen Wahrscheinlichkeit von männlichen und weiblichen Geburten mit einem Signifikanzniveau von p = 1/282. Diese und andere Arbeiten von Arbuthnot gelten als "... die erste Verwendung von Signifikanztests ...", das erste Beispiel für Überlegungen zur statistischen Signifikanz und "... vielleicht der erste veröffentlichte Bericht über einen nichtparametrischen Test ...", insbesondere den Vorzeichentest; siehe Einzelheiten unter Vorzeichentest § Geschichte.

Die gleiche Frage wurde später von Pierre-Simon Laplace behandelt, der stattdessen einen parametrischen Test verwendete, indem er die Anzahl der männlichen Geburten mit einer Binomialverteilung modellierte:

In den 1770er Jahren betrachtete Laplace die Statistik von fast einer halben Million Geburten. Die Statistik zeigte einen Überschuss an Jungen im Vergleich zu Mädchen. Durch die Berechnung eines p-Wertes kam er zu dem Schluss, dass es sich bei diesem Überschuss um einen realen, aber unerklärten Effekt handelt.

Der p-Wert wurde erstmals formell von Karl Pearson in seinem Pearson's chi-squared Test eingeführt, der die chi-Quadrat-Verteilung verwendet und mit dem Großbuchstaben P notiert ist. Die p-Werte für die chi-Quadrat-Verteilung (für verschiedene Werte von χ2 und Freiheitsgraden), die jetzt mit P notiert sind, wurden in (Elderton 1902) berechnet, gesammelt in (Pearson 1914, S. xxxi-xxxiii, 26-28, Tabelle XII).

Die Verwendung des p-Wertes in der Statistik wurde von Ronald Fisher populär gemacht, und er spielt eine zentrale Rolle in seinem Ansatz zu diesem Thema. In seinem einflussreichen Buch Statistical Methods for Research Workers (1925) schlug Fisher als Grenzwert für die statistische Signifikanz das Niveau p = 0,05 vor, d. h. eine Chance von 1 zu 20, dass der Wert zufällig überschritten wird, und wandte dies auf eine Normalverteilung (als zweiseitigen Test) an, woraus sich die Regel von zwei Standardabweichungen (bei einer Normalverteilung) für die statistische Signifikanz ergab (siehe 68-95-99,7-Regel).

Anschließend berechnete er eine Wertetabelle, ähnlich wie Elderton, vertauschte aber vor allem die Rollen von χ2 und p. Das heißt, anstatt p für verschiedene Werte von χ2 (und Freiheitsgrade n) zu berechnen, berechnete er Werte von χ2, die bestimmte p-Werte ergeben, nämlich 0,99, 0,98, 0,95, 0,90, 0,80, 0,70, 0,50, 0,30, 0,20, 0,10, 0,05, 0,02 und 0,01. Dies ermöglichte den Vergleich der berechneten χ2-Werte mit den Cutoff-Werten und förderte die Verwendung von p-Werten (insbesondere 0,05, 0,02 und 0,01) als Cutoff-Werte, anstatt die p-Werte selbst zu berechnen und anzugeben. Die gleiche Art von Tabellen wurde dann in (Fisher & Yates 1938) zusammengestellt, wodurch der Ansatz gefestigt wurde.

Zur Veranschaulichung der Anwendung von p-Werten bei der Planung und Auswertung von Experimenten präsentierte Fisher in seinem folgenden Buch The Design of Experiments (1935) das Tee-Experiment mit einer Dame, das das Paradebeispiel für den p-Wert darstellt.

Um die Behauptung einer Dame (Muriel Bristol) zu bewerten, sie (Muriel Bristol) könne geschmacklich unterscheiden, wie der Tee zubereitet wird (erst die Milch in die Tasse geben, dann den Tee, oder erst den Tee, dann die Milch), wurden ihr nacheinander 8 Tassen vorgelegt: 4 auf die eine Art zubereitet, 4 auf die andere Art zubereitet, und sie wurde gebeten, die Zubereitung jeder Tasse zu bestimmen (in dem Wissen, dass es jeweils 4 Tassen waren). In diesem Fall lautete die Nullhypothese, dass sie keine besondere Fähigkeit hat, der Test war der exakte Test von Fisher, und der p-Wert war so dass Fisher bereit war, die Nullhypothese zu verwerfen (das Ergebnis als höchst unwahrscheinlich für einen Zufall zu betrachten), wenn alle richtig klassifiziert wurden. (Im tatsächlichen Experiment hat Bristol alle 8 Tassen richtig klassifiziert.)

Fisher wiederholte den Schwellenwert von p = 0,05 und erläuterte die Gründe dafür, indem er erklärte:

Es ist üblich und bequem für Experimentatoren, 5 Prozent als Standard-Signifikanzniveau zu nehmen, in dem Sinne, dass sie bereit sind, alle Ergebnisse zu ignorieren, die diesen Standard nicht erreichen, und auf diese Weise den größten Teil der Schwankungen, die zufällige Ursachen in ihre experimentellen Ergebnisse eingebracht haben, aus der weiteren Diskussion auszuschließen.

Er wendet diesen Schwellenwert auch auf die Versuchsplanung an und stellt fest, dass eine perfekte Klassifizierung bei nur 6 Bechern (je 3 Stück) nur einen p-value von ergeben, der dieses Signifikanzniveau nicht erreicht hätte. Fisher betonte auch die Interpretation von p als den langfristigen Anteil von Werten, die mindestens so extrem sind wie die Daten, unter der Annahme, dass die Nullhypothese wahr ist.

In späteren Ausgaben stellte Fisher die Verwendung des p-Wertes für statistische Schlussfolgerungen in der Wissenschaft ausdrücklich der Neyman-Pearson-Methode gegenüber, die er als "Akzeptanzverfahren" bezeichnet. Fisher betont, dass feste Werte wie 5 %, 2 % und 1 % zwar praktisch sind, dass aber der genaue p-Wert verwendet werden kann und dass die Beweiskraft mit weiteren Experimenten überprüft werden kann und wird. Im Gegensatz dazu erfordern Entscheidungsverfahren eine eindeutige Entscheidung, die zu einer unumkehrbaren Handlung führt, und das Verfahren basiert auf Fehlerkosten, die seiner Meinung nach für die wissenschaftliche Forschung nicht anwendbar sind.

Verwandte Indizes

Der E-Wert entspricht der erwarteten Anzahl der Fälle, in denen man bei Mehrfachtests eine Teststatistik erhält, die mindestens so extrem ist wie die tatsächlich beobachtete, wenn man annimmt, dass die Nullhypothese wahr ist. Der E-Wert ist das Produkt aus der Anzahl der Tests und dem p-Wert.

Der q-Wert ist das Analogon des p-Wertes in Bezug auf die positive Falschentdeckungsrate. Er wird bei multiplen Hypothesentests verwendet, um die statistische Aussagekraft zu erhalten und gleichzeitig die Falsch-Positiv-Rate zu minimieren.

Die Richtungswahrscheinlichkeit (pd) ist das numerische Bayes'sche Äquivalent des p-Wertes. Sie entspricht dem Anteil der Posterior-Verteilung, der das Vorzeichen des Medians hat, typischerweise zwischen 50 % und 100 %, und stellt die Sicherheit dar, mit der ein Effekt positiv oder negativ ist.

Weitere Eigenschaften

Falls die Prüfgröße eine stetige Verteilung hat, ist der -Wert, unter der (punktförmigen) Nullhypothese, uniform verteilt auf dem Intervall .