Wilcoxon-Mann-Whitney-Test

Aus besserwiki.de

Der Wilcoxon-Mann-Whitney-Test (auch: Mann-Whitney-U-Test, U-Test, Wilcoxon-Rangsummentest) ist die zusammenfassende Bezeichnung für zwei äquivalente nichtparametrische statistische Tests für Rangdaten (ordinalskalierte Daten). Sie testen, ob es bei Betrachtung zweier Populationen gleich wahrscheinlich ist, dass ein zufällig aus der einen Population ausgewählter Wert größer oder kleiner ist als ein zufällig ausgewählter Wert aus der anderen Population. Bei Verwerfung dieser Hypothese ist anzunehmen, dass die Werte aus der einen Population dazu tendieren, größer bzw. kleiner zu sein als die aus der anderen Population. Der Mann-Whitney-U-Test bzw. Wilcoxon-Rangsummentest ist – anders als der Median-Test – nicht von vornherein ein Test zur Gleichheit zweier Mediane. Dies ist nur unter der Voraussetzung der Fall, dass die Verteilungsform und Streuung der abhängigen Variable in beiden Gruppen gleich ist.

Die Tests wurden von Henry Mann und Donald Whitney (U-Test, 1947) bzw. Frank Wilcoxon (Wilcoxon-Rangsummentest, 1945) entwickelt. Die zentrale Idee des Tests wurde bereits 1914 von dem deutschen Pädagogen Gustaf Deuchler entwickelt.

Praktisch findet der Wilcoxon-Rangsummentest bzw. der U-Test als Alternative zum t-Test für unabhängige Stichproben Anwendung, wenn dessen Voraussetzungen verletzt sind. Dies ist unter anderem der Fall, wenn die zu testende Variable nur Ordinalskalenniveau aufweist, oder wenn intervallskalierte Variablen in den beiden Populationen nicht (näherungsweise) normalverteilt sind.

Der Wilcoxon-Rangsummentest für zwei unabhängige Stichproben ist nicht zu verwechseln mit dem Wilcoxon-Vorzeichen-Rang-Test, der bei zwei verbundenen (gepaarten) Stichproben Anwendung findet.

Annahmen und formale Erklärung der Hypothesen

Obwohl Mann und Whitney den Mann-Whitney-U-Test unter der Annahme entwickelt haben, dass die Antworten kontinuierlich sind und die Alternativhypothese lautet, dass eine Verteilung stochastisch größer ist als die andere, gibt es viele andere Möglichkeiten, die Null- und Alternativhypothesen so zu formulieren, dass der Mann-Whitney-U-Test einen gültigen Test ergibt.

Eine sehr allgemeine Formulierung ist die Annahme, dass:

  1. Alle Beobachtungen aus beiden Gruppen sind unabhängig voneinander,
  2. Die Antworten sind zumindest ordinal (d. h., man kann zumindest sagen, welche von zwei Beobachtungen die größere ist),
  3. Unter der Nullhypothese H0 sind die Verteilungen der beiden Populationen identisch.
  4. Die Alternativhypothese H1 lautet, dass die Verteilungen nicht identisch sind.

Nach der allgemeinen Formulierung ist der Test nur dann konsistent, wenn unter H1 Folgendes eintritt:

  1. Die Wahrscheinlichkeit, dass eine Beobachtung aus der Population X eine Beobachtung aus der Population Y übersteigt, ist anders (größer oder kleiner) als die Wahrscheinlichkeit, dass eine Beobachtung aus Y eine Beobachtung aus X übersteigt, d. h. P(X > Y) ≠ P(Y > X) oder P(X > Y) + 0,5 - P(X = Y) ≠ 0,5.

Unter strengeren Annahmen als der obigen allgemeinen Formulierung, z. B. wenn die Antworten als kontinuierlich angenommen werden und die Alternative auf eine Ortsverschiebung beschränkt ist, d. h. F1(x) = F2(x + δ), kann ein signifikanter Mann-Whitney-U-Test als Hinweis auf einen Unterschied der Mediane interpretiert werden. Unter dieser Annahme der Ortsverschiebung können wir den Mann-Whitney-U-Test auch dahingehend interpretieren, ob die Hodges-Lehmann-Schätzung der Differenz der zentralen Tendenz zwischen den beiden Populationen von Null abweicht. Die Hodges-Lehmann-Schätzung für dieses Zwei-Stichproben-Problem ist der Median aller möglichen Unterschiede zwischen einer Beobachtung in der ersten Stichprobe und einer Beobachtung in der zweiten Stichprobe.

Andernfalls, wenn sich sowohl die Streuungen als auch die Formen der Verteilung beider Stichproben unterscheiden, versagt der Mann-Whitney-U-Test bei der Prüfung der Mediane. Es ist möglich, Beispiele zu zeigen, bei denen die Mediane numerisch gleich sind und der Test die Nullhypothese mit einem kleinen p-Wert zurückweist.

Der Mann-Whitney-U-Test / Wilcoxon-Rangsummentest ist nicht dasselbe wie der Wilcoxon-Signed-Rank-Test, obwohl beide nichtparametrisch sind und die Summierung von Rängen beinhalten. Der Mann-Whitney-U-Test wird auf unabhängige Stichproben angewandt. Der Wilcoxon-Signed-Rank-Test wird auf gematchte oder abhängige Stichproben angewandt.

U-Statistik

Sei sei eine i.i.d.-Stichprobe aus und eine i.i.d.-Stichprobe aus und beide Stichproben seien unabhängig voneinander. Die entsprechende Mann-Whitney-U-Statistik ist definiert als:

mit

Berechnungen

Der Test beinhaltet die Berechnung einer Statistik, in der Regel U genannt, deren Verteilung unter der Nullhypothese bekannt ist. Bei kleinen Stichproben wird die Verteilung tabelliert, aber bei Stichprobengrößen über ~20 ist die Annäherung durch die Normalverteilung recht gut. In einigen Büchern werden Statistiken aufgeführt, die mit U gleichwertig sind, z. B. die Summe der Ränge in einer der Stichproben, anstatt U selbst.

Der Mann-Whitney-U-Test ist in den meisten modernen Statistikpaketen enthalten. Er lässt sich aber auch leicht von Hand berechnen, insbesondere bei kleinen Stichproben. Dazu gibt es zwei Möglichkeiten.

Methode eins: Für den Vergleich von zwei kleinen Gruppen von Beobachtungen ist eine direkte Methode schnell und gibt einen Einblick in die Bedeutung der U-Statistik, die der Anzahl der Gewinne aus allen paarweisen Wettbewerben entspricht (siehe das Beispiel von Schildkröte und Hase unter Beispiele unten). Zählen Sie für jede Beobachtung in einer Gruppe, wie oft dieser erste Wert gegenüber den Beobachtungen in der anderen Gruppe gewinnt (der andere Wert verliert, wenn der erste größer ist). Zähle 0,5 für alle Unentschieden. Die Summe der Gewinne und Unentschieden ist U (d. h.: ) für die erste Menge. U für die andere Menge ist das Gegenteil (d. h.: ).

Methode zwei: Für größere Stichproben:

  1. Weisen Sie allen Beobachtungen numerische Ränge zu (fügen Sie die Beobachtungen aus beiden Gruppen zu einer Menge zusammen), beginnend mit 1 für den kleinsten Wert. Bei Gruppen mit gleichen Werten weisen Sie einen Rang zu, der dem Mittelpunkt der nicht bereinigten Ränge entspricht (z. B. sind die Ränge von (3, 5, 5, 5, 5, 8) (1, 3,5, 3,5, 3,5, 3,5, 6), wobei die nicht bereinigten Ränge (1, 2, 3, 4, 5, 6) wären).
  2. Addieren Sie nun die Ränge für die Beobachtungen, die aus Stichprobe 1 stammen. Die Summe der Ränge in Stichprobe 2 ist nun bestimmt, da die Summe aller Ränge gleich N(N + 1)/2 ist, wobei N die Gesamtzahl der Beobachtungen ist.
  3. U ist dann gegeben durch:
wobei n1 der Stichprobenumfang für Stichprobe 1 und R1 die Summe der Ränge in Stichprobe 1 ist.
Dabei spielt es keine Rolle, welche der beiden Stichproben als Stichprobe 1 betrachtet wird. Eine ebenso gültige Formel für U lautet
Der kleinere Wert von U1 und U2 wird verwendet, wenn man Signifikanztabellen konsultiert. Die Summe der beiden Werte ist gegeben durch
Wenn man weiß, dass R1 + R2 = N(N + 1)/2 und N = n1 + n2 ist, und ein wenig Algebra anwendet, ergibt sich die folgende Summe
U1 + U2 = n1n2.

Eigenschaften

Der Maximalwert von U ist das Produkt der Stichprobenumfänge für die beiden Stichproben (d. h.: ). In diesem Fall wäre das "andere" U gleich 0.

Beispiele

Veranschaulichung der Berechnungsmethoden

Angenommen, Äsop ist unzufrieden mit seinem klassischen Experiment, bei dem eine Schildkröte einen Hasen in einem Rennen besiegt hat, und beschließt, einen Signifikanztest durchzuführen, um herauszufinden, ob die Ergebnisse auf Schildkröten und Hasen im Allgemeinen übertragen werden können. Er sammelt eine Stichprobe von 6 Schildkröten und 6 Hasen und lässt sie alle gleichzeitig sein Rennen laufen. Die Reihenfolge, in der sie das Ziel erreichen (ihre Rangfolge, vom ersten bis zum letzten Überqueren der Ziellinie) ist wie folgt, wobei T für eine Schildkröte und H für einen Hasen steht:

T H H H H T T T T T T H

Was ist der Wert von U?

  • Bei der direkten Methode nehmen wir jede Schildkröte der Reihe nach und zählen die Anzahl der Hasen, die sie schlägt. Wir erhalten 6, 1, 1, 1, 1, 1, 1, was bedeutet, dass UT = 11 ist. Alternativ können wir jeden Hasen der Reihe nach nehmen und die Anzahl der Schildkröten zählen, die er besiegt. In diesem Fall erhalten wir 5, 5, 5, 5, 5, 0, also UH = 25. Man beachte, dass die Summe dieser beiden Werte für U = 36, also 6×6 ist.
  • Verwenden Sie die indirekte Methode:
Ordne die Tiere nach der Zeit, die sie für den Parcours benötigen, so dass das erste Tier den Rang 12, das zweite den Rang 11 usw. erhält.
Die Summe der von den Schildkröten erreichten Ränge ist 12 + 6 + 5 + 4 + 3 + 2 = 32.
Daher ist UT = 32 - (6×7)/2 = 32 - 21 = 11 (wie bei Methode eins).
Die Summe der von den Hasen erreichten Ränge ist 11 + 10 + 9 + 8 + 7 + 1 = 46, was zu UH = 46 - 21 = 25 führt.

Beispiel für die Angabe der Ergebnisse

Bei der Angabe der Ergebnisse eines Mann-Whitney-U-Tests ist es wichtig, diese anzugeben:

  • Ein Maß für die zentralen Tendenzen der beiden Gruppen (Mittelwerte oder Mediane; da der Mann-Whitney U-Test ein ordinaler Test ist, werden in der Regel Mediane empfohlen)
  • Der Wert von U (vielleicht mit einem Maß für die Effektgröße, wie z. B. die Effektgröße in der Umgangssprache oder die Rang-Biserial-Korrelation).
  • Die Stichprobengrößen
  • Das Signifikanzniveau.

In der Praxis kann es vorkommen, dass einige dieser Informationen bereits geliefert wurden, und es sollte mit gesundem Menschenverstand entschieden werden, ob sie wiederholt werden sollen. Ein typischer Bericht könnte lauten,

"Die Medianlatenzen in den Gruppen E und C betrugen 153 und 247 ms; die Verteilungen in den beiden Gruppen unterschieden sich signifikant (Mann-Whitney U = 10,5, n1 = n2 = 8, P < 0,05 zweiseitig)."

Eine Aussage, die dem statistischen Status des Tests voll gerecht wird, könnte lauten,

"Die Ergebnisse der beiden Behandlungen wurden mit dem Wilcoxon-Mann-Whitney-Rangsummentest mit zwei Stichproben verglichen. Der Behandlungseffekt (Unterschied zwischen den Behandlungen) wurde mit dem Hodges-Lehmann (HL)-Schätzer quantifiziert, der mit dem Wilcoxon-Test übereinstimmt. Dieser Schätzer (HLΔ) ist der Median aller möglichen Ergebnisunterschiede zwischen einem Probanden der Gruppe B und einem Probanden der Gruppe A. Ein nichtparametrisches 0,95-Konfidenzintervall für HLΔ begleitet diese Schätzungen ebenso wie ρ, eine Schätzung der Wahrscheinlichkeit, dass ein zufällig ausgewählter Proband aus der Population B ein höheres Gewicht hat als ein zufällig ausgewählter Proband aus der Population A. Das Mediangewicht [Quartile] der Probanden unter Behandlung A und B beträgt 147 [121, 177] bzw. 151 [130, 180] kg. Behandlung A verringerte das Gewicht um HLΔ = 5 kg (0,95 CL [2, 9] kg, 2P = 0,02, ρ = 0,58)."

Es wäre jedoch selten, einen so ausführlichen Bericht in einem Dokument zu finden, dessen Hauptthema nicht die statistische Inferenz ist.

Normale Annäherung und Bindungskorrektur

Bei großen Stichproben ist U annähernd normalverteilt. In diesem Fall ist der standardisierte Wert

wobei mU und σU der Mittelwert und die Standardabweichung von U sind, näherungsweise eine Standardnormalabweichung, deren Signifikanz in Tabellen der Normalverteilung überprüft werden kann. mU und σU sind gegeben durch

und

Die Formel für die Standardabweichung ist komplizierter, wenn es Ranggleichheit gibt. Wenn es Ranggleichheit gibt, muss σ wie folgt angepasst werden

Dabei ist die linke Seite einfach die Varianz und die rechte Seite die Anpassung für Gleichheit, tk ist die Anzahl der Gleichheit für den k-ten Rang und K ist die Gesamtzahl der eindeutigen Ränge mit Gleichheit.

Eine rechnerisch effizientere Form, bei der n1n2/12 ausgeklammert wird, ist

wobei n = n1 + n2.

Wenn die Anzahl der Gleichstände gering ist (und vor allem, wenn es keine großen Gleichstände gibt), können die Gleichstände bei manuellen Berechnungen ignoriert werden. Die statistischen Computerprogramme verwenden routinemäßig die korrekt angepasste Formel.

Da U1 + U2 = n1n2 ist, ist der Mittelwert n1n2/2, der bei der normalen Annäherung verwendet wird, der Mittelwert der beiden Werte von U. Daher ist der absolute Wert der berechneten z-Statistik gleich, unabhängig davon, welcher Wert von U verwendet wird.

Effektgrößen

Es ist eine allgemein empfohlene Praxis für Wissenschaftler, eine Effektgröße für einen inferentiellen Test anzugeben.

Anteil der Konkordanz an allen Paaren

Die folgenden drei Maße sind gleichwertig.

Allgemeinsprachliche Effektgröße

Eine Methode zur Angabe der Effektgröße für den Mann-Whitney-U-Test ist f, die gemeinsame sprachliche Effektgröße. Als Stichprobenstatistik wird die gemeinsame Spracheffektgröße berechnet, indem alle möglichen Paare zwischen den beiden Gruppen gebildet werden und dann der Anteil der Paare ermittelt wird, die eine Richtung unterstützen (z. B. dass die Items aus Gruppe 1 größer sind als die Items aus Gruppe 2). Zur Veranschaulichung: In einer Studie mit einer Stichprobe von zehn Hasen und zehn Schildkröten ist die Gesamtzahl der geordneten Paare zehn mal zehn oder 100 Paare von Hasen und Schildkröten. Angenommen, die Ergebnisse zeigen, dass der Hase in 90 der 100 Stichprobenpaare schneller lief als die Schildkröte; in diesem Fall beträgt die Effektgröße der Stichprobe für die gemeinsame Sprache 90 %. Dieser Stichprobenwert ist ein unverzerrter Schätzer des Populationswertes, so dass die Stichprobe darauf schließen lässt, dass die beste Schätzung der gemeinsamen Spracheffektgröße in der Population 90% beträgt.

Die Beziehung zwischen f und dem Mann-Whitney U (insbesondere ) ist wie folgt:

Dies entspricht der Fläche unter der Kurve (AUC) für die nachstehende ROC-Kurve.

ρ-Statistik

Eine Statistik namens ρ, die linear mit U zusammenhängt und häufig in Studien zur Kategorisierung (Unterscheidungslernen mit Konzepten) und anderswo verwendet wird, wird berechnet, indem U durch seinen Maximalwert für den gegebenen Stichprobenumfang geteilt wird, der einfach n1×n2 ist. ρ ist somit ein nichtparametrisches Maß für die Überlappung zwischen zwei Verteilungen; es kann Werte zwischen 0 und 1 annehmen und ist eine Schätzung von P(Y > X) + 0,5 P(Y = X), wobei X und Y zufällig ausgewählte Beobachtungen aus den beiden Verteilungen sind. Beide Extremwerte stehen für eine vollständige Trennung der Verteilungen, während ein ρ-Wert von 0,5 eine vollständige Überlappung bedeutet. Die Nützlichkeit der ρ-Statistik zeigt sich im Fall des oben verwendeten ungeraden Beispiels, bei dem zwei Verteilungen, die bei einem Mann-Whitney-U-Test signifikant unterschiedlich waren, dennoch fast identische Mediane aufwiesen: Der ρ-Wert liegt in diesem Fall bei etwa 0,723 zugunsten der Hasen, was die Tatsache korrekt widerspiegelt, dass die Hasen insgesamt besser abschnitten als die Schildkröten, obwohl der Median der Schildkröten den Median der Hasen übertraf.

Fläche-unter-Kurve (AUC) Statistik für ROC-Kurven

Die U-Statistik entspricht der Fläche unter der Receiver-Operating-Characteristic-Kurve (AUC), die sich leicht berechnen lässt.

Beachten Sie, dass dies dieselbe Definition ist wie die umgangssprachliche Effektgröße aus dem obigen Abschnitt, d. h. die Wahrscheinlichkeit, dass ein Klassifikator eine zufällig ausgewählte positive Instanz höher einstuft als eine zufällig ausgewählte negative Instanz (unter der Annahme, dass "positiv" höher eingestuft wird als "negativ").

Aufgrund ihrer probabilistischen Form kann die U-Statistik zu einem Maß für die Trennschärfe eines Klassifikators für mehr als zwei Klassen verallgemeinert werden:

Dabei ist c die Anzahl der Klassen, und der Term Rk, von AUCk, berücksichtigt nur die Rangfolge der Elemente, die zu den Klassen k und gehören (d. h., AUCk,k wird immer gleich Null sein, aber anders als im Zweiklassenfall ist AUCk, ≠ AUC,k im Allgemeinen gleich, weshalb das Maß M über alle (k,)-Paare summiert wird, wobei der Durchschnitt von AUCk, und AUC,k verwendet wird.

Rang-biseriale Korrelation

Eine Methode zur Angabe der Effektgröße für den Mann-Whitney-U-Test ist ein Maß für die Rangkorrelation, die so genannte Rang-Biserial-Korrelation. Edward Cureton hat dieses Maß eingeführt und benannt. Wie andere Korrelationsmaße kann auch die Rang-Biserial-Korrelation von minus eins bis plus eins reichen, wobei ein Wert von null keinen Zusammenhang anzeigt.

Es gibt eine einfache Differenzformel, um die Rang-Biserial-Korrelation aus der allgemeinsprachlichen Effektgröße zu berechnen: Die Korrelation ist die Differenz zwischen dem Anteil der Paare, die für die Hypothese günstig sind (f), minus ihrem Komplement (d. h.: dem Anteil, der ungünstig ist (u)). Diese einfache Differenzformel ist lediglich die Differenz der gemeinsamen sprachlichen Effektgröße der einzelnen Gruppen und lautet wie folgt:

Nehmen wir das Beispiel, dass Hasen in 90 von 100 Paaren schneller laufen als Schildkröten. Die gemeinsame Spracheffektgröße beträgt 90 %, also ist die Rang-Biserial-Korrelation 90 % minus 10 % und das Rang-Biserial r = 0,80.

Eine alternative Formel für die Rangbiserialkorrelation kann verwendet werden, um sie aus dem Mann-Whitney U zu berechnen (entweder oder ) und den Stichprobengrößen der einzelnen Gruppen berechnet werden:

Diese Formel ist nützlich, wenn die Daten nicht verfügbar sind, aber wenn es einen veröffentlichten Bericht gibt, weil U und die Stichprobengrößen routinemäßig angegeben werden. Im obigen Beispiel mit 90 Paaren, die die Hasen bevorzugen, und 10 Paaren, die die Schildkröten bevorzugen, ist U2 die kleinere der beiden, also U2 = 10. Diese Formel ergibt dann r = 1 - (2×10) / (10×10) = 0,80, was dasselbe Ergebnis wie bei der obigen einfachen Differenzformel ist.

Beziehung zu anderen Tests

Vergleich mit Student's t-test

Der Mann-Whitney-U-Test testet die Nullhypothese, dass die Wahrscheinlichkeit, dass eine zufällig gezogene Beobachtung aus einer Gruppe größer ist als eine zufällig gezogene Beobachtung aus der anderen Gruppe, gleich 0,5 ist, gegen die Alternative, dass diese Wahrscheinlichkeit nicht 0,5 ist (siehe Mann-Whitney-U-Test#Annahmen und formale Erklärung der Hypothesen). Im Gegensatz dazu testet ein t-Test die Nullhypothese, dass die Mittelwerte zweier Gruppen gleich sind, gegen die Alternative, dass die Mittelwerte ungleich sind. Daher testen der Mann-Whitney-U-Test und der t-Test, außer in besonderen Fällen, nicht dieselben Hypothesen und sollten unter Berücksichtigung dieser Tatsache verglichen werden.

Ordinale Daten
Der Mann-Whitney-U-Test ist dem t-Test vorzuziehen, wenn die Daten ordinal, aber nicht intervallskaliert sind, da in diesem Fall nicht davon ausgegangen werden kann, dass der Abstand zwischen benachbarten Skalenwerten konstant ist.
Robustheit
Da der Mann-Whitney-U-Test die Summen der Ränge vergleicht, ist es weniger wahrscheinlich als beim t-Test, dass er aufgrund des Vorhandenseins von Ausreißern fälschlicherweise Signifikanz anzeigt. Allerdings kann der Mann-Whitney-U-Test eine schlechtere Typ-I-Fehlerkontrolle aufweisen, wenn die Daten sowohl heteroskedastisch als auch nicht normal sind.
Wirkungsgrad
Wenn Normalität herrscht, hat der Mann-Whitney-U-Test im Vergleich zum t-Test eine (asymptotische) Effizienz von 3/π oder etwa 0,95. Für Verteilungen, die hinreichend weit von der Normalverteilung entfernt sind, und für hinreichend große Stichprobenumfänge ist der Mann-Whitney-U-Test wesentlich effizienter als der t-Test. Dieser Effizienzvergleich ist jedoch mit Vorsicht zu interpretieren, da Mann-Whitney- und t-Test nicht dieselben Größen testen. Wenn z. B. ein Unterschied der Gruppenmittelwerte von primärem Interesse ist, ist der Mann-Whitney-Test nicht der geeignete Test.

Der Mann-Whitney-U-Test liefert sehr ähnliche Ergebnisse wie ein gewöhnlicher parametrischer t-Test mit zwei Stichproben auf die Rangfolge der Daten.

Unterschiedliche Verteilungen

Wenn man die stochastische Ordnung der beiden Populationen testen möchte (d. h. die Alternativhypothese ), ohne anzunehmen, dass die Formen der Verteilungen gleich sind (d. h. Verwendung der Nullhypothese anstelle von ), gibt es bessere Tests. Dazu gehören der Brunner-Munzel-Test und der Fligner-Policello-Test. Insbesondere unter der allgemeineren Nullhypothese kann der Mann-Whitney-U-Test selbst bei großen Stichproben überhöhte Fehlerquoten vom Typ I aufweisen (insbesondere, wenn die Varianzen der beiden Populationen ungleich und die Stichprobengrößen unterschiedlich sind), ein Problem, das die besseren Alternativen lösen. Infolgedessen wurde vorgeschlagen, eine der Alternativen (insbesondere den Brunner-Munzel-Test) zu verwenden, wenn nicht davon ausgegangen werden kann, dass die Verteilungen unter der Nullhypothese gleich sind.

Alternativen

Wenn man eine einfache Interpretation der Verschiebung wünscht, sollte der Mann-Whitney-U-Test nicht verwendet werden, wenn die Verteilungen der beiden Stichproben sehr unterschiedlich sind, da er zu einer fehlerhaften Interpretation der signifikanten Ergebnisse führen kann. In einer solchen Situation kann die Version des t-Tests mit ungleichen Varianzen zuverlässigere Ergebnisse liefern.

In ähnlicher Weise schlagen einige Autoren (z. B. Conover) vor, die Daten in Ränge umzuwandeln (wenn sie nicht bereits Ränge sind) und dann den t-Test an den umgewandelten Daten durchzuführen, wobei die verwendete Version des t-Tests davon abhängt, ob die Varianzen der Populationen vermutlich unterschiedlich sind oder nicht. Bei Rangtransformationen bleiben die Varianzen nicht erhalten, aber die Varianzen werden aus den Stichproben nach Rangtransformationen neu berechnet.

Der Brown-Forsythe-Test wurde als geeignetes nichtparametrisches Äquivalent zum F-Test für gleiche Varianzen vorgeschlagen.

Ein leistungsfähigerer Test ist der Brunner-Munzel-Test, der den Mann-Whitney-U-Test im Falle einer Verletzung der Annahme der Austauschbarkeit übertrifft.

Der Mann-Whitney-U-Test ist ein Spezialfall des Proportionalitätsmodells, der eine Kovariatenanpassung ermöglicht.

Siehe auch Kolmogorov-Smirnov-Test.

Verwandte Teststatistiken

Kendall's Tau

Der Mann-Whitney-U-Test ist mit einer Reihe von anderen nichtparametrischen statistischen Verfahren verwandt. Er entspricht beispielsweise dem Korrelationskoeffizienten Kendall's tau, wenn eine der Variablen binär ist (d. h. nur zwei Werte annehmen kann).

Software-Implementierungen

In vielen Softwarepaketen ist der Mann-Whitney-U-Test (für die Hypothese der Gleichverteilung gegenüber geeigneten Alternativen) schlecht dokumentiert. Einige Pakete behandeln Ungleichheiten falsch oder versäumen es, asymptotische Techniken zu dokumentieren (z. B. die Korrektur für Kontinuität). In einem Bericht aus dem Jahr 2000 wurden einige der folgenden Pakete besprochen:

  • MATLAB hat ranksum in seiner Statistics Toolbox.
  • Das Statistik-Basispaket von R implementiert den Test wilcox.test in seinem "stats"-Paket.
  • Das R-Paket wilcoxonZ berechnet die z-Statistik für einen Wilcoxon-Zwei-Stichproben-, Paar- oder Ein-Stichproben-Test.
  • SAS implementiert den Test in seiner Prozedur PROC NPAR1WAY.
  • Python (Programmiersprache) verfügt über eine Implementierung dieses Tests, die von SciPy
  • SigmaStat (SPSS Inc., Chicago, IL)
  • SYSTAT (SPSS Inc., Chicago, IL)
  • Java (Programmiersprache) verfügt über eine Implementierung dieses Tests, die von Apache Commons bereitgestellt wird
  • Julia (Programmiersprache) verfügt über Implementierungen dieses Tests durch verschiedene Pakete. Im Paket HypothesisTests.jl findet man ihn als pvalue(MannWhitneyUTest(X, Y))
  • JMP (SAS Institute Inc., Cary, NC)
  • S-Plus (MathSoft, Inc., Seattle, WA)
  • STATISTICA (StatSoft, Inc., Tulsa, OK)
  • UNISTAT (Unistat Ltd, London)
  • SPSS (SPSS Inc, Chicago)
  • StatsDirect (StatsDirect Ltd, Manchester, UK) implementiert alle gängigen Varianten.
  • Stata (Stata Corporation, College Station, TX) implementiert den Test in seinem Befehl ranksum.
  • StatXact (Cytel Software Corporation, Cambridge, Massachusetts)
  • PSPP implementiert den Test in seiner WILCOXON-Funktion.

Geschichte

Die Statistik erschien 1914 in einem Artikel des Deutschen Gustav Deuchler (mit einem fehlenden Term in der Varianz).

1945 schlug Frank Wilcoxon in einem einzigen Aufsatz sowohl den Rangtest mit einer Stichprobe mit Vorzeichen als auch den Rangsummentest mit zwei Stichproben vor, und zwar in einem Signifikanztest mit einer Punkt-Null-Hypothese gegen die komplementäre Alternative (d. h. gleich oder nicht gleich). Allerdings hat er in dieser Arbeit nur einige wenige Punkte für den Fall der gleichen Stichprobengröße tabellarisch aufgeführt (in einer späteren Arbeit hat er jedoch größere Tabellen vorgelegt).

Eine gründliche Analyse der Statistik mit einer Rekursion, die die Berechnung von Schwanzwahrscheinlichkeiten für beliebige Stichprobenumfänge und Tabellen für Stichprobenumfänge von acht oder weniger ermöglichte, erschien in dem Artikel von Henry Mann und seinem Schüler Donald Ransom Whitney im Jahr 1947. In diesem Artikel wurden alternative Hypothesen erörtert, darunter eine stochastische Ordnung (bei der die kumulativen Verteilungsfunktionen die punktweise Ungleichung FX(t) < FY(t) erfüllten). In diesem Artikel wurden auch die ersten vier Momente berechnet und die begrenzende Normalität der Statistik unter der Nullhypothese festgestellt, so dass die Statistik asymptotisch verteilungsfrei ist.

Teststatistik

Mann-Whitney-U-Statistik

Exakte kritische Werte

Die exakte Verteilung von unter der Bedingung der Nullhypothese kann mittels kombinatorischer Überlegungen leicht gefunden werden. Allerdings steigt der Rechenaufwand für große Werte von rasch an. Einige exakte kritische Werte für liegen tabelliert vor und können für kleine Stichprobenumfänge der Tabelle unten entnommen werden ( beim zweiseitigen Test und beim einseitigen Test).

Es gibt eine Rekursionsformel, die eine schrittweise und wenig rechenzeitintensive Ermittlung der kritischen Werte für geringe Stichprobengrößen erlaubt.

Approximative kritische Werte

Für , und kann

durch die Normalverteilung approximiert werden. Die kritischen Werte ergeben sich dann aus den kritischen Werten der approximativen Normalverteilung.

Wilcoxon-Rangsummenstatistik

Die Wilcoxon-Rangsummenstatistik ist

mit der Rang der i-ten X in der gepoolten, geordneten Stichprobe. In dieser Form trägt der Test häufig die Bezeichnung Wilcoxon-Rangsummentest.

Exakte kritische Werte

Die exakte Verteilung von unter der Bedingung der Nullhypothese kann mittels kombinatorischer Überlegungen leicht gefunden werden. Allerdings steigt der Rechenaufwand für große Werte von rasch an. Man kann die exakten kritischen Werte zum Signifikanzniveau mittels einer Rekursionsformel berechnen:

(oder oder oder )

Die Formel entsteht, wenn man konditioniert auf die Bedingung, ob der letzte Wert in der Anordnung ein × (...X) oder ein Y (...Y) ist.

Approximative kritische Werte

Für oder (auch: oder ) kann die Teststatistik

durch die Normalverteilung approximiert werden. Die kritischen Werte ergeben sich dann aus den kritischen Werten der approximativen Normalverteilung.

Einseitige Hypothesen

Der Test kann auch für die einseitigen Hypothesen

bzw.

formuliert werden.

Beispiel

Zweiseitiger Test

Exakte kritische Werte

Anhand der untenstehenden Tabelle ergibt sich mit und ein kritischer Wert von für ein Signifikanzniveau von . Abgelehnt wird die Nullhypothese, wenn ist; dies ist hier aber nicht der Fall.

Approximative kritische Werte

Da die Teststatistik approximativ normal verteilt ist, folgt dass die

verteilt ist. Für ein Signifikanzniveau von ergibt sich der Nichtablehnungsbereich der Nullhypothese im zweiseitigen Test durch das 2,5%- bzw. 97,5%-Quantil der Standardnormalverteilung mit . Es ergibt sich jedoch , d. h., der Prüfwert liegt innerhalb des Intervalls und die Nullhypothese kann nicht abgelehnt werden.

Einseitiger Test

Exakte kritische Werte

Anhand der untenstehenden Tabelle ergibt sich mit und ein kritischer Wert von für ein Signifikanzniveau von (anderes Signifikanzniveau als beim zweiseitigen Test!). Abgelehnt wird die Nullhypothese, wenn ist (es ist das passende für das gewählte einseitige Testproblem zu betrachten); dies ist hier nicht der Fall.

Approximative kritische Werte

Für ein Signifikanzniveau von ergibt sich der kritische Wert als das 5%-Quantil der Standardnormalverteilung und der Nichtablehnungsbereich der Nullhypothese als . Es ergibt sich jedoch , d. h., die Nullhypothese kann nicht abgelehnt werden.

Tabelle der kritischen Werte der Mann-Whitney-U-Statistik

Die folgende Tabelle ist gültig für (zweiseitig) bzw. (einseitig) mit . Der Eintrag „-“ bedeutet, dass die Nullhypothese in jedem Fall zu dem gegebenen Signifikanzniveau nicht abgelehnt werden kann. Z. B. ist:

und

so dass 55 der geeignete kritische Wert für den einseitigen Test bei mit und ist.

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40
1 - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - 0 0
2 - - - - - - 0 0 0 0 1 1 1 1 1 2 2 2 2 3 3 3 3 3 4 4 4 4 5 5 5 5 5 6 6 6 6 7 7
3 - - 0 1 1 2 2 3 3 4 4 5 5 6 6 7 7 8 8 9 9 10 10 11 11 12 13 13 14 14 15 15 16 16 17 17 18 18
4 0 1 2 3 4 4 5 6 7 8 9 10 11 11 12 13 14 15 16 17 17 18 19 20 21 22 23 24 24 25 26 27 28 29 30 31 31
5 2 3 5 6 7 8 9 11 12 13 14 15 17 18 19 20 22 23 24 25 27 28 29 30 32 33 34 35 37 38 39 40 41 43 44 45
6 5 6 8 10 11 13 14 16 17 19 21 22 24 25 27 29 30 32 33 35 37 38 40 42 43 45 46 48 50 51 53 55 56 58 59
7 8 10 12 14 16 18 20 22 24 26 28 30 32 34 36 38 40 42 44 46 48 50 52 54 56 58 60 62 64 66 68 70 72 74
8 13 15 17 19 22 24 26 29 31 34 36 38 41 43 45 48 50 53 55 57 60 62 65 67 69 72 74 77 79 81 84 86 89
9 17 20 23 26 28 31 34 37 39 42 45 48 50 53 56 59 62 64 67 70 73 76 78 81 84 87 89 92 95 98 101 103
10 23 26 29 33 36 39 42 45 48 52 55 58 61 64 67 71 74 77 80 83 87 90 93 96 99 103 106 109 112 115 119
11 30 33 37 40 44 47 51 55 58 62 65 69 73 76 80 83 87 90 94 98 101 105 108 112 116 119 123 127 130 134
12 37 41 45 49 53 57 61 65 69 73 77 81 85 89 93 97 101 105 109 113 117 121 125 129 133 137 141 145 149
13 45 50 54 59 63 67 72 76 80 85 89 94 98 102 107 111 116 120 125 129 133 138 142 147 151 156 160 165
14 55 59 64 69 74 78 83 88 93 98 102 107 112 117 122 127 131 136 141 146 151 156 161 165 170 175 180
15 64 70 75 80 85 90 96 101 106 111 117 122 127 132 138 143 148 153 159 164 169 174 180 185 190 196
16 75 81 86 92 98 103 109 115 120 126 132 137 143 149 154 160 166 171 177 183 188 194 200 206 211
17 87 93 99 105 111 117 123 129 135 141 147 154 160 166 172 178 184 190 196 202 209 215 221 227
18 99 106 112 119 125 132 138 145 151 158 164 171 177 184 190 197 203 210 216 223 230 236 243
19 113 119 126 133 140 147 154 161 168 175 182 189 196 203 210 217 224 231 238 245 252 258
20 127 134 141 149 156 163 171 178 186 193 200 208 215 222 230 237 245 252 259 267 274