Simpson-Paradoxon

Simpson-Paradoxon bei quantitativen Daten: ein positiver Trend ( , ) erscheint für zwei getrennte Gruppen, während ein negativer Trend ( ) erscheint, wenn die Gruppen kombiniert werden. ⓘ

Die Visualisierung des Simpson-Paradoxons bei Daten, die der Variabilität in der realen Welt ähneln, zeigt, dass das Risiko einer Fehleinschätzung der wahren kausalen Beziehung schwer zu erkennen sein kann ⓘ

Das Simpson-Paradoxon, das auch unter verschiedenen anderen Namen bekannt ist, ist ein Phänomen in der Wahrscheinlichkeitsrechnung und Statistik, bei dem ein Trend in mehreren Datengruppen auftritt, aber verschwindet oder sich umkehrt, wenn die Gruppen kombiniert werden. Dieses Ergebnis tritt häufig in sozial- und medizinwissenschaftlichen Statistiken auf und ist besonders problematisch, wenn Häufigkeitsdaten zu Unrecht kausal interpretiert werden. Das Paradoxon lässt sich auflösen, wenn Störvariablen und kausale Zusammenhänge bei der statistischen Modellierung angemessen berücksichtigt werden. Das Simpson-Paradoxon wurde verwendet, um die Art von irreführenden Ergebnissen zu veranschaulichen, die durch den Missbrauch von Statistiken entstehen können. ⓘ

Edward H. Simpson beschrieb dieses Phänomen erstmals 1951 in einem Fachaufsatz, aber die Statistiker Karl Pearson et al. 1899 und Udny Yule 1903 hatten ähnliche Effekte bereits früher erwähnt. Der Name Simpson-Paradoxon wurde 1972 von Colin R. Blyth eingeführt. Es wird auch als Simpsons Umkehrung, Yule-Simpson-Effekt, Amalgamierungsparadoxon oder Umkehrungsparadoxon bezeichnet. ⓘ

In seinem 2022 erschienenen Buch Shape: The Hidden Geometry of Information, Biology, Strategy, Democracy and Everything Else argumentiert Jordan Ellenberg, dass Simpsons Paradoxon falsch benannt ist:

"Paradox" ist eigentlich nicht der richtige Name dafür, denn es handelt sich nicht um eine Verengung, sondern nur um zwei verschiedene Arten, über dieselben Daten nachzudenken. ... Die Lektion des Simpson-Paradoxons besteht nicht darin, uns zu sagen, welchen Standpunkt wir einnehmen sollen, sondern darauf zu bestehen, dass wir sowohl die Teile als auch das Ganze gleichzeitig im Auge behalten. ⓘ

Grafische Darstellung des Simpson-Paradoxons: von den mit 1 beschrifteten Vektoren hat der rote die größere Steigung, genau wie bei den mit 2 beschrifteten. Trotzdem hat die Vektorsumme der roten Vektoren eine kleinere Steigung als die der blauen. ⓘ

Beispiele

UC Berkeley geschlechtsspezifische Verzerrungen

Eines der bekanntesten Beispiele für Simpsons Paradoxon stammt aus einer Studie über geschlechtsspezifische Verzerrungen bei der Zulassung zu Graduiertenschulen an der University of California, Berkeley. Die Zulassungszahlen für den Herbst 1973 zeigten, dass Männer, die sich bewarben, mit größerer Wahrscheinlichkeit zugelassen wurden als Frauen, und der Unterschied war so groß, dass es unwahrscheinlich war, dass er auf Zufall zurückzuführen war. ⓘ

	Alle		Männer		Frauen ⓘ
	Bewerber	Zugelassene	Bewerber	Zugelassene	Bewerber	Zugelassene
Insgesamt	12,763	41%	8,442	44%	4,321	35%

Berücksichtigt man jedoch die Informationen über die Fachbereiche, für die man sich beworben hat, so zeigen die unterschiedlichen Ablehnungsquoten die unterschiedliche Schwierigkeit, in den Fachbereich aufgenommen zu werden, und gleichzeitig zeigt sich, dass sich Frauen eher an wettbewerbsintensiveren Fachbereichen mit niedrigeren Zulassungsquoten bewerben, selbst bei qualifizierten Bewerbern (wie im Fachbereich Englisch), während sich Männer eher an weniger wettbewerbsintensiven Fachbereichen mit höheren Zulassungsquoten bewerben (wie im Fachbereich Ingenieurwissenschaften). Die gepoolten und korrigierten Daten zeigten eine "kleine, aber statistisch signifikante Verzerrung zugunsten von Frauen". ⓘ

Die Daten der sechs größten Fachbereiche sind nachstehend aufgeführt:

Fachbereich	Alle		Männer		Frauen ⓘ
Fachbereich	Bewerber	Zugelassene	Bewerber	Zugelassene	Bewerber	Zugelassene
A	933	64%	825	62%	108	82%
B	585	63%	560	63%	25	68%
C	918	35%	325	37%	593	34%
D	792	34%	417	33%	375	35%
E	584	25%	191	28%	393	24%
F	714	6%	373	6%	341	7%
Insgesamt	4526	39%	2691	45%	1835	30%
Legende: höherer Prozentsatz an erfolgreichen Bewerbern als das andere Geschlecht größere Anzahl von Bewerbern als das andere Geschlecht fett gedruckt - die beiden "meistbeworbenen" Abteilungen für jedes Geschlecht

Die gesamten Daten zeigen, dass insgesamt 4 von 85 Abteilungen signifikant gegen Frauen und 6 signifikant gegen Männer eingestellt sind (nicht alle in der obigen Tabelle der "sechs größten Abteilungen" enthalten). Bemerkenswert ist, dass die Anzahl der benachteiligten Fachbereiche nicht die Grundlage für die Schlussfolgerung war, sondern dass die geschlechtsspezifischen Zulassungen über alle Fachbereiche gepoolt wurden, wobei die Ablehnungsquote jedes Fachbereichs für alle seine Bewerber berücksichtigt wurde. Ob die Daten eine eindeutige Bevorzugung von Frauen oder nur eine Bevorzugung von Minderheiten (oder eine Kombination daraus) zeigen, könnte ein anderer Aspekt für die Analyse sein: Die Daten zeigen möglicherweise eine Voreingenommenheit zugunsten des Minderheitengeschlechts, was daran zu erkennen ist, dass "mehr Bewerber" (orange) des genau entgegengesetzten Geschlechts als "mehr erfolgreiche Bewerber" (grün) auftraten, und dass Frauen in der Gesamtpopulation der Bewerber die Minderheit waren (siehe Gesamtzahlen), so dass es wahrscheinlicher ist, dass sie in einer größeren Anzahl von Abteilungen die Minderheit waren (dies wäre nur dann nicht der Fall, wenn der Männerüberschuss von 856 aus den Gesamtzahlen in den Top-Männer-Abteilungen kumuliert würde, was nicht der Fall ist). Das Papier geht jedoch nicht auf dieses Detail ein (obwohl es den "Drang zur Rekrutierung von Mitgliedern von Minderheitengruppen" als Erklärung für einige Phänomene der reinen Frauenquote anerkennt). ⓘ

Ein Mann hat also eine 44-prozentige Chance, zum Studium zugelassen zu werden, eine Frau aber nur eine 35-prozentige. ⓘ

Die Aufschlüsselung nach Fakultäten zeigte allerdings, dass Frauen nicht diskriminiert wurden. Im Gegenteil wurde eine schwache, aber statistisch signifikante, Bevorzugung der Frauen festgestellt. Von 101 Departements der Universität hatten 16 nur erfolgreiche Bewerber oder nur Bewerber des einen Geschlechts. Bei den übrigen 85 Departements ergab sich dieses Bild:

Bei vier Departements gab es bei Männern Erfolgsquoten, die in signifikanter Weise besser waren als jene der Frauen.
Bei sechs Departements genossen Frauen eine signifikant bessere Erfolgsquote. ⓘ

Ein Chi-Quadrat-Test zeigt eindrücklich, dass sich die Bewerbungen von Frauen und Männern von vorneherein nicht zufällig auf die 101 Departements verteilten (χ = 3091; p < 0,0001). ⓘ

Dies führte zur Erklärung, dass keine Diskriminierung stattfand, sondern dass Frauen sich tendenziell dort bewarben, wo es für beide Geschlechter niedrigere Zulassungsraten gab, während Männer ihre Bewerbungen tendenziell dorthin sandten, wo es generell höhere Zulassungsraten gab. Die ursprüngliche Interpretation der Gesamterfolgsquote von 44 gegenüber 35 Prozent lässt dies außer Acht. ⓘ

Behandlung von Nierensteinen

Ein weiteres Beispiel stammt aus einer realen medizinischen Studie, in der die Erfolgsquoten von zwei Behandlungen gegen Nierensteine verglichen wurden. Die nachstehende Tabelle zeigt die Erfolgsquoten (der Begriff "Erfolgsquote" bedeutet hier eigentlich "Erfolgsanteil") und die Anzahl der Behandlungen für Behandlungen von kleinen und großen Nierensteinen, wobei Behandlung A offene chirurgische Verfahren und Behandlung B geschlossene chirurgische Verfahren umfasst. Die Zahlen in Klammern geben die Anzahl der Erfolgsfälle im Verhältnis zur Gesamtgröße der Gruppe an. ⓘ

Behandlung Größe des Steins	Behandlung A	Behandlung B ⓘ
Kleine Steine	Gruppe 1 93% (81/87)	Gruppe 2 87% (234/270)
Große Steine	Gruppe 3 73% (192/263)	Gruppe 4 69% (55/80)
Beide	78% (273/350)	83% (289/350)

Die paradoxe Schlussfolgerung ist, dass die Behandlung A wirksamer ist, wenn sie bei kleinen Steinen angewandt wird, und auch, wenn sie bei großen Steinen angewandt wird, doch scheint die Behandlung B wirksamer zu sein, wenn beide Größen gleichzeitig berücksichtigt werden. In diesem Beispiel ist die "lauernde" Variable (oder Störvariable), die das Paradoxon verursacht, die Größe der Steine, deren Bedeutung den Forschern vorher nicht bekannt war, bis ihre Auswirkungen einbezogen wurden. ⓘ

Welche Behandlung als besser angesehen wird, hängt davon ab, welches Erfolgsverhältnis (Erfolge/Gesamtheit) größer ist. Die Umkehrung der Ungleichheit zwischen den beiden Verhältnissen bei Betrachtung der kombinierten Daten, die das Simpson-Paradoxon hervorruft, geschieht, weil zwei Effekte zusammen auftreten:

Die Größe der Gruppen, die kombiniert werden, wenn die lauernde Variable ignoriert wird, ist sehr unterschiedlich. Die Ärzte neigen dazu, den Fällen mit großen Steinen die bessere Behandlung A zu geben und den Fällen mit kleinen Steinen die schlechtere Behandlung B. Daher werden die Gesamtwerte von den Gruppen 3 und 2 dominiert, und nicht von den beiden viel kleineren Gruppen 1 und 4.
Die lauernde Variable, die Steingröße, hat einen großen Einfluss auf die Verhältnisse, d. h. die Erfolgsquote wird stärker von der Schwere des Falls als von der Wahl der Behandlung beeinflusst. Daher schneidet die Gruppe der Patienten mit großen Steinen, die Behandlung A (Gruppe 3) verwendet, schlechter ab als die Gruppe mit kleinen Steinen, selbst wenn letztere die schlechtere Behandlung B (Gruppe 2) verwendet.

Ausgehend von diesen Effekten ergibt sich das paradoxe Ergebnis, dass der Effekt der Größe der Steine die Vorteile der besseren Behandlung (A) überwiegt. Kurz gesagt, die weniger wirksame Behandlung B schien wirksamer zu sein, weil sie häufiger bei den kleinen Steinen angewendet wurde, die leichter zu behandeln waren. ⓘ

Durchschnittliche Schläge

Ein gängiges Beispiel für das Simpson-Paradoxon sind die Schlagdurchschnittswerte von Profibaseballspielern. Es ist möglich, dass ein Spieler über mehrere Jahre hinweg jedes Jahr einen höheren Schlagdurchschnitt als ein anderer Spieler hat, aber in all diesen Jahren einen niedrigeren Schlagdurchschnitt aufweist. Dieses Phänomen kann auftreten, wenn die Anzahl der Schläge (at bats) in den einzelnen Jahren sehr unterschiedlich ist. Der Mathematiker Ken Ross hat dies anhand des Schlagdurchschnittes von zwei Baseballspielern, Derek Jeter und David Justice, in den Jahren 1995 und 1996 nachgewiesen:

Jahr Schlagmann	1995		1996		Kombiniert ⓘ
Derek Jeter	12/48	.250	183/582	.314	195/630	.310
David Justice	104/411	.253	45/140	.321	149/551	.270

Sowohl 1995 als auch 1996 hatte Justice einen höheren Batting Average (fett gedruckt) als Jeter. Werden jedoch die beiden Baseball-Saisons kombiniert, weist Jeter einen höheren Schlagdurchschnitt auf als Justice. Nach Ross würde dieses Phänomen unter den möglichen Spielerpaaren etwa einmal pro Jahr beobachtet. ⓘ

Eine Prüfung

Eine Fahrschule hat zwei Prüfungstage mit folgenden Ergebnissen:

ⓘ |-class="hintergrundfarbe8"

	männlich			weiblich
	bestanden	gesamt	Durchfallquote	bestanden	gesamt	Durchfallquote
1. Tag	1	1	0 %	7	8	12,5 %
2. Tag	2	3	33,3 %	1	2	50 %
Summe	3	4	25 %	8	10	20 %

Obwohl die Männer an beiden Tagen eine geringere Durchfallquote als die Frauen haben, haben sie im Gesamtergebnis eine höhere. ⓘ

Ursache ist der Umstand, dass die Einzelergebnisse mit unterschiedlichem Gewicht in das Gesamtergebnis eingehen. Das erkennt man leicht in der zahlenmäßig zugespitzten Variante der obigen Tabelle, die nachfolgend wiedergegeben wird:

ⓘ |-class="hintergrundfarbe8"

	männlich			weiblich
	bestanden	gesamt	Durchfallquote	bestanden	gesamt	Durchfallquote
1. Tag	1	1	0 %	999	1000	0,1 %
2. Tag	2	3	33,3 %	1	2	50 %
Summe	3	4	25 %	1000	1002	0,2 %

Vektorielle Deutung

Vektorielle Interpretation des Simpsonschen Paradoxons ⓘ

Das Simpson-Paradoxon kann auch mit Hilfe eines 2-dimensionalen Vektorraums veranschaulicht werden. Eine Erfolgsquote von ${\textstyle {\frac {p}{q}}}$ (d. h. Erfolge/Versuche) kann durch einen Vektor dargestellt werden ${\vec {A}}=(q,p)$ dargestellt werden, mit einer Steigung von ${\textstyle {\frac {p}{q}}}$ . Ein steilerer Vektor steht dann für eine höhere Erfolgsquote. Wenn zwei Raten ${\textstyle {\frac {p_{1}}{q_{1}}}}$ und ${\textstyle {\frac {p_{2}}{q_{2}}}}$ kombiniert werden, wie in den oben genannten Beispielen, kann das Ergebnis durch die Summe der Vektoren $(q_{1},p_{1})$ und $(q_{2},p_{2})$ dargestellt werden, der nach der Parallelogrammregel der Vektor $(q_{1}+q_{2},p_{1}+p_{2})$ mit der Steigung ${\textstyle {\frac {p_{1}+p_{2}}{q_{1}+q_{2}}}}$ . ⓘ

Das Simpson-Paradoxon besagt, dass selbst wenn ein Vektor ${\vec {L}}_{1}$ (in der Abbildung orange) eine kleinere Steigung hat als ein anderer Vektor ${\vec {B}}_{1}$ (in blau), und ${\vec {L}}_{2}$ eine kleinere Steigung hat als ${\vec {B}}_{2}$ hat, kann die Summe der beiden Vektoren ${\vec {L}}_{1}+{\vec {L}}_{2}$ immer noch eine größere Steigung haben kann als die Summe der beiden Vektoren ${\vec {B}}_{1}+{\vec {B}}_{2}$ haben, wie im Beispiel gezeigt. Dazu muss einer der orangefarbenen Vektoren eine größere Steigung haben als einer der blauen Vektoren (hier ${\vec {L}}_{2}$ und ${\vec {B}}_{1}$ ), und diese sind in der Regel länger als die abwechselnd untertitelten Vektoren - und dominieren damit den Gesamtvergleich. ⓘ

Korrelation zwischen Variablen

Die Simpson'sche Umkehrung kann auch bei Korrelationen auftreten, bei denen zwei Variablen scheinbar (z. B.) eine positive Korrelation zueinander haben, in Wirklichkeit aber eine negative Korrelation, wobei die Umkehrung durch einen "lauernden" Störfaktor hervorgerufen wird. Berman et al. geben ein Beispiel aus den Wirtschaftswissenschaften, wo ein Datensatz nahelegt, dass die Gesamtnachfrage positiv mit dem Preis korreliert ist (d. h. höhere Preise führen zu mehr Nachfrage), was den Erwartungen widerspricht. Bei der Analyse stellt sich heraus, dass die Zeit die Störvariable ist: Wenn man sowohl den Preis als auch die Nachfrage gegen die Zeit aufträgt, zeigt sich die erwartete negative Korrelation über verschiedene Zeiträume, die sich dann umkehrt und positiv wird, wenn man den Einfluss der Zeit ignoriert, indem man einfach die Nachfrage gegen den Preis aufträgt. ⓘ

Psychologie

Das psychologische Interesse am Simpson-Paradoxon versucht zu erklären, warum die Menschen die Umkehrung der Vorzeichen zunächst für unmöglich halten, weil sie sich an der Vorstellung stören, dass eine Handlung, die sowohl unter einer Bedingung als auch unter ihrer Verneinung bevorzugt wird, abgelehnt werden sollte, wenn die Bedingung unbekannt ist. Die Frage ist, woher die Menschen diese starke Intuition haben und wie sie im Gehirn kodiert ist. ⓘ

Das Simpson-Paradoxon zeigt, dass diese Intuition weder aus der klassischen Logik noch aus der Wahrscheinlichkeitsrechnung allein abgeleitet werden kann, und veranlasste Philosophen zu der Spekulation, dass sie durch eine angeborene kausale Logik gestützt wird, die den Menschen bei seinen Überlegungen über Handlungen und deren Folgen leitet. Das Savage'sche Prinzip der Sicherheit ist ein Beispiel für eine solche Logik. Eine qualifizierte Version des Savage'schen Prinzips der sicheren Sache lässt sich tatsächlich aus Pearls Do-Kalkül ableiten und lautet: "Eine Handlung A, die die Wahrscheinlichkeit eines Ereignisses B in jeder Teilpopulation Ci von C erhöht, muss auch die Wahrscheinlichkeit von B in der Gesamtpopulation erhöhen, vorausgesetzt, dass die Handlung die Verteilung der Teilpopulationen nicht verändert." Dies legt nahe, dass das Wissen über Handlungen und Folgen in einer Form gespeichert wird, die kausalen Bayes'schen Netzen ähnelt. ⓘ

Wahrscheinlichkeit

In einer Arbeit von Pavlides und Perlman wird ein auf Hadjicostas zurückgehender Beweis erbracht, dass in einer zufälligen 2 × 2 × 2-Tabelle mit Gleichverteilung das Simpson-Paradoxon mit einer Wahrscheinlichkeit von genau 1⁄60 auftritt. Eine Studie von Kock legt nahe, dass die Wahrscheinlichkeit des zufälligen Auftretens des Simpson-Paradoxons in Pfadmodellen (d. h. in Modellen, die durch eine Pfadanalyse generiert werden) mit zwei Prädiktoren und einer Kriteriumsvariablen etwa 12,8 % beträgt; das ist etwas mehr als ein Auftreten pro 8 Pfadmodelle. ⓘ

Das zweite Paradoxon von Simpson

Ein zweites, weniger bekanntes Paradoxon wurde ebenfalls in Simpsons Arbeit von 1951 erörtert. Es kann auftreten, wenn die "sinnvolle Interpretation" nicht unbedingt in den getrennten Daten zu finden ist, wie im Nierenstein-Beispiel, sondern stattdessen in den kombinierten Daten liegen kann. Ob die partitionierte oder die kombinierte Form der Daten verwendet werden sollte, hängt von dem Prozess ab, der zu den Daten geführt hat, was bedeutet, dass die korrekte Interpretation der Daten nicht immer durch einfache Betrachtung der Tabellen bestimmt werden kann. ⓘ

Pearl hat gezeigt, dass die partitionierten Daten die korrekten kausalen Beziehungen zwischen zwei beliebigen Variablen darstellen müssen, $X$ und $Y$ müssen die Partitionsvariablen eine grafische Bedingung erfüllen, die als "Backdoor-Kriterium" bezeichnet wird:

Sie müssen alle unerwünschten Pfade zwischen $X$ und $Y$
Keine Variable kann beeinflusst werden durch $X$

Dieses Kriterium bietet eine algorithmische Lösung für das zweite Simpson-Paradoxon und erklärt, warum die korrekte Interpretation nicht allein durch die Daten bestimmt werden kann; zwei verschiedene Graphen, die beide mit den Daten kompatibel sind, können zwei verschiedene Back-Door-Kriterien erfordern. ⓘ

Wenn das Back-Door-Kriterium durch einen Satz Z von Kovariaten erfüllt wird, ergibt die Anpassungsformel (siehe Confounding) den korrekten kausalen Effekt von X auf Y. Wenn ein solcher Satz nicht existiert, kann Pearls Do-Calculus herangezogen werden, um andere Wege zur Schätzung des kausalen Effekts zu finden. Die Vollständigkeit von do-calculus kann als vollständige Lösung des Simpson-Paradoxons angesehen werden. ⓘ

Geschichte

Edward Hugh Simpson beschrieb das Phänomen 1951. Er war aber nicht der Erste, der sich damit beschäftigte. So beschrieben bereits 1899 Karl Pearson et al. und 1903 George Udny Yule einen ähnlichen Sachverhalt. Die Bezeichnung Simpson-Paradoxon (englisch Simpson’s Paradox) wurde vermutlich 1972 von Colin R. Blyth eingeführt. ⓘ

Unentdeckte Einflussfaktoren

Liegen je nach Beurteilungsweise deutlich unterschiedliche Ergebnisse vor, kann dies auf nicht erfasste Einflussfaktoren (Störvariablen) zurückgeführt werden. Wollen Auswertende mögliche Fehlschlüsse vermeiden, müssen sie diese Einflussfaktoren finden, soweit sie vorhanden sind. Das Vorliegen eines Simpson-Paradoxons kann hier als Indikator dienen. ⓘ

Eine Methode für die Suche nach weiteren Einflussfaktoren ist die getrennte Auswertung von Teilgruppen, bei denen man spezifisches Verhalten erwartet, zum Beispiel das Krankheitsstadium der Patienten. Im obigen Beispiel aus Berkeley wären dies die Teilgruppen Departements mit niedrigen Zulassungsraten und Departements mit hohen Zulassungsraten. ⓘ