Effektstärke
In der Statistik ist eine Effektgröße ein Wert, der die Stärke der Beziehung zwischen zwei Variablen in einer Population misst, oder eine stichprobenbasierte Schätzung dieser Größe. Sie kann sich auf den Wert einer Statistik beziehen, die anhand einer Datenstichprobe berechnet wird, auf den Wert eines Parameters für eine hypothetische Population oder auf die Gleichung, die operationalisiert, wie Statistiken oder Parameter zum Wert der Effektgröße führen. Beispiele für Effektgrößen sind die Korrelation zwischen zwei Variablen, der Regressionskoeffizient in einer Regression, der Mittelwertunterschied oder das Risiko, dass ein bestimmtes Ereignis (z. B. ein Herzinfarkt) eintritt. Effektgrößen ergänzen statistische Hypothesentests und spielen eine wichtige Rolle bei Power-Analysen, der Planung des Stichprobenumfangs und bei Meta-Analysen. Die Gruppe der Datenanalysemethoden, die sich auf Effektgrößen beziehen, wird als Schätzungsstatistik bezeichnet. ⓘ
Die Effektgröße ist eine wesentliche Komponente bei der Bewertung der Stärke einer statistischen Aussage und steht an erster Stelle (Größe) der MAGIC-Kriterien. Die Standardabweichung der Effektgröße ist von entscheidender Bedeutung, da sie angibt, wie viel Unsicherheit in der Messung enthalten ist. Eine zu große Standardabweichung macht die Messung nahezu bedeutungslos. In der Meta-Analyse, bei der mehrere Effektgrößen kombiniert werden sollen, wird die Unsicherheit der Effektgröße zur Gewichtung der Effektgrößen verwendet, so dass große Studien als wichtiger angesehen werden als kleine Studien. Die Unsicherheit der Effektgröße wird für jede Art von Effektgröße anders berechnet, erfordert aber im Allgemeinen nur die Kenntnis des Stichprobenumfangs (N) der Studie oder der Anzahl der Beobachtungen (n) in jeder Gruppe. ⓘ
Die Angabe von Effektgrößen oder deren Schätzungen (Effektschätzung [EE], Schätzung des Effekts) gilt als gute Praxis bei der Präsentation empirischer Forschungsergebnisse in vielen Bereichen. Die Angabe von Effektgrößen erleichtert die Interpretation der Bedeutung eines Forschungsergebnisses im Gegensatz zu seiner statistischen Signifikanz. Effektgrößen sind besonders in den Sozialwissenschaften und in der medizinischen Forschung von Bedeutung (wo die Größe des Behandlungseffekts wichtig ist). ⓘ
Effektgrößen können in relativen oder absoluten Größen gemessen werden. Bei relativen Effektgrößen werden zwei Gruppen direkt miteinander verglichen, wie bei Odds Ratios und relativen Risiken. Bei absoluten Effektgrößen weist ein größerer absoluter Wert immer auf einen stärkeren Effekt hin. Viele Arten von Messungen können entweder absolut oder relativ ausgedrückt werden, und sie können zusammen verwendet werden, da sie unterschiedliche Informationen vermitteln. Eine prominente Arbeitsgruppe in der Psychologie-Forschungsgemeinschaft hat die folgende Empfehlung ausgesprochen:
Wenn die Maßeinheiten auf praktischer Ebene sinnvoll sind (z. B. die Anzahl der pro Tag gerauchten Zigaretten), ziehen wir in der Regel ein nicht standardisiertes Maß (Regressionskoeffizient oder mittlere Differenz) einem standardisierten Maß (r oder d) vor. ⓘ
Effektstärke (auch Effektgröße) bezeichnet das mit Hilfe statistischer Kenngrößen quantifizierbare Ausmaß eines empirischen Effekts und wird zur Verdeutlichung der praktischen Relevanz der Ergebnisse statistischer Tests herangezogen. Zur Messung der Effektstärke werden unterschiedliche Effektmaße verwendet. ⓘ
Überblick
Populations- und Stichprobeneffektgrößen
Wie bei statistischen Schätzungen wird die wahre Effektgröße von der beobachteten Effektgröße unterschieden, z. B. kann man zur Messung des Krankheitsrisikos in einer Population (die Populationseffektgröße) das Risiko innerhalb einer Stichprobe dieser Population (die Stichprobeneffektgröße) messen. Die Konventionen für die Beschreibung wahrer und beobachteter Effektgrößen folgen den üblichen statistischen Praktiken - ein gängiger Ansatz ist die Verwendung griechischer Buchstaben wie ρ [rho] zur Bezeichnung von Populationsparametern und lateinischer Buchstaben wie r zur Bezeichnung der entsprechenden Statistik. Alternativ kann ein "Hut" über den Populationsparameter gesetzt werden, um die Statistik zu bezeichnen, z. B. mit die Schätzung des Parameters . ⓘ
Wie in jedem statistischen Umfeld werden Effektgrößen mit Stichprobenfehlern geschätzt und können verzerrt sein, es sei denn, der verwendete Effektgrößenschätzer ist für die Art und Weise, in der die Daten gesammelt wurden, und die Art und Weise, in der die Messungen durchgeführt wurden, geeignet. Ein Beispiel hierfür ist die Publikationsverzerrung, die auftritt, wenn Wissenschaftler nur dann über Ergebnisse berichten, wenn die geschätzten Effektgrößen groß oder statistisch signifikant sind. Wenn viele Forscher Studien mit geringer statistischer Aussagekraft durchführen, sind die gemeldeten Effektgrößen in der Regel größer als die tatsächlichen (Populations-)Effekte, wenn überhaupt. Ein weiteres Beispiel für eine Verzerrung der Effektgrößen ist ein Experiment mit mehreren Versuchen, bei dem die Berechnung der Effektgröße auf der gemittelten oder aggregierten Reaktion über die Versuche hinweg basiert. ⓘ
Kleinere Studien zeigen manchmal andere, oft größere Effektgrößen als größere Studien. Dieses Phänomen ist als "small-study effect" bekannt und kann ein Hinweis auf einen Publikationsfehler sein. ⓘ
Beziehung zur Teststatistik
Die stichprobenbasierten Effektgrößen unterscheiden sich von den Teststatistiken, die bei Hypothesentests verwendet werden, insofern, als sie die Stärke (das Ausmaß) z. B. einer offensichtlichen Beziehung schätzen, anstatt ein Signifikanzniveau zuzuweisen, das widerspiegelt, ob das Ausmaß der beobachteten Beziehung auf Zufall beruhen könnte. Die Effektgröße bestimmt nicht direkt das Signifikanzniveau und umgekehrt. Bei einem ausreichend großen Stichprobenumfang wird ein statistischer Vergleich, der nicht auf dem Nulldurchgang beruht, immer ein statistisch signifikantes Ergebnis zeigen, es sei denn, die Effektgröße der Grundgesamtheit ist genau null (und selbst dann wird er statistische Signifikanz mit der Rate des verwendeten Fehlers vom Typ I zeigen). Zum Beispiel ist ein Pearson-Korrelationskoeffizient von 0,01 statistisch signifikant, wenn die Stichprobengröße 1000 beträgt. Die Angabe nur des signifikanten p-Wertes aus dieser Analyse könnte irreführend sein, wenn eine Korrelation von 0,01 zu gering ist, um für eine bestimmte Anwendung von Interesse zu sein. ⓘ
Standardisierte und nicht standardisierte Effektgrößen
Der Begriff Effektgröße kann sich auf ein standardisiertes Effektmaß (z. B. r, Cohen's d oder Odds Ratio) oder auf ein nicht standardisiertes Maß (z. B. die Differenz zwischen Gruppenmitteln oder die nicht standardisierten Regressionskoeffizienten) beziehen. Standardisierte Effektgrößenmaße werden in der Regel verwendet, wenn:
- die Messgrößen der untersuchten Variablen keine intrinsische Bedeutung haben (z. B. ein Ergebnis in einem Persönlichkeitstest auf einer willkürlichen Skala),
- Ergebnisse aus mehreren Studien kombiniert werden,
- einige oder alle Studien verwenden unterschiedliche Skalen, oder
- man möchte die Größe eines Effekts im Verhältnis zur Variabilität in der Population darstellen.
In Meta-Analysen werden standardisierte Effektgrößen als gemeinsames Maß verwendet, das für verschiedene Studien berechnet und dann zu einer Gesamtzusammenfassung kombiniert werden kann. ⓘ
Auswertung
Ob eine Effektgröße als klein, mittel oder groß zu interpretieren ist, hängt von ihrem inhaltlichen Kontext und ihrer operativen Definition ab. Cohens konventionelle Kriterien "klein", "mittel" oder "groß" sind in vielen Bereichen nahezu allgegenwärtig, obwohl Cohen eine Warnung aussprach:
"Die Begriffe 'klein', 'mittel' und 'groß' sind relativ, nicht nur zueinander, sondern auch zum Bereich der Verhaltenswissenschaft oder, noch spezieller, zum spezifischen Inhalt und zur Forschungsmethode, die in einer bestimmten Untersuchung angewandt werden. .... Angesichts dieser Relativität besteht ein gewisses Risiko darin, konventionelle operationale Definitionen für diese Begriffe zur Verwendung in der Machtanalyse in einem so vielfältigen Untersuchungsfeld wie der Verhaltenswissenschaft anzubieten. Dieses Risiko wird jedoch in der Überzeugung in Kauf genommen, dass durch die Bereitstellung eines gemeinsamen konventionellen Bezugsrahmens, dessen Verwendung nur dann empfohlen wird, wenn keine bessere Grundlage für die Schätzung des ES-Index verfügbar ist, mehr gewonnen als verloren wird." (p. 25) ⓘ
Sawilowsky schlussfolgerte, dass es "auf der Grundlage der aktuellen Forschungsergebnisse in der angewandten Literatur angemessen erscheint, die Faustregeln für Effektgrößen zu überarbeiten", wobei er Cohens Warnungen berücksichtigte und die Beschreibungen um die Begriffe sehr klein, sehr groß und riesig erweiterte. Die gleichen De-facto-Standards könnten auch für andere Layouts entwickelt werden. ⓘ
Lenth stellte fest, dass man für eine "mittlere" Effektgröße "das gleiche n wählen wird, unabhängig von der Genauigkeit oder Zuverlässigkeit des Instruments oder der Enge oder Vielfalt der Probanden. Offensichtlich werden hier wichtige Überlegungen außer Acht gelassen. Forscher sollten die inhaltliche Bedeutung ihrer Ergebnisse interpretieren, indem sie sie in einen sinnvollen Kontext einbetten oder ihren Beitrag zum Wissen quantifizieren, und Cohens Effektgrößenbeschreibungen können als Ausgangspunkt hilfreich sein." In ähnlicher Weise heißt es in einem vom US-Bildungsministerium geförderten Bericht: "Die weit verbreitete undifferenzierte Verwendung von Cohens generischen Werten für kleine, mittlere und große Effektgrößen zur Charakterisierung von Effektgrößen in Bereichen, für die seine normativen Werte nicht gelten, ist daher ebenfalls unangemessen und irreführend." ⓘ
Sie schlugen vor, dass "geeignete Normen auf Verteilungen von Effektgrößen für vergleichbare Ergebnismessungen von vergleichbaren Interventionen an vergleichbaren Stichproben beruhen". Wenn also eine Studie in einem Bereich, in dem die meisten Interventionen winzig sind, einen kleinen Effekt (nach Cohens Kriterien) ergab, würde sie nach diesen neuen Kriterien als "groß" bezeichnet. In diesem Zusammenhang siehe Abelsons Paradoxon und Sawilowskys Paradoxon. ⓘ
Arten
Es sind etwa 50 bis 100 verschiedene Maße für die Effektgröße bekannt. Viele Effektgrößen verschiedener Typen können in andere Typen umgewandelt werden, da viele den Abstand zwischen zwei Verteilungen schätzen, also mathematisch verwandt sind. So kann beispielsweise ein Korrelationskoeffizient in ein Cohen's d umgewandelt werden und vice versa. ⓘ
Korrelationsfamilie: Effektgrößen auf der Grundlage der "erklärten Varianz"
Diese Effektgrößen schätzen den Anteil der Varianz innerhalb eines Experiments, der durch das Modell des Experiments "erklärt" oder "berücksichtigt" wird (erklärte Varianz). ⓘ
Pearson r oder Korrelationskoeffizient
Die von Karl Pearson eingeführte Pearson-Korrelation, oft mit r bezeichnet, wird häufig als Effektgröße verwendet, wenn gepaarte quantitative Daten vorliegen, z. B. bei der Untersuchung der Beziehung zwischen Geburtsgewicht und Langlebigkeit. Der Korrelationskoeffizient kann auch verwendet werden, wenn es sich um binäre Daten handelt. Pearson's r kann zwischen -1 und 1 variieren, wobei -1 eine perfekte negative lineare Beziehung, 1 eine perfekte positive lineare Beziehung und 0 keine lineare Beziehung zwischen zwei Variablen angibt. Cohen gibt die folgenden Richtlinien für die Sozialwissenschaften an:
Effektgröße | r ⓘ |
---|---|
Klein | 0.10 |
Mittel | 0.30 |
Groß | 0.50 |
Bestimmungskoeffizient (r2 oder R2)
Eine verwandte Effektgröße ist r2, das Bestimmtheitsmaß (auch als R2 oder "r-Quadrat" bezeichnet), das als Quadrat der Pearson-Korrelation r berechnet wird. Bei gepaarten Daten ist dies ein Maß für den Anteil der Varianz, den die beiden Variablen gemeinsam haben, und variiert von 0 bis 1. Bei einem r von 0,21 beträgt das Bestimmtheitsmaß zum Beispiel 0,0441, was bedeutet, dass 4,4 % der Varianz einer der beiden Variablen auf die andere Variable entfallen. Das r2 ist immer positiv, sagt also nichts über die Richtung der Korrelation zwischen den beiden Variablen aus. ⓘ
Die Effektstärke berechnet sich ⓘ
Nach Cohen indiziert einen kleinen Effekt, einen mittleren und einen starken Effekt. ⓘ
Eta-Quadrat (η2)
Eta-Quadrat beschreibt das Verhältnis der Varianz, die in der abhängigen Variable durch einen Prädiktor erklärt wird, während für andere Prädiktoren kontrolliert wird, und ist somit analog zum r2. Eta-Quadrat ist ein verzerrter Schätzer der durch das Modell erklärten Varianz in der Population (er schätzt nur die Effektgröße in der Stichprobe). Diese Schätzung hat die gleiche Schwäche wie r2, dass jede zusätzliche Variable automatisch den Wert von η2 erhöht. Außerdem misst sie die erklärte Varianz der Stichprobe und nicht der Grundgesamtheit, was bedeutet, dass sie die Effektgröße immer überschätzt, obwohl die Verzerrung mit zunehmender Stichprobengröße kleiner wird. ⓘ
Omega-Quadrat (ω2)
Ein weniger verzerrter Schätzer für die in der Grundgesamtheit erklärte Varianz ist ω2 ⓘ
Diese Form der Formel ist auf die Analyse zwischen den Probanden mit gleichem Stichprobenumfang in allen Zellen beschränkt. Da er weniger verzerrt (wenn auch nicht unverzerrt) ist, ist ω2 dem η2 vorzuziehen; allerdings kann er bei komplexen Analysen unbequemer zu berechnen sein. Eine verallgemeinerte Form des Schätzers wurde für die Analyse zwischen und innerhalb von Versuchspersonen, für Experimente mit wiederholten Messungen, gemischten Versuchsplänen und randomisierten Blockversuchen veröffentlicht. Darüber hinaus wurden Methoden zur Berechnung des partiellen ω2 für einzelne Faktoren und kombinierte Faktoren in Versuchsplänen mit bis zu drei unabhängigen Variablen veröffentlicht. ⓘ
Cohens ƒ2
Cohens ƒ2 ist eines von mehreren Effektgrößenmaßen, die im Rahmen eines F-Tests für ANOVA oder multiple Regression verwendet werden. Das Ausmaß der Verzerrung (Überschätzung der Effektgröße für die ANOVA) hängt von der Verzerrung des zugrundeliegenden Maßes für die erklärte Varianz (z. B. R2, η2, ω2) ab. ⓘ
Das ƒ2-Effektstärkemaß für die multiple Regression ist definiert als:
- wobei R2 die quadrierte multiple Korrelation ist. ⓘ
Gleichermaßen kann ƒ2 definiert werden als:
- oder ⓘ
- für Modelle, die durch diese Effektgrößenmaße beschrieben werden. ⓘ
Das Effektgrößenmaß für die sequentielle multiple Regression, das auch für die PLS-Modellierung üblich ist, ist definiert als:
- wobei R2A die Varianz ist, die durch einen Satz von einer oder mehreren unabhängigen Variablen A erklärt wird, und R2AB die kombinierte Varianz ist, die durch A und einen anderen Satz von einer oder mehreren unabhängigen Variablen von Interesse B erklärt wird. , und als klein, mittel bzw. groß bezeichnet. ⓘ
Cohens kann auch für die faktorielle Varianzanalyse (ANOVA) in umgekehrter Reihenfolge ermittelt werden:
In einem ausgeglichenen Design (äquivalenter Stichprobenumfang in allen Gruppen) der ANOVA ist der entsprechende Populationsparameter von ist ⓘ
wobei μj den Populationsmittelwert innerhalb der j-ten Gruppe der insgesamt K Gruppen und σ die äquivalenten Populationsstandardabweichungen innerhalb jeder Gruppe bezeichnet. SS ist die Summe der Quadrate in der ANOVA. ⓘ
Cohens q
Ein weiteres Maß, das bei Korrelationsunterschieden verwendet wird, ist Cohens q. Dies ist die Differenz zwischen zwei Fisher-transformierten Pearson-Regressionskoeffizienten. In Symbolen ausgedrückt ist dies ⓘ
wobei r1 und r2 die zu vergleichenden Regressionen sind. Der Erwartungswert von q ist Null und seine Varianz ist ⓘ
wobei N1 und N2 die Anzahl der Datenpunkte in der ersten bzw. zweiten Regression sind. ⓘ
Familie der Differenzen: Effektgrößen auf der Grundlage der Unterschiede zwischen den Mittelwerten
Die rohe Effektgröße bei einem Vergleich zweier Gruppen wird naturgemäß als Differenz zwischen den beiden Mittelwerten berechnet. Um die Interpretation zu erleichtern, ist es jedoch üblich, die Effektgröße zu standardisieren; im Folgenden werden verschiedene Konventionen für die statistische Standardisierung vorgestellt. ⓘ
Standardisierte Mittelwertdifferenz
Eine auf Mittelwerten basierende (Populations-)Effektgröße θ berücksichtigt in der Regel die standardisierte mittlere Differenz zwischen zwei Populationen ⓘ
wobei μ1 der Mittelwert für die eine Population, μ2 der Mittelwert für die andere Population und σ eine Standardabweichung auf der Grundlage einer oder beider Populationen ist. ⓘ
In der Praxis sind die Populationswerte in der Regel nicht bekannt und müssen anhand von Stichprobenstatistiken geschätzt werden. Die verschiedenen Versionen von Effektgrößen auf der Grundlage von Mittelwerten unterscheiden sich darin, welche Statistiken verwendet werden. ⓘ
Diese Form der Effektgröße ähnelt der Berechnung für eine t-Test-Statistik, mit dem entscheidenden Unterschied, dass die t-Test-Statistik einen Faktor von . Das bedeutet, dass das Signifikanzniveau bei einer bestimmten Effektgröße mit dem Stichprobenumfang zunimmt. Im Gegensatz zur t-Test-Statistik zielt die Effektgröße auf die Schätzung eines Populationsparameters ab und wird nicht durch den Stichprobenumfang beeinflusst. ⓘ
Cohens d
Cohen's d ist definiert als die Differenz zwischen zwei Mittelwerten geteilt durch eine Standardabweichung für die Daten, d. h.
Jacob Cohen definierte s, die gepoolte Standardabweichung, als (für zwei unabhängige Stichproben):
wobei die Varianz für eine der Gruppen definiert ist als ⓘ
und in ähnlicher Weise für die andere Gruppe. ⓘ
Die folgende Tabelle enthält Deskriptoren für Größenordnungen von d = 0,01 bis 2,0, wie ursprünglich von Cohen vorgeschlagen und von Sawilowsky erweitert. ⓘ
Effektgröße | d | Referenz ⓘ |
---|---|---|
Sehr klein | 0.01 | |
Klein | 0.20 | |
Mittel | 0.50 | |
Groß | 0.80 | |
Sehr groß | 1.20 | |
Sehr groß | 2.0 |
Andere Autoren wählen eine leicht abweichende Berechnung der Standardabweichung, wenn sie sich auf "Cohen's d" beziehen, wobei der Nenner ohne "-2" ist
Diese Definition von "Cohen's d" wird von Hedges und Olkin als Maximum-Likelihood-Schätzer bezeichnet, und ist mit Hedges' g durch einen Skalierungsfaktor verbunden (siehe unten). ⓘ
Bei zwei gepaarten Stichproben betrachten wir die Verteilung der Differenzwerte. In diesem Fall ist s die Standardabweichung dieser Verteilung der Differenzwerte. Daraus ergibt sich die folgende Beziehung zwischen der t-Statistik zum Testen auf einen Unterschied zwischen den Mittelwerten der beiden Gruppen und Cohens d:
und
Cohen's d wird häufig bei der Schätzung von Stichprobengrößen für statistische Tests verwendet. Ein niedrigeres Cohen's d deutet auf die Notwendigkeit größerer Stichprobenumfänge hin und umgekehrt, was anschließend zusammen mit den zusätzlichen Parametern des gewünschten Signifikanzniveaus und der statistischen Aussagekraft bestimmt werden kann. ⓘ
Für gepaarte Stichproben schlägt Cohen vor, dass das berechnete d eigentlich ein d' ist, das nicht die richtige Antwort liefert, um die Aussagekraft des Tests zu erhalten, und dass es, bevor die Werte in den bereitgestellten Tabellen nachgeschlagen werden, wie in der folgenden Formel für r korrigiert werden sollte:
Glass' Δ
1976 schlug Gene V. Glass einen Schätzer für die Effektgröße vor, der nur die Standardabweichung der zweiten Gruppe verwendet ⓘ
Die zweite Gruppe kann als Kontrollgruppe betrachtet werden, und Glass argumentierte, dass es bei einem Vergleich mehrerer Behandlungen mit der Kontrollgruppe besser wäre, nur die aus der Kontrollgruppe berechnete Standardabweichung zu verwenden, so dass sich die Effektgrößen bei gleichen Mittelwerten und unterschiedlichen Varianzen nicht unterscheiden würden. ⓘ
Unter der korrekten Annahme gleicher Varianzen in der Bevölkerung ist eine gepoolte Schätzung für σ präziser. ⓘ
Hedges' g
Hedges' g, vorgeschlagen von Larry Hedges 1981, ist wie die anderen Maße, die auf einer standardisierten Differenz ⓘ
wobei die gepoolte Standardabweichung wie folgt berechnet wird:
Als Schätzer für die Populationseffektgröße θ ist er jedoch verzerrt. Diese Verzerrung kann jedoch durch Multiplikation mit einem Faktor annähernd korrigiert werden
Hedges und Olkin bezeichnen diesen weniger verzerrten Schätzer wie d, aber es ist nicht dasselbe wie Cohens d. Die genaue Form für den Korrekturfaktor J() ist die Gamma-Funktion ⓘ
Ψ, standardisierter Effekt (Effektwurzel-Mittelwert-Quadrat)
Ein ähnlicher Effektgrößenschätzer für Mehrfachvergleiche (z. B. ANOVA) ist der Ψ-standardisierte Effekt (root-mean-square):
Dabei ist k die Anzahl der Gruppen in den Vergleichen. ⓘ
Dies ist im Wesentlichen die Omnibus-Differenz des gesamten Modells, bereinigt um den quadratischen Mittelwert, analog zu d oder g. ⓘ
Darüber hinaus wurde eine Verallgemeinerung für multifaktorielle Designs bereitgestellt. ⓘ
Verteilung von Effektgrößen auf der Grundlage von Mittelwerten
Unter der Voraussetzung, dass die Daten Gauß-verteilt sind, folgt ein skaliertes Hedges' g, folgt einer nicht-zentralen t-Verteilung mit dem Nicht-Zentralitätsparameter und (n1 + n2 - 2) Freiheitsgraden. Ebenso ist das skalierte Glass' Δ mit n2 - 1 Freiheitsgraden verteilt. ⓘ
Aus der Verteilung lassen sich der Erwartungswert und die Varianz der Effektgrößen errechnen. ⓘ
In einigen Fällen werden für die Varianz Näherungswerte für große Stichproben verwendet. Ein Vorschlag für die Varianz des unverzerrten Schätzers von Hedges lautet ⓘ
Andere Metriken
Der Mahalanobis-Abstand (D) ist eine multivariate Verallgemeinerung von Cohens d, die die Beziehungen zwischen den Variablen berücksichtigt. ⓘ
Kategoriale Familie: Effektgrößen für Assoziationen zwischen kategorialen Variablen
|
|
Phi (φ) | Cramér's V (φc) |
---|
Häufig verwendete Assoziationsmaße für den Chi-Quadrat-Test sind der Phi-Koeffizient und Cramér's V (manchmal auch als Cramér's phi bezeichnet und als φc angegeben). Phi ist mit dem punktbiserialen Korrelationskoeffizienten und Cohen's d verwandt und schätzt das Ausmaß der Beziehung zwischen zwei Variablen (2 × 2). Cramér's V kann bei Variablen mit mehr als zwei Stufen verwendet werden. ⓘ
Phi kann berechnet werden, indem die Quadratwurzel aus der Chi-Quadrat-Statistik geteilt durch den Stichprobenumfang ermittelt wird. ⓘ
In ähnlicher Weise wird Cramér's V berechnet, indem die Quadratwurzel der Chi-Quadrat-Statistik durch den Stichprobenumfang und die Länge der Mindestdimension geteilt wird (k ist die kleinere der beiden Anzahlen von Zeilen r oder Spalten c). ⓘ
φc ist die Interkorrelation der beiden diskreten Variablen und kann für jeden beliebigen Wert von r oder c berechnet werden. Da die Chi-Quadrat-Werte jedoch tendenziell mit der Anzahl der Zellen zunehmen, tendiert V umso eher zu 1, je größer der Unterschied zwischen r und c ist, ohne dass ein deutlicher Hinweis auf eine sinnvolle Korrelation vorliegt. ⓘ
Cramér's V kann auch auf chi-Quadrat-Modelle angewandt werden, die gut passen (d. h. bei denen c = 1 ist). In diesem Fall dient es als Maß für die Tendenz zu einem einzigen Ergebnis (d. h. zu einem von k Ergebnissen). In einem solchen Fall muss man r für k verwenden, um den Bereich von 0 bis 1 von V zu erhalten. Andernfalls würde die Verwendung von c die Gleichung auf die für Phi reduzieren. ⓘ
Cohens w
Ein weiteres Maß für die Effektgröße, das für Chi-Quadrat-Tests verwendet wird, ist Cohen's w. Es ist definiert als ⓘ
wobei p0i der Wert der i-ten Zelle unter H0, p1i der Wert der i-ten Zelle unter H1 und m die Anzahl der Zellen ist. ⓘ
Effektgröße | w ⓘ |
---|---|
Klein | 0.10 |
Mittel | 0.30 |
Groß | 0.50 |
Odds Ratio
Das Odds Ratio (OR) ist eine weitere nützliche Effektgröße. Sie ist geeignet, wenn sich die Forschungsfrage auf den Grad der Assoziation zwischen zwei binären Variablen konzentriert. Nehmen wir zum Beispiel eine Studie über Rechtschreibfähigkeiten. In einer Kontrollgruppe bestehen zwei Schüler den Kurs für jeden, der durchfällt, also ist die Wahrscheinlichkeit des Bestehens zwei zu eins (oder 2/1 = 2). In der Behandlungsgruppe kommen auf sechs Schüler, die den Kurs bestehen, sechs, die ihn nicht bestehen, also ist die Wahrscheinlichkeit, ihn zu bestehen, sechs zu eins (oder 6/1 = 6). Die Effektgröße lässt sich berechnen, indem man feststellt, dass die Wahrscheinlichkeit, den Test zu bestehen, in der Behandlungsgruppe dreimal höher ist als in der Kontrollgruppe (weil 6 geteilt durch 2 gleich 3 ist). Das Odds Ratio ist also 3. Odds-Ratio-Statistiken liegen auf einer anderen Skala als Cohen's d, so dass diese "3" nicht mit einem Cohen's d von 3 vergleichbar ist. ⓘ
Relatives Risiko
Das relative Risiko (RR), auch Risikoverhältnis genannt, ist einfach das Risiko (die Wahrscheinlichkeit) eines Ereignisses in Abhängigkeit von einer unabhängigen Variablen. Dieses Maß für die Effektgröße unterscheidet sich vom Quotenverhältnis dadurch, dass es Wahrscheinlichkeiten und nicht Quoten vergleicht, sich aber bei kleinen Wahrscheinlichkeiten asymptotisch dem Quotenverhältnis annähert. Im obigen Beispiel beträgt die Wahrscheinlichkeit, dass die Kontrollgruppe und die Behandlungsgruppe die Studie bestehen, 2/3 (oder 0,67) bzw. 6/7 (oder 0,86). Die Effektgröße kann auf dieselbe Weise berechnet werden wie oben, allerdings unter Verwendung der Wahrscheinlichkeiten. Daher beträgt das relative Risiko 1,28. Da ziemlich große Wahrscheinlichkeiten für das Bestehen verwendet wurden, besteht ein großer Unterschied zwischen dem relativen Risiko und dem Chancenverhältnis. Wäre als Ereignis nicht das Bestehen, sondern das Scheitern (eine geringere Wahrscheinlichkeit) verwendet worden, wäre der Unterschied zwischen den beiden Maßen der Effektgröße nicht so groß. ⓘ
Obwohl beide Maße nützlich sind, haben sie unterschiedliche statistische Verwendungszwecke. In der medizinischen Forschung wird das Odds Ratio üblicherweise für Fall-Kontroll-Studien verwendet, da in der Regel Odds, nicht aber Wahrscheinlichkeiten geschätzt werden. Das relative Risiko wird häufig in randomisierten kontrollierten Studien und Kohortenstudien verwendet, aber das relative Risiko trägt dazu bei, dass die Wirksamkeit von Interventionen überschätzt wird. ⓘ
Ein Maß für die Effektstärke kann nicht nur auf der Grundlage von Mittelwert- oder Varianzunterschieden, sondern auch in Bezug auf Wahrscheinlichkeiten berechnet werden. Siehe dazu, Seite 4. In diesem Fall wird aus den Zahlen einer Kreuztabelle, die Wahrscheinlichkeiten statt absoluter Häufigkeiten enthält, berechnet und daraus die Wurzel gezogen. Das Ergebnis ist Cohens (manchmal auch klein-Omega):
Dabei ist die Anzahl der Kategorien der Spaltenvariable, die Anzahl der Kategorien der Zeilenvariable, die beobachtete Wahrscheinlichkeit in der Zelle i.j und die erwartete Wahrscheinlichkeit in der Zelle i.j. Erwartete Zellenwahrscheinlichkeiten werden berechnet, indem die jeweils entsprechenden Randwahrscheinlichkeiten miteinander multipliziert werden. Zur Berechnung von siehe auch und zu Cohens und, S. 6. Da bei Kreuztabellen, die nicht absolute Häufigkeiten, sondern Wahrscheinlichkeiten enthalten, an der Stelle, an der normalerweise die Fallzahl zu finden ist, immer 1 steht, kann statt auch berechnet werden, was numerisch identisch ist:
Ebenfalls numerisch identisch ist es, wenn in Bezug auf Kreuztabellen, die Wahrscheinlichkeiten enthalten, berechnet wird, wobei die Anzahl der Zeilen, die Anzahl der Spalten und die kleinere der beiden Zahlen ist. ⓘ
Für Cohens gelten konventionell der Wert 0,1 als klein, 0,3 als mittel und 0,5 als groß. ⓘ
Risikodifferenz
Die Risikodifferenz (RD), manchmal auch als absolute Risikominderung bezeichnet, ist einfach der Unterschied im Risiko (der Wahrscheinlichkeit) eines Ereignisses zwischen zwei Gruppen. Sie ist ein nützliches Maß in der experimentellen Forschung, da die RD angibt, inwieweit eine experimentelle Intervention die Wahrscheinlichkeit eines Ereignisses oder Ergebnisses verändert. Im obigen Beispiel beträgt die Wahrscheinlichkeit, dass die Kontrollgruppe und die Behandlungsgruppe die Studie bestehen, 2/3 (oder 0,67) bzw. 6/7 (oder 0,86), so dass die RD-Effektgröße 0,86 - 0,67 = 0,19 (oder 19%) beträgt. Die RD ist das bessere Maß für die Bewertung der Wirksamkeit von Interventionen. ⓘ
Cohens h
Ein Maß, das in der Leistungsanalyse beim Vergleich zweier unabhängiger Proportionen verwendet wird, ist Cohen's h. Es ist wie folgt definiert ⓘ
wobei p1 und p2 die Proportionen der beiden zu vergleichenden Stichproben sind und arcsin die Arkustransformation ist. ⓘ
Umgangssprachliche Effektgröße
Um die Bedeutung einer Effektgröße für Personen außerhalb der Statistik einfacher zu beschreiben, wurde die umgangssprachliche Effektgröße, wie der Name schon sagt, entwickelt, um sie in einfachem Englisch zu kommunizieren. Sie wird verwendet, um einen Unterschied zwischen zwei Gruppen zu beschreiben und wurde 1992 von Kenneth McGraw und S. P. Wong vorgeschlagen und benannt. Sie verwendeten das folgende Beispiel (über die Körpergröße von Männern und Frauen): "Bei jeder zufälligen Paarung von männlichen und weiblichen jungen Erwachsenen ist die Wahrscheinlichkeit, dass der Mann größer ist als die Frau, 0,92, oder einfacher ausgedrückt: Bei 92 von 100 Blind Dates unter jungen Erwachsenen ist der Mann größer als die Frau", um den Populationswert der Effektgröße der gemeinsamen Sprache zu beschreiben. ⓘ
Der Populationswert für die Effektgröße der gemeinsamen Sprache wird häufig in Form von Paaren angegeben, die zufällig aus der Population ausgewählt wurden. Kerby (2014) merkt an, dass ein Paar, definiert als ein Ergebnis in einer Gruppe, das mit einem Ergebnis in einer anderen Gruppe gepaart ist, ein Kernkonzept der gemeinsamen Spracheffektgröße ist. ⓘ
Ein weiteres Beispiel ist eine wissenschaftliche Studie (vielleicht über eine Behandlung für eine chronische Krankheit wie Arthritis) mit zehn Personen in der Behandlungsgruppe und zehn Personen in einer Kontrollgruppe. Wenn jeder in der Behandlungsgruppe mit jedem in der Kontrollgruppe verglichen wird, dann gibt es (10×10=) 100 Paare. Am Ende der Studie wird das Ergebnis für jede Person mit einer Punktzahl bewertet (z. B. auf einer Skala für Mobilität und Schmerzen im Falle einer Arthritisstudie), und dann werden alle Punktzahlen zwischen den Paaren verglichen. Das Ergebnis, d. h. der Prozentsatz der Paare, die die Hypothese unterstützen, ist die Effektgröße der gemeinsamen Sprache. In der Beispielstudie könnte sie (sagen wir) .80 betragen, wenn 80 der 100 Vergleichspaare ein besseres Ergebnis für die Behandlungsgruppe als für die Kontrollgruppe zeigen, und der Bericht könnte wie folgt lauten: "Beim Vergleich eines Patienten aus der Behandlungsgruppe mit einem Patienten aus der Kontrollgruppe zeigte der behandelte Patient in 80 von 100 Paaren ein besseres Behandlungsergebnis." In einer Studie wie dieser ist der Stichprobenwert ein unverzerrter Schätzer für den Populationswert. ⓘ
Vargha und Delaney verallgemeinerten die allgemeinsprachliche Effektgröße (Vargha-Delaney A), um Daten auf Ordinalebene zu erfassen. ⓘ
Rang-biseriale Korrelation
Eine mit der allgemeinsprachlichen Effektgröße verwandte Effektgröße ist die rangbiseriale Korrelation. Dieses Maß wurde von Cureton als Effektgröße für den Mann-Whitney-U-Test eingeführt. Das heißt, es gibt zwei Gruppen, und die Punktwerte für die Gruppen wurden in Ränge umgewandelt. Die einfache Differenzformel von Kerby berechnet die Rang-Biserial-Korrelation aus der Effektgröße der gemeinsamen Sprache. Wenn f der Anteil der Paare ist, die für die Hypothese günstig sind (die gemeinsame Spracheffektgröße), und u der Anteil der Paare ist, die nicht günstig sind, ist die Rang-Biserial-Korrelation r die einfache Differenz zwischen den beiden Anteilen: r = f - u. Mit anderen Worten, die Korrelation ist die Differenz zwischen der gemeinsamen Spracheffektgröße und ihrem Komplement. Beträgt die Effektgröße der gemeinsamen Sprache beispielsweise 60 %, so ist das rangbiseriale r gleich 60 % minus 40 %, also r = 0,20. Die Kerby-Formel ist direktional, wobei positive Werte darauf hinweisen, dass die Ergebnisse die Hypothese unterstützen. ⓘ
Eine nicht-direktionale Formel für die rangbiseriale Korrelation wurde von Wendt aufgestellt, so dass die Korrelation immer positiv ist. Der Vorteil der Wendt-Formel besteht darin, dass sie mit Informationen berechnet werden kann, die in veröffentlichten Arbeiten leicht verfügbar sind. Die Formel verwendet nur den Testwert von U aus dem Mann-Whitney-U-Test und die Stichprobengrößen der beiden Gruppen: r = 1 - (2U)/(n1 n2). Man beachte, dass U hier gemäß der klassischen Definition als der kleinere der beiden U-Werte definiert ist, die aus den Daten berechnet werden können. Damit ist sichergestellt, dass 2U < n1n2 ist, da n1n2 der Maximalwert der U-Statistik ist. ⓘ
Ein Beispiel kann die Verwendung der beiden Formeln veranschaulichen. Nehmen wir eine Gesundheitsstudie mit zwanzig älteren Erwachsenen, von denen zehn in der Behandlungsgruppe und zehn in der Kontrollgruppe sind; es gibt also zehn mal zehn oder 100 Paare. Im Rahmen des Gesundheitsprogramms werden Ernährung, Bewegung und Nahrungsergänzungsmittel zur Verbesserung des Gedächtnisses eingesetzt, und das Gedächtnis wird mit einem standardisierten Test gemessen. Ein Mann-Whitney-U-Test zeigt, dass die Erwachsenen in der Behandlungsgruppe bei 70 der 100 Paare das bessere und bei 30 Paaren das schlechtere Gedächtnis hatten. Das Mann-Whitney U ist der kleinere Wert von 70 und 30, also U = 30. Die Korrelation zwischen Gedächtnis- und Behandlungsleistung nach der einfachen Differenzformel von Kerby ist r = (70/100) - (30/100) = 0,40. Die Korrelation nach der Wendt-Formel ist r = 1 - (2-30)/(10-10) = 0,40. ⓘ
Effektgröße für ordinale Daten
Cliff's delta oder wurde ursprünglich von Norman Cliff zur Verwendung mit Ordinaldaten entwickelt und ist ein Maß dafür, wie oft die Werte in einer Verteilung größer sind als die Werte in einer zweiten Verteilung. Entscheidend ist, dass es keine Annahmen über die Form oder Streuung der beiden Verteilungen erfordert. ⓘ
Die Stichprobenschätzung ist gegeben durch:
wobei die beiden Verteilungen die Größe und mit Elementen und sind, und die Iverson-Klammer ist, die 1 ist, wenn der Inhalt wahr ist, und 0, wenn er falsch ist. ⓘ
ist linear mit der Mann-Whitney-U-Statistik verwandt; sie erfasst jedoch die Richtung des Unterschieds in ihrem Vorzeichen. Gegeben die Mann-Whitney , ist:
Konfidenzintervalle mit Hilfe von Nicht-Zentralitätsparametern
Konfidenzintervalle von standardisierten Effektgrößen, insbesondere Cohen's und beruhen auf der Berechnung von Konfidenzintervallen von Nicht-Zentralitätsparametern (ncp). Ein üblicher Ansatz zur Konstruktion des Konfidenzintervalls von ncp besteht darin, die kritischen ncp-Werte zu finden, um die beobachtete Statistik an die Schwanzquantile α/2 und (1 - α/2) anzupassen. Das SAS- und R-Paket MBESS bietet Funktionen zur Ermittlung kritischer Werte von ncp. ⓘ
t-Test für den Mittelwertunterschied einer einzelnen Gruppe oder zweier verwandter Gruppen
Für eine einzelne Gruppe bezeichnet M den Stichprobenmittelwert, μ den Populationsmittelwert, SD die Standardabweichung der Stichprobe, σ die Standardabweichung der Population und n den Stichprobenumfang der Gruppe. Der t-Wert wird verwendet, um die Hypothese über den Unterschied zwischen dem Mittelwert und einer Basislinie μbaseline zu testen. Normalerweise ist μbaseline gleich Null. Im Falle von zwei verwandten Gruppen wird die einzelne Gruppe durch die Unterschiede zwischen den beiden Stichproben gebildet, während SD und σ die Standardabweichungen der Unterschiede zwischen den Stichproben und der Grundgesamtheit und nicht zwischen den beiden ursprünglichen Gruppen bezeichnen. ⓘ
und Cohens ⓘ
ist die Punktschätzung von ⓘ
So,
t-Test für den Mittelwertunterschied zwischen zwei unabhängigen Gruppen
n1 oder n2 sind die jeweiligen Stichprobengrößen. ⓘ
wobei ⓘ
und Cohens ⓘ
- ist die Punktschätzung von ⓘ
So,
Einseitiger ANOVA-Test für den Mittelwertunterschied zwischen mehreren unabhängigen Gruppen
Beim einseitigen ANOVA-Test wird die nicht-zentrale F-Verteilung verwendet. Während bei einer gegebenen Populationsstandardabweichung gilt für die gleiche Testfrage die nichtzentrale Chi-Quadrat-Verteilung. ⓘ
Für jede j-te Stichprobe innerhalb der i-ten Gruppe Xi,j, bezeichne ⓘ
während, ⓘ
Somit sind beide ncp(s) von F und gleich ⓘ
Im Falle von für K unabhängige Gruppen gleicher Größe ist der Gesamtprobenumfang N := n-K. ⓘ
Der t-Test für ein Paar unabhängiger Gruppen ist ein Spezialfall der einfaktoriellen ANOVA. Beachten Sie, dass der Nicht-Zentralitätsparameter von F nicht vergleichbar ist mit dem Nicht-Zentralitätsparameter des entsprechenden t. Eigentlich, und . ⓘ
Definition
Es sind unterschiedliche Maße der Effektstärke in Gebrauch. Nach Cohen sollte für eine Maßzahl der Effektstärke gelten:
- Sie ist eine dimensionslose Zahl,
- sie hängt nicht von der Maßeinheit der Ursprungsdaten ab,
- sie ist, im Gegensatz zu Teststatistiken, unabhängig von der Stichprobengröße und
- ihr Wert sollte nahe bei Null liegen, wenn die Nullhypothese des zugehörigen Tests nicht abgelehnt wurde. ⓘ
Beispiel
Verglichen wird die Intelligenzleistung von Kindern, die nach einer neuen Methode unterrichtet wurden, mit Kindern, die nach der herkömmlichen Methode unterrichtet wurden. Wenn eine sehr große Anzahl von Kindern pro Stichprobe erfasst wurde, können schon Unterschiede von beispielsweise 0,1 IQ-Punkten zwischen den Gruppen signifikant werden. Ein Unterschied von 0,1 IQ-Punkten bedeutet aber trotz eines signifikanten Testergebnisses kaum eine Verbesserung. ⓘ
Rein anhand der Signifikanz (p-Wert) des Ergebnisses könnte die Schlussfolgerung sein, dass die neue Methode eine bessere Intelligenzleistung bewirkt, und die alte Lehrmethode würde unter womöglich hohem Kostenaufwand abgeschafft werden, obwohl der tatsächlich erzielte Effekt – eine Steigerung um 0,1 Punkte – diesen Aufwand kaum rechtfertigt. ⓘ
Verwendung in der Forschung
Effektstärke bezeichnet bei Experimenten (insbesondere in der Medizin, den Sozialwissenschaften und der Psychologie) das Ausmaß der Wirkung eines experimentellen Faktors. Bei Regressionsmodellen dient sie als Indikator für den Einfluss einer Variablen auf die erklärte Variable. Effektgrößen werden bei Metaanalysen berechnet, um die Ergebnisse von verschiedenen Studien in einem einheitlichen Maß – der Effektgröße – miteinander vergleichen zu können. ⓘ
Die Effektgröße kann einerseits nach einer Untersuchung berechnet werden, um Unterschiede zwischen Gruppen in einem standardisierten Maß vergleichen zu können. Allerdings kann es auch sinnvoll sein, eine Effektgröße auch als Mindesteffektgröße vor der Durchführung einer Untersuchung oder vor der Durchführung eines Tests aufzustellen. Wird ein statistischer Test durchgeführt, so kann praktisch immer die Nullhypothese zurückgewiesen werden, wenn nur eine genügend große Anzahl von Messergebnissen einbezogen sind. Der Test wird bei genügend großem Stichprobenumfang also praktisch immer signifikant. ⓘ
Maßzahlen für die Effektstärke
Cohens d
Umrechnung in r
Wird die Zugehörigkeit zu der einen Stichprobe mit Null und zu der anderen mit Eins kodiert, so kann ein Korrelationskoeffizient berechnet werden. Er ergibt sich aus Cohens als ⓘ
- . ⓘ
Im Gegensatz zu Cohens ist der Korrelationskoeffizient nach oben durch Eins beschränkt. Cohen schlug vor, von einem schwachen Effekt ab einem r=0,10, einem mittleren Effekt ab einem r=0,30 und einem starken Effekt ab r=0,50 zu sprechen. Je nach inhaltlichem Kontext wurde diese Einteilung mittlerweile revidiert. Für die Psychologie konnte beispielsweise empirisch aufgezeigt werden, dass r=0,05 einem sehr kleinen, r=0,10 einem kleinen, r=0,20 einem mittleren, r=0,30 einem großen und r≥0,40 einem sehr großen Effekt entspricht. ⓘ
Kleine, mittlere und große Effektstärken
Die vorher angegebenen Werte für kleinere, mittlere oder große Effektstärken hängen stark vom Sachgebiet ab. Cohen hat die Werte im Rahmen seiner Analysen und dem sozialwissenschaftlichen Usus gewählt. ⓘ
“This is an elaborate way to arrive at the same sample size that has been used in past social science studies of large, medium, and small size (respectively). The method uses a standardized effect size as the goal. Think about it: for a "medium" effect size, you'll choose the same n regardless of the accuracy or reliability of your instrument, or the narrowness or diversity of your subjects. Clearly, important considerations are being ignored here. "Medium" is definitely not the message!”
„Dies ist ein komplizierter Weg um zu den gleichen Stichprobenumfängen zu gelangen, die in der Vergangenheit in großen, mittleren und kleinen sozialwissenschaftlichen Studien benutzt worden sind. Diese Methode hat eine standardisierte Effektstärke zum Ziel. Denken wir darüber nach: Für eine "mittlere" Effektstärke wählen wir den gleichen Stichprobenumfang unabhängig von der Genauigkeit oder der Verlässlichkeit des Instrumentes, die Ähnlichkeit oder die Unterschiede der Untersuchungsobjekte. Natürlich werden hier wichtige Aspekte der Untersuchung ignoriert. "Mittel" ist kaum die Botschaft!“
Sie werden daher von vielen Forschern nur als Richtwerte akzeptiert, beziehungsweise kritisch hinterfragt. Eine empirische Untersuchung bezüglich der Häufigkeiten der Effektstärken in der Differentiellen Psychologie hat ergeben, dass Cohens Einteilung der Pearson-Korrelationen (klein = 0,10; mittel = 0,30; groß = 0,50) die Befundlage in diesem Forschungsbereich unzureichend abbilden. So konnten nur in weniger als 3 % der herangezogenen Studienergebnisse (insgesamt 708 Korrelationen) eine Effektstärke von mindestens beobachtet werden. Basierend auf dieser Untersuchung wird vielmehr empfohlen, in diesem Bereich als kleine, als mittlere und als große Effektstärke zu interpretieren. ⓘ