Reliabilität

Aus besserwiki.de

Die Reliabilität (lat. reliabilitas „Zuverlässigkeit“) ist ein Maß für die formale Genauigkeit bzw. Verlässlichkeit wissenschaftlicher Messungen. Sie ist derjenige Anteil an der Varianz, der durch tatsächliche Unterschiede im zu messenden Merkmal und nicht durch Messfehler erklärt werden kann. Hochreliable Ergebnisse müssen weitgehend frei von Zufallsfehlern sein, d. h. bei Wiederholung der Messung unter gleichen Rahmenbedingungen würde das gleiche Messergebnis erzielt werden (Reproduzierbarkeit von Ergebnissen unter gleichen Bedingungen).

Die Reliabilität stellt neben der Validität und der Objektivität eines der drei wichtigsten Gütekriterien für empirische Untersuchungen dar. Hohe Reliabilität ist grundsätzlich eine Voraussetzung für hohe Validität, wobei eine zu hohe Reliabilität zu Lasten der Validität gehen kann (Reliabilitäts-Validitäts-Dilemma).

Reliabilität umfasst drei Aspekte:

  • Stabilität (Gleichheit bzw. Ähnlichkeit der Messergebnisse bei Anwendung zu unterschiedlichen Zeitpunkten)
  • Konsistenz (Ausmaß, nach dem alle Items, die in einem Test zu einem Merkmal zusammengefasst werden, dasselbe Merkmal messen)
  • Äquivalenz (Gleichwertigkeit von Messungen)

In der psychologischen Diagnostik wird sie zu den Hauptgütekriterien von psychologischen Tests gerechnet. Sie ist einer von mehreren Anhaltspunkten, wie genau ein Persönlichkeits- oder Verhaltensmerkmal gemessen wird.

Arten

Es gibt mehrere allgemeine Klassen von Zuverlässigkeitsschätzungen:

  • Die Inter-Rater-Reliabilität bewertet den Grad der Übereinstimmung zwischen zwei oder mehreren Beurteilern bei ihren Bewertungen. Ein Beispiel: Eine Person hat Bauchschmerzen und verschiedene Ärzte stellen alle die gleiche Diagnose.
  • Die Test-Retest-Zuverlässigkeit gibt an, inwieweit die Testergebnisse von einer Testdurchführung zur nächsten übereinstimmen. Die Messungen werden von einem einzigen Bewerter durchgeführt, der dieselben Methoden oder Instrumente und dieselben Testbedingungen verwendet. Dies umfasst die Intra-Rater-Reliabilität.
  • Die Inter-Methoden-Reliabilität gibt an, inwieweit die Testergebnisse übereinstimmen, wenn die verwendeten Methoden oder Instrumente variieren. Damit kann die Inter-Rater-Reliabilität ausgeschlossen werden. Wenn es sich um Formulare handelt, kann sie als Parallelform-Reliabilität bezeichnet werden.
  • Interne Konsistenzreliabilität: Bewertet die Konsistenz der Ergebnisse zwischen den Items eines Tests.

Unterschied zur Validität

Reliabilität impliziert nicht Gültigkeit. Das heißt, dass eine zuverlässige Messung, die etwas konsistent misst, nicht unbedingt das misst, was gemessen werden soll. So gibt es zwar viele zuverlässige Tests für bestimmte Fähigkeiten, aber nicht alle sind für die Vorhersage von z. B. Arbeitsleistungen gültig.

Auch wenn Zuverlässigkeit nicht gleichbedeutend mit Gültigkeit ist, so setzt die Zuverlässigkeit doch eine Grenze für die allgemeine Gültigkeit eines Tests. Ein Test, der nicht vollkommen zuverlässig ist, kann nicht vollkommen gültig sein, weder als Mittel zur Messung von Eigenschaften einer Person noch als Mittel zur Vorhersage von Ergebnissen bei einem Kriterium. Während ein zuverlässiger Test nützliche, gültige Informationen liefern kann, kann ein Test, der nicht zuverlässig ist, unmöglich gültig sein.

Wenn z. B. eine Waage das Gewicht eines Gegenstands durchgängig mit 500 Gramm über dem tatsächlichen Gewicht anzeigt, wäre die Waage zwar sehr zuverlässig, aber nicht gültig (da das angezeigte Gewicht nicht dem tatsächlichen Gewicht entspricht). Damit eine Waage gültig ist, sollte sie das wahre Gewicht eines Gegenstands anzeigen. Dieses Beispiel zeigt, dass ein absolut zuverlässiges Maß nicht unbedingt gültig ist, dass aber ein gültiges Maß unbedingt zuverlässig sein muss.

Allgemeines Modell

In der Praxis sind Testverfahren nie vollkommen konsistent. Es wurden Theorien über die Zuverlässigkeit von Tests entwickelt, um die Auswirkungen von Inkonsistenzen auf die Messgenauigkeit abzuschätzen. Der grundlegende Ausgangspunkt für fast alle Theorien der Testzuverlässigkeit ist die Vorstellung, dass Testergebnisse den Einfluss von zwei Arten von Faktoren widerspiegeln: 1. Faktoren, die zur Konsistenz beitragen: stabile Merkmale des Individuums oder des Attributs, das man zu messen versucht.

2. Faktoren, die zur Inkonsistenz beitragen: Merkmale der Person oder der Situation, die die Testergebnisse beeinflussen können, aber nichts mit dem zu messenden Merkmal zu tun haben.

Zu diesen Faktoren gehören:

  • Vorübergehende, aber allgemeine Merkmale der Person: Gesundheit, Müdigkeit, Motivation, emotionale Belastung
  • Vorübergehende und spezifische Eigenschaften der Person: Verständnis der spezifischen Testaufgabe, spezifische Tricks oder Techniken im Umgang mit dem jeweiligen Testmaterial, Schwankungen von Gedächtnis, Aufmerksamkeit oder Genauigkeit
  • Aspekte der Prüfungssituation: Ablenkungsfreiheit, Klarheit der Anweisungen, Zusammenspiel der Persönlichkeit usw.
  • Zufallsfaktoren: Glück bei der Auswahl der Antworten durch reines Raten, momentane Ablenkungen

Ziel der Schätzung der Zuverlässigkeit ist es, festzustellen, wie viel der Variabilität in den Testergebnissen auf Messfehler und wie viel auf die Variabilität der wahren Werte zurückzuführen ist.

Ein wahrer Wert ist das reproduzierbare Merkmal des gemessenen Konzepts. Es handelt sich um den Teil des beobachteten Ergebnisses, der bei verschiedenen Messungen immer wieder auftreten würde, wenn kein Fehler vorläge.

Messfehler setzen sich sowohl aus Zufallsfehlern als auch aus systematischen Fehlern zusammen. Er stellt die Diskrepanzen zwischen den in Tests erzielten Ergebnissen und den entsprechenden tatsächlichen Ergebnissen dar.

Diese konzeptionelle Aufschlüsselung wird in der Regel durch die folgende einfache Gleichung dargestellt:

Beobachtete Testnote = wahre Note + Messfehler

Klassische Testtheorie

Ziel der Reliabilitätstheorie ist es, Messfehler abzuschätzen und Vorschläge für die Verbesserung von Tests zu machen, um die Fehler zu minimieren.

Die zentrale Annahme der Zuverlässigkeitstheorie ist, dass Messfehler im Wesentlichen zufällig sind. Dies bedeutet nicht, dass Fehler durch Zufallsprozesse entstehen. Für jede Person ist ein Messfehler kein völlig zufälliges Ereignis. Es wird jedoch angenommen, dass die Ursachen von Messfehlern bei einer großen Anzahl von Individuen so unterschiedlich sind, dass sich Messfehler wie Zufallsvariablen verhalten.

Wenn Fehler die wesentlichen Merkmale von Zufallsvariablen aufweisen, dann ist es vernünftig anzunehmen, dass Fehler mit gleicher Wahrscheinlichkeit positiv oder negativ sind und dass sie nicht mit den wahren Werten oder mit Fehlern in anderen Tests korreliert sind.

Es wird angenommen, dass: 1. Mittlerer Messfehler = 0

2. Wahre Werte und Fehler sind unkorreliert

3. Fehler bei verschiedenen Messungen sind unkorreliert

Die Reliabilitätstheorie zeigt, dass die Varianz der erzielten Ergebnisse einfach die Summe der Varianz der wahren Ergebnisse plus der Varianz der Messfehler ist.

Diese Gleichung legt nahe, dass die Testergebnisse aufgrund von zwei Faktoren variieren: 1. Variabilität der wahren Werte

2. Variabilität aufgrund von Messfehlern.

Der Zuverlässigkeitskoeffizient liefert einen Index für den relativen Einfluss der wahren und der fehlerhaften Ergebnisse auf die erzielten Testergebnisse. In seiner allgemeinen Form ist der Reliabilitätskoeffizient definiert als das Verhältnis der Varianz der wahren Werte zur Gesamtvarianz der Testergebnisse. Oder, äquivalent dazu, eins minus dem Verhältnis zwischen der Varianz der Fehlerbewertung und der Varianz der beobachteten Bewertung:

Leider gibt es keine Möglichkeit, die wahre Punktzahl direkt zu beobachten oder zu berechnen, so dass eine Vielzahl von Methoden verwendet wird, um die Zuverlässigkeit eines Tests zu schätzen.

Einige Beispiele für Methoden zur Schätzung der Zuverlässigkeit sind die Test-Retest-Reliabilität, die interne Konsistenz-Reliabilität und die Paralleltest-Reliabilität. Jede Methode geht etwas anders an das Problem heran, die Fehlerquelle in einem Test zu ermitteln.

Item-Response-Theorie

Den klassischen Testtheoretikern war wohl bekannt, dass die Messgenauigkeit über die Messskala hinweg nicht einheitlich ist. Tests neigen dazu, bei Testteilnehmern mit moderaten Merkmalsausprägungen besser und bei Testteilnehmern mit hoher und niedriger Punktzahl schlechter zu unterscheiden. Die Item-Response-Theorie erweitert das Konzept der Zuverlässigkeit von einem einzelnen Index auf eine Funktion, die Informationsfunktion. Die IRT-Informationsfunktion ist die Umkehrung des bedingten Standardfehlers des beobachteten Ergebnisses bei einer bestimmten Testpunktzahl.

Schätzung

Ziel der Schätzung der Zuverlässigkeit ist es, festzustellen, wie viel der Variabilität in den Testergebnissen auf Messfehler und wie viel auf die Variabilität der wahren Werte zurückzuführen ist.

Es wurden vier praktische Strategien entwickelt, die praktikable Methoden zur Schätzung der Testreliabilität bieten.

1. Test-Retest-Reliabilität: Bewertet direkt, inwieweit die Testergebnisse von einer Testdurchführung zur nächsten konsistent sind.

Sie beinhaltet:

  • Durchführung eines Tests an einer Gruppe von Personen
  • Erneute Durchführung desselben Tests mit derselben Gruppe zu einem späteren Zeitpunkt
  • Korrelieren der ersten Gruppe von Ergebnissen mit der zweiten

Die Korrelation zwischen den Ergebnissen des ersten Tests und den Ergebnissen des Wiederholungstests wird verwendet, um die Zuverlässigkeit des Tests mit Hilfe des Pearson-Produkt-Moment-Korrelationskoeffizienten zu schätzen: siehe auch Item-Total-Korrelation.

2. Methode der Parallelformen: Der Schlüssel zu dieser Methode ist die Entwicklung von alternativen Testformen, die in Bezug auf Inhalt, Antwortverfahren und statistische Merkmale gleichwertig sind. So gibt es beispielsweise für mehrere Tests der allgemeinen Intelligenz Alternativformen, die im Allgemeinen als gleichwertig angesehen werden.

Mit dem Modell des Paralleltests ist es möglich, zwei Formen eines Tests zu entwickeln, die in dem Sinne äquivalent sind, dass die tatsächliche Punktzahl einer Person in Form A mit der tatsächlichen Punktzahl in Form B identisch ist. Wenn beide Formen des Tests einer Reihe von Personen verabreicht wurden, können Unterschiede zwischen den Punktzahlen in Form A und Form B nur auf Messfehler zurückzuführen sein.

Sie beinhaltet:

  • Verabreichung eines Testformulars an eine Gruppe von Personen
  • Zu einem späteren Zeitpunkt Verabreichung einer anderen Form desselben Tests an dieselbe Gruppe von Personen
  • Korrelation der Ergebnisse auf Formblatt A mit den Ergebnissen auf Formblatt B

Die Korrelation zwischen den Ergebnissen auf den beiden alternativen Formularen wird verwendet, um die Zuverlässigkeit des Tests zu schätzen.

Diese Methode bietet eine Teillösung für viele der Probleme, die mit der Test-Retest-Reliabilität verbunden sind. Da die beiden Formen des Tests unterschiedlich sind, sind beispielsweise Übertragungseffekte weniger problematisch. Auch Reaktivitätseffekte werden teilweise kontrolliert, obwohl die Teilnahme am ersten Test die Reaktionen auf den zweiten Test verändern kann. Es ist jedoch davon auszugehen, dass der Effekt bei abwechselnden Testformen nicht so stark ist wie bei zwei Durchführungen desselben Tests.

Diese Technik hat jedoch auch Nachteile:

  • Es kann sehr schwierig sein, mehrere alternative Formen eines Tests zu erstellen.
  • Es kann auch schwierig, wenn nicht gar unmöglich sein, zu garantieren, dass zwei alternative Formen eines Tests parallele Messungen sind

3. Split-half-Methode: Bei dieser Methode werden die beiden Hälften einer Maßnahme als alternative Formen behandelt. Sie bietet eine einfache Lösung für das Problem, mit dem die Methode der parallelen Formen konfrontiert ist: die Schwierigkeit, alternative Formen zu entwickeln.

Sie beinhaltet:

  • Durchführung eines Tests an einer Gruppe von Personen
  • Teilung des Tests in zwei Hälften
  • Korrelieren der Ergebnisse der einen Testhälfte mit den Ergebnissen der anderen Testhälfte

Die Korrelation zwischen diesen beiden Testhälften wird zur Schätzung der Zuverlässigkeit des Tests verwendet. Diese Schätzung der Zuverlässigkeit der Testhälften wird dann mit Hilfe der Spearman-Brown-Vorhersageformel auf die gesamte Testlänge hochgerechnet.

Es gibt verschiedene Möglichkeiten, einen Test aufzuteilen, um die Zuverlässigkeit zu schätzen. Zum Beispiel könnte ein Wortschatztest mit 40 Items in zwei Untertests aufgeteilt werden, wobei der erste aus den Items 1 bis 20 und der zweite aus den Items 21 bis 40 besteht. Die Antworten der ersten Hälfte können sich jedoch systematisch von den Antworten der zweiten Hälfte unterscheiden, da die Schwierigkeit der Aufgaben und die Ermüdung zunehmen.

Bei der Aufteilung eines Tests sollten die beiden Hälften so ähnlich wie möglich sein, sowohl was den Inhalt als auch was den wahrscheinlichen Zustand des Probanden betrifft. Die einfachste Methode ist die Aufteilung in ungerade und gerade Aufgaben, wobei die ungeraden Aufgaben die eine und die geraden Aufgaben die andere Hälfte des Tests bilden. Auf diese Weise ist gewährleistet, dass jede Hälfte eine gleiche Anzahl von Aufgaben aus dem Anfang, der Mitte und dem Ende des ursprünglichen Tests enthält.

4. Interne Konsistenz: Bewertet die Konsistenz der Ergebnisse zwischen den Items eines Tests. Das gebräuchlichste Maß für die interne Konsistenz ist Cronbachs Alpha, das gewöhnlich als Mittelwert aller möglichen Split-Half-Koeffizienten interpretiert wird. Cronbachs Alpha ist eine Verallgemeinerung einer früheren Form der Schätzung der internen Konsistenz, der Kuder-Richardson-Formel 20. Obwohl es am häufigsten verwendet wird, gibt es einige Missverständnisse in Bezug auf Cronbachs Alpha.

Diese Reliabilitätsmaße unterscheiden sich in ihrer Empfindlichkeit gegenüber verschiedenen Fehlerquellen und müssen daher nicht gleich sein. Außerdem ist die Reliabilität eine Eigenschaft der Werte eines Maßes und nicht des Maßes selbst, weshalb sie als stichprobenabhängig bezeichnet wird. Reliabilitätsschätzungen aus einer Stichprobe können sich von denen einer zweiten Stichprobe unterscheiden (über das hinaus, was aufgrund von Stichprobenschwankungen zu erwarten wäre), wenn die zweite Stichprobe aus einer anderen Grundgesamtheit gezogen wurde, weil die tatsächliche Variabilität in dieser zweiten Grundgesamtheit anders ist. (Dies gilt für Messungen aller Art - ein Meterstab kann zwar Häuser gut messen, ist aber nicht sehr zuverlässig, wenn er zur Messung der Länge von Insekten verwendet wird.)

Die Zuverlässigkeit kann durch eine klare Formulierung (bei schriftlichen Bewertungen), eine Verlängerung der Messung und andere informelle Mittel verbessert werden. Eine formale psychometrische Analyse, die so genannte Item-Analyse, gilt jedoch als die wirksamste Methode zur Erhöhung der Zuverlässigkeit. Diese Analyse besteht aus der Berechnung von Item-Schwierigkeiten und Item-Diskriminierungsindizes, wobei der letztgenannte Index die Berechnung der Korrelationen zwischen den Items und der Summe der Item-Scores des gesamten Tests beinhaltet. Wenn zu schwierige, zu leichte und/oder mit einer Diskriminierung nahe Null oder negativ behaftete Items durch bessere Items ersetzt werden, erhöht sich die Zuverlässigkeit der Messung.

  • (wobei die Fehlerquote ist)