Likert-Skala

Aus besserwiki.de

Eine Likert-Skala (/ˈlɪkərt/ LIK-ərt, häufig fälschlicherweise als /ˈlkərt/ LY-kərt ausgesprochen) ist eine psychometrische Skala, die häufig in der Forschung mit Fragebögen verwendet wird. Sie ist der am weitesten verbreitete Ansatz zur Skalierung von Antworten in der Umfrageforschung, so dass der Begriff (oder genauer gesagt die Likert-Skala) oft austauschbar mit Ratingskala verwendet wird, obwohl es auch andere Arten von Ratingskalen gibt.

Die Skala ist nach ihrem Erfinder, dem Psychologen Rensis Likert, benannt. Likert unterschied zwischen einer eigentlichen Skala, die sich aus den kollektiven Antworten auf eine Reihe von Items (in der Regel acht oder mehr) ergibt, und dem Format, bei dem die Antworten entlang einer Bandbreite bewertet werden. Technisch gesehen bezieht sich eine Likert-Skala nur auf die erste Variante. Der Unterschied zwischen diesen beiden Konzepten hat mit der Unterscheidung zu tun, die Likert zwischen dem zu untersuchenden Phänomen und den Mitteln zur Erfassung der Variation, die auf das zugrundeliegende Phänomen hinweist, getroffen hat.

Bei der Beantwortung eines Likert-Items geben die Befragten den Grad ihrer Zustimmung oder Ablehnung auf einer symmetrischen Zustimmungs-/Ablehnungsskala für eine Reihe von Aussagen an. Der Bereich erfasst also die Intensität ihrer Gefühle für ein bestimmtes Item. Likert-Skalen werden in der Psychologie, den Sozialwissenschaften, der Statistik, der Wirtschaft und im Marketing eingesetzt.

Eine Skala kann als die einfache Summe oder der Durchschnitt der Antworten auf einen Fragebogen über die Menge der einzelnen Items (Fragen) erstellt werden. Dabei geht die Likert-Skalierung davon aus, dass die Abstände zwischen den einzelnen Auswahlmöglichkeiten (Antwortoptionen) gleich sind. Viele Forscher verwenden eine Reihe solcher Items, die hoch korreliert sind (die eine hohe interne Konsistenz aufweisen), die aber auch zusammen den gesamten untersuchten Bereich erfassen (was weniger als perfekte Korrelationen erfordert). Andere halten sich an einen Standard, bei dem davon ausgegangen wird, dass alle Items Replikationen voneinander sind, oder mit anderen Worten, die Items werden als parallele Instrumente betrachtet". Im Gegensatz dazu behandelt die moderne Testtheorie die Schwierigkeit der einzelnen Items (die ICCs) als Information, die in die Skalierung der Items einfließen muss.

Zusammensetzung

Ein Beispielfragebogen zum Design einer Website, mit Antworten auf einer Likert-Skala

Eine Likert-Skala ist die Summe der Antworten auf mehrere Likert-Items. Da viele Likert-Skalen jedes einzelne Likert-Item mit einer eigenen visuellen Analogskala (z. B. einer horizontalen Linie, auf der die Testperson eine Antwort durch Einkreisen oder Ankreuzen anzeigt) verbinden, wird ein einzelnes Item selbst manchmal fälschlicherweise als Skala bezeichnet, was in der Literatur und im Sprachgebrauch des Fachgebiets zu einer weit verbreiteten Verwirrung führt.

Ein Likert-Item ist einfach eine Aussage, die der Befragte bewerten soll, indem er ihr einen quantitativen Wert auf einer beliebigen subjektiven oder objektiven Dimension gibt, wobei der Grad der Zustimmung/Ablehnung die am häufigsten verwendete Dimension ist. Gut konzipierte Likert-Items weisen sowohl "Symmetrie" als auch "Ausgewogenheit" auf. Symmetrie bedeutet, dass sie eine gleiche Anzahl positiver und negativer Positionen enthalten, deren jeweilige Abstände bilateral symmetrisch um den "neutralen"/Nullwert sind (unabhängig davon, ob dieser Wert als Kandidat präsentiert wird oder nicht). Ausgewogenheit bedeutet, dass der Abstand zwischen den einzelnen Kandidatenwerten gleich ist, so dass quantitative Vergleiche, wie z. B. eine Mittelwertbildung, auch bei Items mit mehr als zwei Kandidatenwerten möglich sind.

Das Format eines typischen fünfstufigen Likert-Items könnte zum Beispiel wie folgt aussehen:

  1. Stimmt überhaupt nicht zu
  2. Stimmt nicht zu
  3. Weder zustimmen noch nicht zustimmen
  4. Stimmt zu
  5. Stimme voll und ganz zu

Die Likert-Skala ist eine bipolare Skalierungsmethode, bei der entweder eine positive oder eine negative Antwort auf eine Aussage gemessen wird. Manchmal wird eine geradzahlige Skala verwendet, bei der die mittlere Option "stimme weder zu noch stimme ich nicht zu" nicht verfügbar ist. Diese Methode wird manchmal als "erzwungene Wahl" bezeichnet, da die neutrale Option weggelassen wird. Die neutrale Option kann als eine leicht zu wählende Option angesehen werden, wenn ein Befragter unsicher ist, und es ist daher fraglich, ob es sich um eine wirklich neutrale Option handelt. Eine Studie aus dem Jahr 1987 fand vernachlässigbare Unterschiede zwischen der Verwendung von "unentschieden" und "neutral" als mittlere Option in einer fünfstufigen Likert-Skala.

Likert-Skalen können aus mehreren Gründen verzerrt werden. Die Befragten können:
  • Sie vermeiden es, extreme Antwortkategorien zu verwenden (Verzerrung der zentralen Tendenz), insbesondere aus dem Wunsch heraus, nicht als extremistisch wahrgenommen zu werden (ein Beispiel für die Verzerrung durch soziale Erwünschtheit). Dieser Effekt kann zu Beginn eines Tests auftreten, weil man erwartet, dass Fragen, zu denen die Testperson stärkere Ansichten vertritt, folgen werden, so dass man bei früheren Fragen "Raum" für stärkere Antworten später im Test lässt. Diese Erwartung führt zu einer Verzerrung, die insofern besonders schädlich ist, als ihre Auswirkungen im gesamten Test nicht einheitlich sind und nicht durch einfache pauschale Normalisierung korrigiert werden können;
  • Zustimmung zu Aussagen, wie sie präsentiert werden (acquiescence bias), wobei dieser Effekt besonders stark bei Kindern, Menschen mit Entwicklungsstörungen, älteren Menschen und Personen ist, die einer Kultur der Institutionalisierung ausgesetzt sind, die den Eifer, zu gefallen, fördert und anreizt;
  • aus dem defensiven Wunsch heraus, keine falschen Aussagen zu machen und/oder negative Konsequenzen zu vermeiden, die die Befragten befürchten, wenn ihre Antworten gegen sie verwendet werden, insbesondere wenn sie falsch interpretiert und/oder aus dem Zusammenhang gerissen werden;
  • Antworten geben, von denen sie glauben, dass sie als Hinweis auf Stärke oder fehlende Schwäche/Dysfunktion bewertet werden ("gut vortäuschen"),
  • Antworten geben, von denen sie glauben, dass sie als Hinweis auf Schwäche oder das Vorhandensein von Beeinträchtigungen/Pathologien gewertet werden ("schlecht vortäuschen"),
  • Versuchen, sich selbst oder ihre Organisation in einem Licht darzustellen, von dem sie glauben, dass der Prüfer oder die Gesellschaft es für vorteilhafter hält als ihre wahren Überzeugungen (Social Desirability Bias, die intersubjektive Version des oben beschriebenen objektiven "faking good");
  • versuchen, sich selbst oder ihre Organisation in einem Licht darzustellen, von dem sie glauben, dass der Prüfer oder die Gesellschaft es für weniger günstig/ungünstiger hält als ihre wahren Überzeugungen (Normverweigerung, die intersubjektive Version des oben beschriebenen objektiven "Vortäuschens von Schlechtigkeit").

Die Entwicklung einer Skala mit ausgewogenem Keying (eine gleiche Anzahl positiver und negativer Aussagen und vor allem eine gleiche Anzahl positiver und negativer Aussagen zu jeder fraglichen Position oder Frage) kann das Problem der Duldungsvoreingenommenheit vermeiden, da die Duldungsvoreingenommenheit bei positiv bewerteten Items die Duldungsvoreingenommenheit bei negativ bewerteten Items ausgleicht, aber defensive, zentrale Tendenz- und soziale Erwünschtheitsvoreingenommenheit sind etwas problematischer.

Es ist üblich, in einer quantitativen Pilotstudie eine große Anzahl von Items (Aussagen) zu testen. Items werden als ungeeignet angesehen, wenn sie zu wenige Unterschiede zwischen den Befragten aufzeigen. Ein Mangel ist es beispielsweise, wenn mehr als 80 % der Befragten einem Item maximal zustimmen oder es maximal ablehnen (Boden- und Deckeneffekt). Solche Items werden oft aussortiert.

Man kann weitere Items aufgrund zu geringer oder negativer Korrelation mit dem Gesamttestwert aussortieren, um zu einer möglichst eindimensionalen Skala zu kommen (siehe Cronbachs Alpha).

Auswertung und Analyse

Nachdem der Fragebogen ausgefüllt wurde, kann jedes Item separat analysiert werden, oder in einigen Fällen können die Antworten der Items summiert werden, um eine Punktzahl für eine Gruppe von Items zu erhalten. Daher werden Likert-Skalen oft als summative Skalen bezeichnet.

In der Literatur herrscht große Uneinigkeit darüber, ob einzelne Likert-Items als Intervalldaten betrachtet werden können oder ob sie als geordnete kategoriale Daten behandelt werden sollten, wobei es starke Überzeugungen darüber gibt, welche Methoden am besten geeignet sind. Diese Uneinigkeit lässt sich in vielerlei Hinsicht auf das Ausmaß zurückführen, in dem Likert-Items als ordinale Daten interpretiert werden.

In dieser Diskussion stehen zwei Überlegungen im Vordergrund. Erstens: Likert-Skalen sind willkürlich. Der einem Likert-Item zugewiesene Wert hat keine objektive numerische Grundlage, weder in Bezug auf die Maßtheorie noch auf die Skala (aus der eine Distanzmetrik bestimmt werden kann). Der Wert, der jedem Likert-Item zugewiesen wird, wird einfach von dem Forscher bestimmt, der die Umfrage konzipiert und die Entscheidung auf der Grundlage eines gewünschten Detaillierungsgrads trifft. Konventionell werden den Likert-Items jedoch in der Regel progressive, ganzzahlige Werte zugewiesen. Likert-Skalen reichen in der Regel von 2 bis 10, wobei 3, 5 oder 7 die häufigsten Werte sind. Darüber hinaus ist die progressive Struktur der Skala so beschaffen, dass jedes aufeinander folgende Likert-Item als eine "bessere" Antwort als der vorhergehende Wert angesehen wird. (Dies kann in Fällen anders sein, in denen eine umgekehrte Reihenfolge der Likert-Skala erforderlich ist).

Der zweite und möglicherweise wichtigere Punkt ist die Frage, ob der "Abstand" zwischen den einzelnen aufeinanderfolgenden Itemkategorien gleichwertig ist, was traditionell angenommen wird. Bei dem obigen fünfstufigen Likert-Item wird beispielsweise gefolgert, dass der "Abstand" zwischen Kategorie 1 und 2 der gleiche ist wie zwischen Kategorie 3 und 4. Im Sinne einer guten Forschungspraxis ist eine äquidistante Darstellung durch den Forscher wichtig, da es sonst zu einer Verzerrung in der Analyse kommen kann. Beispielsweise ist es unwahrscheinlich, dass bei einem vierstufigen Likert-Item mit den Kategorien "Schlecht", "Durchschnittlich", "Gut" und "Sehr gut" alle Kategorien äquidistant sind, da es nur eine Kategorie gibt, die eine unterdurchschnittliche Bewertung erhalten kann. Dies würde wohl jedes Ergebnis zugunsten eines positiven Ergebnisses verzerren. Andererseits kann es sein, dass ein Forscher, selbst wenn er glaubt, dass die Kategorien äquidistant sind, dies von den Befragten nicht als solche interpretiert wird.

Eine gute Likert-Skala, wie oben beschrieben, zeigt eine Symmetrie der Kategorien um einen Mittelpunkt mit klar definierten sprachlichen Qualifizierungen. Bei einer solchen symmetrischen Skalierung lassen sich äquidistante Attribute in der Regel deutlicher beobachten oder zumindest ableiten. Wenn eine Likert-Skala symmetrisch und äquidistant ist, verhält sie sich eher wie eine Messung auf Intervallniveau. Eine Likert-Skala ist zwar in der Tat ordinal, aber wenn sie gut dargestellt wird, kann sie sich dennoch einer Messung auf Intervallniveau annähern. Dies kann von Vorteil sein, da bei einer reinen Ordinalskala einige wertvolle Informationen verloren gehen könnten, wenn der "Abstand" zwischen den Likert-Items nicht berücksichtigt werden kann. Der wichtige Gedanke hierbei ist, dass die geeignete Art der Analyse davon abhängt, wie die Likert-Skala dargestellt wurde.

Begriffe der zentralen Tendenz sind oft auf der Ebene der Items anwendbar - d. h. die Antworten zeigen oft eine quasi-normale Verteilung. Die Gültigkeit solcher Maße hängt von der zugrunde liegenden Intervallnatur der Skala ab. Wenn für einen Vergleich zweier Gruppen Intervallcharakter angenommen wird, ist der Test mit gepaarten Stichproben t-Test nicht unangemessen. Wenn nicht-parametrische Tests durchgeführt werden sollen, wird die Modifikation des Wilcoxon-Signed-Rank-Tests von Pratt (1959) anstelle des Standard-Wilcoxon-Signed-Rank-Tests empfohlen.

Die Antworten auf mehrere Likert-Fragen können summiert werden, vorausgesetzt, dass alle Fragen dieselbe Likert-Skala verwenden und dass die Skala eine vertretbare Annäherung an eine Intervallskala ist; in diesem Fall erlaubt der zentrale Grenzwertsatz die Behandlung der Daten als Intervalldaten zur Messung einer latenten Variable. Wenn die summierten Antworten diese Annahmen erfüllen, können parametrische statistische Tests wie die Varianzanalyse angewendet werden. Typische Grenzwerte für die Annahme, dass diese Annäherung akzeptabel ist, sind mindestens vier und vorzugsweise acht Items in der Summe.

Um binäre Likert-Antworten direkt zu modellieren, können sie in einer Binomialform dargestellt werden, indem die Antworten "stimme zu" und "stimme nicht zu" getrennt summiert werden. Der Chi-Quadrat-Test, der Cochran-Q-Test oder der McNemar-Test sind gängige statistische Verfahren, die nach dieser Umwandlung verwendet werden. Nichtparametrische Tests wie der Chi-Quadrat-Test, der Mann-Whitney-Test, der Wilcoxon-Signed-Rank-Test oder der Kruskal-Wallis-Test werden häufig bei der Analyse von Likert-Skala-Daten verwendet.

Alternativ können die Antworten auf der Likert-Skala mit einem geordneten Probit-Modell analysiert werden, wobei die Reihenfolge der Antworten ohne die Annahme einer Intervallskala beibehalten wird. Durch die Verwendung eines geordneten Probit-Modells können Fehler vermieden werden, die entstehen, wenn geordnete Bewertungen als Messungen auf Intervallniveau behandelt werden.

Die konsensbasierte Bewertung (CBA) kann verwendet werden, um einen objektiven Standard für Likert-Skalen in Bereichen zu schaffen, in denen kein allgemein akzeptierter oder objektiver Standard existiert. Die konsensbasierte Bewertung (CBA) kann verwendet werden, um allgemein anerkannte Standards zu verfeinern oder sogar zu validieren.

Visuelle Darstellung von Daten des Likert-Typs

Ein wichtiger Teil der Datenanalyse und -präsentation ist die Visualisierung (oder grafische Darstellung) von Daten. Das Thema der Darstellung von Likert- (und anderen) Bewertungsdaten wird in zwei Arbeiten von Robbins und Heiberger ausführlich behandelt. Im ersten Beitrag empfehlen sie die Verwendung von so genannten divergierenden gestapelten Balkendiagrammen und vergleichen sie mit anderen Darstellungsformen. Das zweite Papier beschreibt die Verwendung der Likert-Funktion im HH-Paket für R und gibt viele Beispiele für ihre Verwendung.

Niveau der Messung

Häufig wird angenommen, dass die fünf Antwortkategorien ein Intervall-Messniveau darstellen. Dies kann jedoch nur dann der Fall sein, wenn die Intervalle zwischen den Skalenpunkten empirischen Beobachtungen in einem metrischen Sinne entsprechen. Reips und Funke (2008) zeigen, dass dieses Kriterium von einer visuellen Analogskala viel besser erfüllt wird. Tatsächlich können auch Phänomene auftreten, die das ordinale Skalenniveau bei Likert-Skalen sogar in Frage stellen. Zum Beispiel in einer Menge von Items A, B, C die mit einer Likert-Skala bewertet werden, zirkuläre Beziehungen wie A > B, B > C und C > A auftreten können. Dies verstößt gegen das Axiom der Transitivität für die Ordinalskala.

Untersuchungen von Labovitz und Traylor haben gezeigt, dass Likert-Items selbst bei recht großen Verzerrungen der wahrgenommenen Abstände zwischen den Skalenpunkten sehr gut zu Skalen passen, die als gleiche Intervalle wahrgenommen werden. Diese Items und andere gleich aussehende Skalen in Fragebögen sind also robust gegenüber Verletzungen der Annahme gleicher Abstände, von der viele Forscher glauben, dass sie für parametrische statistische Verfahren und Tests erforderlich ist.

Rasch-Modell

Die Daten der Likert-Skala können grundsätzlich als Grundlage für die Ermittlung von Intervallschätzungen auf einem Kontinuum verwendet werden, indem das polytome Rasch-Modell angewandt wird, wenn Daten gewonnen werden können, die diesem Modell entsprechen. Darüber hinaus ermöglicht das polytome Rasch-Modell die Prüfung der Hypothese, dass die Aussagen wie beabsichtigt zunehmende Ausprägungen einer Einstellung oder eines Merkmals widerspiegeln. Die Anwendung des Modells zeigt zum Beispiel häufig, dass die neutrale Kategorie nicht ein Niveau der Einstellung oder Eigenschaft zwischen den Kategorien "stimme nicht zu" und "stimme zu" darstellt.

Auch hier gilt, dass nicht jeder Satz von Items mit Likert-Skala für die Rasch-Messung verwendet werden kann. Die Daten müssen gründlich überprüft werden, um die strengen formalen Axiome des Modells zu erfüllen. Die Rohwerte sind jedoch die hinreichende Statistik für die Rasch-Maße, eine bewusste Entscheidung von Georg Rasch. Wenn Sie also bereit sind, die Rohwerte als gültig zu akzeptieren, dann können Sie auch die Rasch-Maße als gültig akzeptieren.

Aussprache

Rensis Likert, der Entwickler der Skala, sprach seinen Namen /ˈlɪkərt/ LIK-ərt aus. Einige haben behauptet, dass Likerts Name "zu den am häufigsten falsch ausgesprochenen in [dem] Bereich" gehört, weil viele Menschen den Namen der Skala als /ˈlkərt/ LY-kərt aussprechen.

Konstruktion

Geradzahlige oder ungeradzahlige Skalen?

Eine gerade Zahl der Antwortmöglichkeiten ist ebenso gebräuchlich wie eine ungerade Zahl. Letztere wird verwendet, wenn eine mittlere Ausprägung (neutral bzw. „weder noch“) sinnvoll ist. Eine gerade Anzahl zwingt zur Entscheidung zu einer Seite.

Anwendungsgebiete

Verwendung finden Likert-Skalen in Fragebogenerhebungen insbesondere in der empirischen Sozial-, Markt- und Wahlforschung und der Psychologie.

Beispiel

Angenommen, es soll die Einstellung zu Off-Road-Autos gemessen werden. Aufgrund theoretischer Überlegungen werden dazu unter anderem folgende Items verwendet:

  • Item 1: Off-Road-Autos werden überwiegend von Angebern gefahren.
  • Item 2: Frauen fühlen sich in Off-Road-Autos geschützt.

Antwortmöglichkeiten (zugeordnete Codes):

  • Variante 1: trifft zu (1), trifft eher zu (2), teils-teils (3), trifft eher nicht zu (4), trifft nicht zu (5)
  • Variante 2: trifft zu (1), trifft eher zu (2), trifft eher nicht zu (3), trifft nicht zu (4)

Eine Aussage und die auf der Antwortskala gewählte Zahl stellen somit einen Indikator für die Einstellung dar. Ziel ist es, eine konsistente und trennscharfe Finalskala beziehungsweise Itemmenge zu bilden, mit der ein möglichst valides (gültiges) Ergebnis zur untersuchten Fragestellung erzielt werden kann.

Bei diesem Beispiel kann es jedoch sogar zum Halo-Effekt kommen, hier insbesondere zum Teufelshörner-Effekt. Denn wenn Offroad-Autos überwiegend von Angebern gefahren würden und gleichzeitig Frauen sich in Offroad-Autos geschützt fühlten, könnte man subsumieren, dass Frauen Angeberinnen seien.