Skalenniveau

Das Messniveau oder die Messskala ist eine Klassifizierung, die die Art der Informationen innerhalb der den Variablen zugewiesenen Werte beschreibt. Der Psychologe Stanley Smith Stevens entwickelte die bekannteste Klassifizierung mit vier Messniveaus oder -skalen: Nominal, Ordinal, Intervall und Verhältnis. Dieser Rahmen für die Unterscheidung von Messniveaus stammt aus der Psychologie und wird von Wissenschaftlern anderer Disziplinen stark kritisiert. Weitere Klassifizierungen sind die von Mosteller und Tukey sowie von Chrisman. ⓘ

Das Skalenniveau oder Messniveau oder die Skalendignität (selten Skalenqualität) ist in der Empirie eine wichtige Eigenschaft von Merkmalen bzw. von Variablen. ⓘ

Die Typologie von Stevens

Überblick

Stevens schlug seine Typologie 1946 in einem wissenschaftlichen Artikel mit dem Titel "On the theory of scales of measurement" vor. In diesem Artikel behauptete Stevens, dass alle Messungen in der Wissenschaft unter Verwendung von vier verschiedenen Skalentypen durchgeführt werden, die er als "nominal", "ordinal", "intervall" und "ratio" bezeichnete und die sowohl "qualitativ" (die durch seinen "nominalen" Typ beschrieben werden) als auch "quantitativ" (in unterschiedlichem Maße alle anderen seiner Skalen) vereinigen. Das Konzept der Skalentypen erhielt später durch die Arbeiten der mathematischen Psychologen Theodore Alper (1985, 1987), Louis Narens (1981a, b) und R. Duncan Luce (1986, 1987, 2001) die mathematische Strenge, die ihm zu Beginn fehlte. Wie Luce (1997, S. 395) schrieb:

S. S. Stevens (1946, 1951, 1975) behauptete, dass es darauf ankommt, eine Intervall- oder Verhältnis-Skala zu haben. Spätere Forschungen haben dieser Behauptung Bedeutung verliehen, aber angesichts seiner Versuche, sich auf Ideen des Skalentyps zu berufen, ist es zweifelhaft, ob er sie selbst verstanden hat ... kein mir bekannter Messtheoretiker akzeptiert Stevens' weit gefasste Definition des Begriffs "Messung" ... unserer Ansicht nach ist die einzige sinnvolle Bedeutung für "Regel" eine empirisch überprüfbare Gesetzmäßigkeit für das Attribut. ⓘ

Vergleich

Inkremental Fortschritt	Eigenschaft messen	Mathematische Operatoren	Fortgeschrittene Operationen	Zentrale Tendenz	Variabilität ⓘ
Nominal	Klassifizierung, Zugehörigkeit	=, ≠	Gruppierung	Modus	Qualitative Variation
Ordinal	Vergleich, Niveau	>, <	Sortierung	Median	Bereich, Interquartilsbereich
Intervall	Differenz, Affinität	+, −	Vergleich mit einer Norm	Arithmetisches Mittel	Abweichung
Quotient	Größenordnung, Betrag	×, /	Quotient	Geometrisches Mittel, Harmonisches Mittel	Variationskoeffizient, Studentischer Bereich

Nominale Ebene

Der nominale Typ unterscheidet zwischen Items oder Subjekten nur auf der Grundlage ihrer Namen oder (Meta-)Kategorien und anderen qualitativen Klassifikationen, zu denen sie gehören; dichotome Daten beinhalten also die Konstruktion von Klassifikationen sowie die Klassifikation von Items. Die Entdeckung einer Ausnahme von einer Klassifizierung kann als Fortschritt betrachtet werden. Zur Darstellung der Variablen können Zahlen verwendet werden, die jedoch weder einen numerischen Wert noch eine Beziehung haben: z. B. eine weltweit eindeutige Kennung. ⓘ

Beispiele für solche Klassifizierungen sind Geschlecht, Nationalität, ethnische Zugehörigkeit, Sprache, Genre, Stil, biologische Art und Form. In einer Universität könnte man auch die Zugehörigkeit zu einem Saal als Beispiel verwenden. Andere konkrete Beispiele sind

in der Grammatik die Teile der Rede: Substantiv, Verb, Präposition, Artikel, Pronomen usw.
in der Politik die Machtprojektion: harte Macht, weiche Macht, usw.
in der Biologie die taxonomischen Ränge unterhalb der Domänen: Archaea, Bacteria und Eukarya
in der Softwaretechnik die Art der Fehler: Spezifikationsfehler, Entwurfsfehler und Code-Fehler ⓘ

Nominalskalen wurden oft als qualitative Skalen bezeichnet, und Messungen auf qualitativen Skalen wurden als qualitative Daten bezeichnet. Mit dem Aufkommen der qualitativen Forschung ist diese Verwendung jedoch verwirrend geworden. Wenn bei nominalen Messungen Zahlen als Bezeichnungen zugewiesen werden, haben sie keinen spezifischen numerischen Wert oder Bedeutung. Bei nominalen Messungen darf keine Form der arithmetischen Berechnung (+, -, × usw.) durchgeführt werden. Das nominale Niveau ist das niedrigste Messniveau, das aus statistischer Sicht verwendet wird. ⓘ

Mathematische Operationen

Gleichheit und andere Operationen, die durch Gleichheit definiert werden können, wie z. B. Ungleichheit und Mengenzugehörigkeit, sind die einzigen nicht-trivialen Operationen, die allgemein auf Objekte des nominalen Typs anwendbar sind. ⓘ

Zentrale Tendenz

Der Modus, d. h. das häufigste Element, ist als Maß für die zentrale Tendenz für den Nominaltyp zulässig. Der Median, d. h. das Item mit dem mittleren Rang, ist dagegen für den nominalen Datentyp nicht sinnvoll, da eine Rangfolge für den nominalen Typ bedeutungslos ist. ⓘ

Ordinalskala

Der ordinale Typ ermöglicht eine Rangfolge (1., 2., 3. usw.), nach der die Daten sortiert werden können, lässt aber immer noch keinen relativen Grad der Differenz zwischen ihnen zu. Beispiele hierfür sind einerseits dichotome Daten mit dichotomen (oder dichotomisierten) Werten wie "krank" vs. "gesund" bei der Messung der Gesundheit, "schuldig" vs. "nicht schuldig" bei Gerichtsurteilen, "falsch/falsch" vs. "richtig/wahr" bei der Messung des Wahrheitswertes und andererseits nicht-dichotome Daten, die aus einem Spektrum von Werten bestehen, wie "stimme voll und ganz zu", "stimme größtenteils zu", "stimme größtenteils nicht zu", "stimme überhaupt nicht zu" bei der Messung der Meinung. ⓘ

Bei der Ordinalskala werden die Ereignisse in eine Reihenfolge gebracht, aber es wird nicht versucht, die Intervalle der Skala im Sinne einer Regel gleich zu machen. Rangfolgen stellen Ordinalskalen dar und werden häufig in der Forschung im Zusammenhang mit qualitativen Phänomenen verwendet. Die Einstufung eines Schülers in seiner Abschlussklasse erfolgt auf einer Ordinalskala. Man muss sehr vorsichtig sein, wenn man eine Aussage über Noten auf der Grundlage von Ordinalskalen trifft. Wenn zum Beispiel Devis Rang in seiner Klasse 10 und Gangas Rang 40 ist, kann man nicht sagen, dass Devis Rang viermal so gut ist wie der von Ganga. Die Aussage würde überhaupt keinen Sinn ergeben. Ordinalskalen erlauben nur die Reihung von Items vom höchsten zum niedrigsten. Ordinalmaße haben keine absoluten Werte, und die tatsächlichen Unterschiede zwischen benachbarten Rängen sind möglicherweise nicht gleich. Es kann lediglich gesagt werden, dass eine Person auf der Skala höher oder niedriger liegt als eine andere, aber genauere Vergleiche können nicht angestellt werden. Die Verwendung einer Ordinalskala impliziert also die Aussage "größer als" oder "kleiner als" (eine Gleichheitsaussage ist ebenfalls akzeptabel), ohne dass wir in der Lage sind, anzugeben, wie viel größer oder kleiner. Der tatsächliche Unterschied zwischen den Rängen 1 und 2 kann z. B. größer oder kleiner sein als der Unterschied zwischen den Rängen 5 und 6. Da die Zahlen dieser Skala nur eine Rangbedeutung haben, ist der Median das geeignete Maß für die zentrale Tendenz. Zur Messung der Streuung wird ein Perzentil- oder Quartilsmaß verwendet. Die Korrelationen beschränken sich auf verschiedene Rangordnungsmethoden. Maßnahmen zur statistischen Signifikanz beschränken sich auf die nichtparametrischen Methoden (R. M. Kothari, 2004). ⓘ

Zentrale Tendenz

Der Median, d. h. der mittlere Wert, ist als Maß für die zentrale Tendenz zulässig; der Mittelwert (oder Durchschnitt) als Maß für die zentrale Tendenz ist jedoch nicht zulässig. Der Modus ist zulässig. ⓘ

Stevens stellte 1946 fest, dass psychologische Messungen, wie z. B. die Messung von Meinungen, in der Regel auf Ordinalskalen erfolgen; Mittelwerte und Standardabweichungen haben daher keine Gültigkeit, können aber verwendet werden, um Ideen für eine bessere Operationalisierung der in Fragebögen verwendeten Variablen zu erhalten. Die meisten psychologischen Daten, die mit psychometrischen Instrumenten und Tests zur Messung kognitiver und anderer Fähigkeiten erhoben werden, sind ordinal, auch wenn einige Theoretiker die Auffassung vertreten, dass sie als Intervall- oder Verhältnisskalen behandelt werden können. Es gibt jedoch kaum Anhaltspunkte dafür, dass solche Attribute nicht nur ordinal sind (Cliff, 1996; Cliff & Keats, 2003; Michell, 2008). Insbesondere die IQ-Werte spiegeln eine Ordinalskala wider, bei der alle Werte nur für den Vergleich von Bedeutung sind. Es gibt keinen absoluten Nullpunkt, und ein 10-Punkte-Unterschied kann an verschiedenen Stellen der Skala unterschiedliche Bedeutungen haben. ⓘ

Intervallskala

Bei der Intervallskala kann der Grad des Unterschieds zwischen den Items angegeben werden, nicht jedoch das Verhältnis zwischen ihnen. Beispiele sind Temperaturskalen mit der Celsius-Skala, die zwei definierte Punkte hat (den Gefrier- und den Siedepunkt von Wasser unter bestimmten Bedingungen) und dann in 100 Intervalle unterteilt ist, das Datum, wenn es von einer beliebigen Epoche aus gemessen wird (z. B. nach Christi Geburt), der Ort in kartesischen Koordinaten und die Richtung, gemessen in Grad vom wahren oder magnetischen Norden. Verhältnisse sind nicht aussagekräftig, da man weder sagen kann, dass 20 °C "doppelt so heiß" sind wie 10 °C (im Gegensatz zur Temperatur in Kelvin), noch kann man direkt zwischen zwei Daten multiplizieren oder dividieren. Allerdings können Verhältnisse von Differenzen ausgedrückt werden, z. B. kann eine Differenz das Doppelte einer anderen sein. Intervallvariablen werden manchmal auch als "skalierte Variablen" bezeichnet, aber der formale mathematische Begriff ist ein affiner Raum (in diesem Fall eine affine Linie). ⓘ

Zentrale Tendenz und statistische Streuung

Modus, Median und arithmetisches Mittel sind zulässig, um die zentrale Tendenz von Intervallvariablen zu messen, während zu den Maßen der statistischen Streuung der Bereich und die Standardabweichung gehören. Da man nur durch Differenzen dividieren kann, kann man keine Maße definieren, die bestimmte Verhältnisse erfordern, wie etwa den Variationskoeffizienten. Noch subtiler ist, dass man zwar Momente um den Ursprung definieren kann, aber nur zentrale Momente sinnvoll sind, da die Wahl des Ursprungs willkürlich ist. Man kann standardisierte Momente definieren, da Verhältnisse von Differenzen sinnvoll sind, aber man kann den Variationskoeffizienten nicht definieren, da der Mittelwert ein Moment um den Ursprung ist, im Gegensatz zur Standardabweichung, die (die Quadratwurzel aus) ein zentrales Moment ist. ⓘ

Verhältnisskala

Siehe auch: Positive reelle Zahlen § Verhältnisskala ⓘ

Der Typ der Verhältnisskala hat seinen Namen von der Tatsache, dass die Messung die Schätzung des Verhältnisses zwischen der Größe einer kontinuierlichen Größe und einer Maßeinheit der gleichen Art ist (Michell, 1997, 1999). Die meisten Messungen in den Natur- und Ingenieurwissenschaften werden auf Verhältnisskalen durchgeführt. Beispiele hierfür sind Masse, Länge, Dauer, Flächenwinkel, Energie und elektrische Ladung. Im Gegensatz zu Intervallskalen können Verhältnisse durch Division verglichen werden. Sehr informell können viele Verhältnisskalen so beschrieben werden, dass sie angeben, "wie viel" von etwas (d. h. eine Menge oder Größenordnung). Verhältnisskalen werden häufig verwendet, um eine Größenordnung auszudrücken, z. B. für die Temperatur in Größenordnungen (Temperatur). ⓘ

Zentrale Tendenz und statistische Streuung

Der geometrische Mittelwert und der harmonische Mittelwert sind zusätzlich zu Modus, Median und arithmetischem Mittel zur Messung der zentralen Tendenz zulässig. Der studentische Bereich und der Variationskoeffizient sind zur Messung der statistischen Streuung zulässig. Alle statistischen Maße sind zulässig, da alle erforderlichen mathematischen Operationen für die Verhältnisskala definiert sind. ⓘ

Debatte über die Stevens'sche Typologie

Obwohl die Typologie von Stevens weit verbreitet ist, wird sie von anderen Theoretikern immer noch in Frage gestellt, insbesondere im Falle der nominalen und ordinalen Typen (Michell, 1986). Einige haben jedoch argumentiert, dass der Grad der Uneinigkeit überbewertet werden kann. Hand sagt: "Psychologische Grundlagentexte beginnen oft mit Stevens' Rahmen und die Ideen sind allgegenwärtig. In der Tat wurde die wesentliche Solidität seiner Hierarchie von Mathematikern für repräsentative Messungen festgestellt, indem sie die Invarianzeigenschaften von Abbildungen von empirischen Systemen auf reelle Zahlenkontinua bestimmten. Sicherlich sind die Ideen überarbeitet, erweitert und ausgearbeitet worden, aber das Bemerkenswerte ist seine Einsicht angesichts des relativ begrenzten formalen Apparats, der ihm zur Verfügung stand, und der vielen Jahrzehnte, die seit seiner Formulierung vergangen sind. ⓘ

Duncan (1986) wandte sich gegen die Verwendung des Wortes Messung im Zusammenhang mit dem Nominaltyp, aber Stevens (1975) sagte über seine eigene Definition von Messung, dass "die Zuordnung jede konsistente Regel sein kann. Die einzige Regel, die nicht zulässig ist, wäre eine zufällige Zuordnung, denn der Zufall ist in Wirklichkeit eine Nicht-Regel". ⓘ

Die Verwendung des Mittelwerts als Maß für die zentrale Tendenz des ordinalen Typs ist unter den Anhängern der Stevens'schen Typologie immer noch umstritten. Viele Verhaltenswissenschaftler verwenden ohnehin den Mittelwert für ordinale Daten. Dies wird häufig damit begründet, dass der ordinale Typ in der Verhaltenswissenschaft in der Tat zwischen dem echten ordinalen und dem Intervalltyp liegt; die Intervalldifferenz zwischen zwei ordinalen Rängen ist zwar nicht konstant, liegt aber oft in der gleichen Größenordnung. ⓘ

So zeigen beispielsweise Anwendungen von Messmodellen im Bildungsbereich häufig, dass die Gesamtpunktzahl eine ziemlich lineare Beziehung zu den Messwerten über den gesamten Bereich einer Bewertung aufweist. Daher wird argumentiert, dass Intervallstatistiken wie Mittelwerte sinnvoll für Ordinalskalenvariablen verwendet werden können, solange die unbekannte Intervalldifferenz zwischen den Rängen der Ordinalskala nicht zu variabel ist. Statistische Analysesoftware wie SPSS verlangt vom Benutzer, dass er für jede Variable die geeignete Messklasse auswählt. Dadurch wird sichergestellt, dass spätere Benutzerfehler nicht versehentlich sinnlose Analysen durchführen (z. B. Korrelationsanalyse mit einer Variablen auf nominalem Niveau). ⓘ

L. L. Thurstone machte Fortschritte bei der Entwicklung einer Rechtfertigung für den Erhalt des Intervalltyps, die auf dem Gesetz des vergleichenden Urteils beruht. Eine gängige Anwendung dieses Gesetzes ist der analytische Hierarchieprozess. Weitere Fortschritte wurden von Georg Rasch (1960) erzielt, der das probabilistische Rasch-Modell entwickelte, das eine theoretische Grundlage und Rechtfertigung für die Gewinnung von Messungen auf Intervallniveau aus Zählungen von Beobachtungen, wie z. B. Gesamtpunktzahlen bei Beurteilungen, bietet. ⓘ

Andere vorgeschlagene Typologien

Neben der Stevens'schen Typologie wurden weitere Typologien vorgeschlagen. So beschrieben Mosteller und Tukey (1977) sowie Nelder (1990) kontinuierliche Zählungen, kontinuierliche Verhältnisse, Zählungsverhältnisse und kategoriale Datenarten. Siehe auch Chrisman (1998), van den Berg (1991). ⓘ

Die Typologie von Mosteller und Tukey (1977)

Mosteller und Tukey stellten fest, dass die vier Ebenen nicht erschöpfend sind, und schlugen sie vor:

Bezeichnungen
Grade (geordnete Bezeichnungen wie Anfänger, Mittelstufe, Fortgeschrittene)
Ränge (Ordnungen, wobei 1 die kleinste oder größte, 2 die nächstkleinste oder größte usw. ist)
Gezählte Brüche (begrenzt durch 0 und 1)
Zählungen (nichtnegative ganze Zahlen)
Beträge (nicht-negative reelle Zahlen)
Salden (jede reelle Zahl) ⓘ

Zum Beispiel passen Prozentsätze (eine Variante von Brüchen im Mosteller-Tukey-Rahmen) nicht gut in den Stevens-Rahmen: Keine Transformation ist vollständig zulässig. ⓘ

Die Typologie von Chrisman (1998)

Nicholas R. Chrisman führte eine erweiterte Liste von Messgrößen ein, um verschiedene Messgrößen zu berücksichtigen, die nicht unbedingt zu den traditionellen Begriffen von Messgrößen passen. Messungen, die an einen Bereich gebunden sind und sich wiederholen (wie z. B. Grad in einem Kreis, Uhrzeit usw.), abgestufte Zugehörigkeitskategorien und andere Arten von Messungen passen nicht zu Stevens' ursprünglicher Arbeit, was zur Einführung von sechs neuen Messungsebenen führte, so dass es insgesamt zehn gibt:

Nominal
Abstufung der Zugehörigkeit
Ordinal
Intervall
Log-Intervall
Extensives Verhältnis
Zyklisches Verhältnis
Abgeleitetes Verhältnis
Zählungen
Absolut ⓘ

Auch wenn manche behaupten, dass die erweiterten Maßstäbe außerhalb der akademischen Geographie kaum verwendet werden, ist die abgestufte Zugehörigkeit ein zentrales Element der Fuzzy-Mengen-Theorie, während zu den absoluten Maßstäben die Wahrscheinlichkeiten sowie die Plausibilität und Unwissenheit in der Dempster-Shafer-Theorie gehören. Zu den zyklischen Verhältnismessungen gehören Winkel und Zeiten. Zählungen scheinen Verhältnismessungen zu sein, aber die Skala ist nicht willkürlich, und gebrochene Zählungen sind in der Regel bedeutungslos. Logarithmische Intervallmessungen werden häufig in Börsengrafiken dargestellt. All diese Arten von Messungen werden häufig außerhalb der akademischen Geografie verwendet und passen nicht gut zu Stevens' ursprünglicher Arbeit. ⓘ

Skalentypen und Stevens' "operative Theorie der Messung"

Die Theorie der Skalentypen ist die intellektuelle Handlangerin von Stevens' "operativer Messtheorie", die sich in der Psychologie und den Verhaltenswissenschaften durchsetzen sollte, auch wenn Michell sie als völlig konträr zur Messung in den Naturwissenschaften charakterisiert (Michell, 1999). Die operative Messtheorie war im Wesentlichen eine Reaktion auf die Schlussfolgerungen eines Ausschusses, der 1932 von der British Association for the Advancement of Science eingesetzt wurde, um die Möglichkeit einer echten wissenschaftlichen Messung in den Psychologie- und Verhaltenswissenschaften zu untersuchen. Dieses Komitee, das als Ferguson-Komitee bekannt wurde, veröffentlichte einen Abschlussbericht (Ferguson, et al., 1940, S. 245), in dem die Sone-Skala von Stevens (Stevens & Davis, 1938) Gegenstand der Kritik war:

...jedes Gesetz, das vorgibt, ein quantitatives Verhältnis zwischen Empfindungsintensität und Reizintensität auszudrücken, ist nicht nur falsch, sondern in der Tat bedeutungslos, es sei denn, dem Konzept der Addition, wie es auf die Empfindung angewendet wird, kann eine Bedeutung gegeben werden. ⓘ

Das heißt, wenn Stevens' Sone-Skala tatsächlich die Intensität von Hörempfindungen messen würde, dann müsste ein Beweis dafür erbracht werden, dass diese Empfindungen quantitative Eigenschaften sind. Der erforderliche Beweis war das Vorhandensein einer additiven Struktur - ein Konzept, das von dem deutschen Mathematiker Otto Hölder umfassend behandelt wurde (Hölder, 1901). Da der Physiker und Messtheoretiker Norman Robert Campbell die Beratungen des Ferguson-Ausschusses dominierte, kam der Ausschuss zu dem Schluss, dass Messungen in den Sozialwissenschaften aufgrund des Fehlens von Verkettungsoperationen unmöglich seien. Diese Schlussfolgerung wurde später durch die Entdeckung der Theorie der gemeinsamen Messung durch Debreu (1960) und unabhängig davon durch Luce & Tukey (1964) widerlegt. Die Reaktion von Stevens bestand jedoch nicht darin, Experimente durchzuführen, um das Vorhandensein einer additiven Struktur in Empfindungen zu testen, sondern stattdessen die Schlussfolgerungen des Ferguson-Ausschusses für null und nichtig zu erklären, indem er eine neue Messtheorie vorschlug:

In Anlehnung an N. R. Campbell (Abschlussbericht, S. 340) können wir sagen, dass Messung im weitesten Sinne als die Zuordnung von Zahlen zu Objekten und Ereignissen nach bestimmten Regeln definiert ist (Stevens, 1946, S. 677). ⓘ

Stevens war stark von den Ideen eines anderen Harvard-Akademikers, des Physik-Nobelpreisträgers Percy Bridgman (1927), beeinflusst, dessen Doktrin des Operationismus Stevens zur Definition des Messens verwendete. In Stevens' Definition ist es beispielsweise die Verwendung eines Maßbands, die die Länge (das Objekt der Messung) als messbar (und damit als quantitativ) definiert. Kritiker des Operationismus bemängeln, dass er die Beziehungen zwischen zwei Objekten oder Ereignissen mit den Eigenschaften eines dieser Objekte oder Ereignisse verwechselt (Hardcastle, 1995; Michell, 1999; Moyer, 1981a,b; Rogers, 1989). ⓘ

Der kanadische Messtheoretiker William Rozeboom (1966) war ein früher und scharfer Kritiker von Stevens' Theorie der Skalentypen. ⓘ

Dieselbe Variable kann je nach Kontext einem anderen Skalentyp entsprechen

Ein weiteres Problem besteht darin, dass ein und dieselbe Variable je nach Messmethode und Ziel der Analyse einen anderen Skalentyp darstellen kann. So wird beispielsweise die Haarfarbe normalerweise als nominale Variable betrachtet, da sie keine offensichtliche Ordnung aufweist. Es ist jedoch möglich, Farben (einschließlich Haarfarben) auf verschiedene Weise zu ordnen, u. a. nach dem Farbton; dies ist als Kolorimetrie bekannt. Der Farbton ist eine Variable mit Intervallniveau. ⓘ

Systematik der Skalen

Je nach der Art eines Merkmals bzw. je nachdem, welche Vorschriften bei seiner Messung eingehalten werden können, lassen sich verschiedene Stufen der Skalierbarkeit unterscheiden:

Skalenniveau		logische / mathematische Operationen	Messbare Eigenschaften	Beispiel	[zusätzliche] Lageparameter ⓘ
Nominalskala		=/≠	Häufigkeit	Postleitzahlen, Geschlechter	Modus
Ordinalskala		=/≠ ; </>	Häufigkeit, Rangfolge	Schulnoten („sehr gut“ bis „ungenügend“), Tabellenplatz in der Bundesliga	Median
Kardinalskala
	Intervallskala	=/≠ ; </> ; +/− (Merkmal + Merkmalsdifferenz)	Häufigkeit, Rangfolge, Abstand	Zeitskala (Datum), Intelligenzquotient, Temperatur (in Grad Celsius)	Arithmetisches Mittel
	Verhältnisskala	=/≠ ; </> ; +/− ; ÷ (liefert einheitenlose Zahl) / x (Zahl x Merkmal)	Häufigkeit, Rangfolge, Abstand, natürlicher Nullpunkt	Alter (in Jahren), Umsatz (in Euro), Temperatur (in Kelvin)	Geometrisches Mittel

Skalenniveaus im Vergleich; rot: Die auf dem jeweiligen Skalenniveau neu hinzugekommenen Eigenschaften. Nominal: nur Häufigkeiten, ordinal: Reihenfolge, intervall: Abstände, verhältnisskaliert: Nullpunkt ⓘ

Intervall- und Verhältnisskala werden zur Kardinalskala zusammengefasst. Merkmale auf dieser Skala werden dann als metrisch bezeichnet. Nominal- oder ordinalskalierte Merkmale (s. u.) bezeichnet man auch als kategorial. ⓘ

Das Skalenniveau bestimmt,

welche (mathematischen) Operationen mit einer entsprechend skalierten Variable zulässig sind. Dabei können Operationen, die bei Variablen eines bestimmten Skalenniveaus zulässig sind, grundsätzlich auch auf Variablen aller höheren Skalenniveaus durchgeführt werden. Ein auf einem bestimmten Niveau skalierbares Merkmal kann auf allen darunter liegenden Skalenniveaus dargestellt werden, jedoch nicht umgekehrt.
welche Transformationen mit entsprechend skalierten Variablen durchgeführt werden können, ohne Information zu verlieren bzw. zu verändern.
welche Information das entsprechende Merkmal liefert, welche Interpretationen Ausprägungen des entsprechenden Merkmals zulassen. ⓘ

Das Skalenniveau gibt keine Auskunft darüber,

ob eine Variable diskret (kategorial) oder stetig ist (siehe Hauptartikel Merkmal). Lediglich bei der Nominalskalierung ist das Merkmal grundsätzlich nicht stetig, sondern diskret.

„Obwohl Skalenniveau und Anzahl der möglichen Ausprägungen unabhängige Konzeptionen darstellen, sind in der Praxis nominal- und ordinalskalierte Merkmale meist diskret und metrisch skalierte Merkmale meist stetig.“ ⓘ

Geschichte der Einteilung

„Skalen können danach klassifiziert werden, welche Transformationen für sie zulässig sind.“ Diese Klassifikation von Skalen sei aber nicht unumstritten, Kritik hierzu finde man vor allem bei Prytulak (1975) und Duncan (s. a. Michell). „Da es unendlich viele zulässige Transformationen einer bestimmten Skala gibt, könnten prinzipiell auch unendlich viele verschiedene Skalenniveaus unterschieden werden. Die meist verwendete Klassifikation geht auf Stevens (1946) zurück. Dieser unterscheidet Nominal-, Ordinal-, Intervall- und Ratioskalen“. „Eine detailliertere Klassifikation zum Beispiel von Narens und Luce (1986) oder von Orth (1974) enthalte meist noch eine ‚Log-Intervallskala‘ zwischen der Intervall- und der Ratioskala. Bei einer Log-Intervallskala sind noch Potenztransformationen (x'= s * x^r; mit s und r größer 0) zulässig.“ ⓘ

Marks (1974) versucht die Möglichkeiten verschiedener Skalenniveaus systematisch zu erfassen. Er schlägt dazu eine allgemeine Transformationsfunktion vor, in der drei Konstanten frei gewählt werden können. Die Konstanten können jeweils entweder positiv (+) oder Null (0) sein. Null zeigt an, dass eine Skalentransformation hier zu einem Informationsverlust führen würde. Ein Pluszeichen zeigt an, dass eine solche Transformation ohne Informationsverlust möglich wäre. Die von ihm vorgeschlagene allgemeine Formel lautet:
x'=(a+1)x^(b+1)+c ⓘ

Beispielsweise müssten für eine Intervallskala die Konstanten a positiv, b null, c positiv sein. Damit ergibt sich für eine Intervallskala die Lineartransformation als allgemein zulässige Transformationsregel:
x'=ax+b ⓘ

Dementsprechend kommt Marks auf folgende 8 Skalen, wobei zu sehen ist, dass die Aussagekraft steigt, während gegenläufig die Transformationsmöglichkeiten ohne Informationsverlust abnehmen:

(engl.) Skalenbezeichnung	a	b	c	Anzahl zulässiger Transformationen	Aussagekraft ⓘ
Ordinal	+	+	+	3	0
Hyperordinal	0	+	+	2	1
Interval	+	0	+	2	1
Log interval	+	+	0	2	1
Difference	0	0	+	1	2
Power	0	+	0	1	2
Ratio	+	0	0	1	2
Absolute	0	0	0	0	3

Ordinalskala

Für ein ordinal skalierbares Merkmal bestehen Rangordnungen der Art „größer“, „kleiner“, „mehr“, „weniger“, „stärker“, „schwächer“ zwischen je zwei unterschiedlichen Merkmalswerten (z. B. x > y > z). Über die Abstände zwischen diesen benachbarten Urteilsklassen ist jedoch nichts ausgesagt. Meist handelt es sich um qualitative Merkmale, wie z. B. der in der Frage gesuchte „höchste erreichbare Bildungsabschluss“. Ein weiteres Beispiel sind die Schulnoten: Note 1 ist besser als Note 2, es ist aber ausgesprochen zweifelhaft, ob der Unterschied zwischen Note 1 und 2 gleich groß ist wie der zwischen Note 3 und Note 4. ⓘ

Eine Sonderform der Ordinalskala ist die Rangskala. Hierbei kann jeder Wert nur einmal vergeben werden. Beispiele hierfür sind die Erreichung von Rängen im Sport, genauso wie bei anderen Leistungsvergleichen, oder die natürliche Ordnung, wie sie im Tierreich oft bei Lebewesen vorkommt, die in sozialen Gruppen leben wie z. B. Hühnervögel. Ihre Ordnung wird daher auch Hackordnung genannt. ⓘ

Intervallskala

Die Reihenfolge der Merkmalswerte ist festgelegt, und die Größe des Abstandes zwischen zwei Werten lässt sich sachlich begründen. Als metrische Skala macht sie Aussagen über den Betrag der Unterschiede zwischen zwei Klassen. Die Ungleichheit der Merkmalswerte lässt sich durch Differenzbildung quantifizieren (z. B. beim Datum könnte das Ergebnis lauten „drei Jahre früher“). Der Nullpunkt („nach Christi Geburt“) und der Abstand der Klassen (Jahre oder Monde) sind jedoch willkürlich festgelegt. Hinweis: Bei den metrischen Skalen unterscheidet man diskrete und kontinuierliche Merkmale. ⓘ

Verhältnisskala (auch Ratioskala)

Die Verhältnisskala besitzt das höchste Skalenniveau. Bei ihr handelt es sich ebenfalls um eine metrische Skala, im Unterschied zur Intervallskala existiert jedoch ein absoluter Nullpunkt (z. B. Blutdruck, absolute Temperatur, Lebensalter, Längenmaße). Einzig bei diesem Skalenniveau sind Multiplikation und Division sinnvoll und erlaubt. Verhältnisse von Merkmalswerten dürfen also gebildet werden (z. B. x = y · z). ⓘ

Grauzonen zwischen den Skalenniveaus

Es existieren Merkmale, die sich nicht genau einem Skalenniveau zuordnen lassen. So könnte sich z. B. bei einem Merkmal nicht sicher belegen lassen, dass es intervallskaliert ist, man ist sich aber sicher, dass es mehr als ordinalskaliert ist. In einem solchen Fall könnte man eine Interpretation auf einer Intervallskala versuchen, diese Annahme aber bei der Interpretation berücksichtigen und dort entsprechend vorsichtig vorgehen. Ein Beispiel dafür ist die Bildung von Durchschnitten bei Schulnoten als Ziffern kodiert, die eigentlich ein ordinalskaliertes Merkmal darstellen, weil sie in festen Begriffen definiert sind, etwa von sehr gut bis ungenügend. ⓘ

Andere Beispiele sind Uhrzeiten ohne Angabe des Datums (zirkadiane Daten) oder Himmelsrichtungen. Hier lassen sich innerhalb von Teilbereichen Werte ordnen und Abstände messen, und mit einer entsprechenden Beschränkung für die Größe von Abständen lassen sich sogar beliebig viele Abstände sinnvoll (genauer: ‘eindeutig’) addieren. Ohne eine Beschränkung gilt das nicht mehr („Liegt 2:00 Uhr vor oder nach 22:00 Uhr?“ – „Sowohl als auch“). ⓘ

Probleme bei der Skalierung

Im Einzelfall können natürliche Ordnungen auftreten, die sich zwar prinzipiell mit einer bestimmten Skala beschreiben lassen, aber mitunter einzelne Abweichungen enthalten. Ein Beispiel sind Platzierungen bei Sportereignissen (rangskaliert), wo eigentlich jeder Sportler nur einen Platz einnimmt (erster, zweiter, dritter usw.), aber sich seinen Platz mit einem anderen Sportler teilen muss, wenn dieser exakt denselben Messwert erreicht hat. Je nach Reglement kann dann ein höherer oder niedriger gelegener Rang nicht vergeben werden, so dass die Skala eine Leerstelle aufweist, die es sonst nicht gibt (nicht vergebene Silbermedaille bei zwei ersten Plätzen). Hier liegt streng genommen eine auf Rangskalierung gemaßregelte Ordinalskala vor. ⓘ

Im Tierreich sind Rangskalierungen manchmal nicht stringent, so dass es innerhalb einer aufsteigenden Hackordnung besonders im unteren Skalenbereich zwischengeschaltete Tripletts oder Multiplets gibt, die sich gegenseitig nach dem Schema A>B>C>A „hacken“. Man spricht dabei von Intransitivität. Ein solches Phänomen kann auch nicht durch Überführung in Ordinalskalenniveau erschöpfend beschrieben werden und erfordert eine vollständige Darstellung in einer Matrix oder die Zuhilfenahme eines weiteren Merkmals, z. B. Erfolg bei Futterstreit in gefressenem Futtergewicht, sofern ranghöhere Tiere stets mehr fressen als rangniedere, was jedoch oft nicht so ist. Die Matrizendarstellung wird deshalb in solchen Fällen der Skalierung vorgezogen, obgleich sie visuell schwerer erfassbar und statistisch aufwändiger zu verwenden ist. ⓘ