Median

Aus besserwiki.de
Ermittlung des Medians in Datensätzen mit einer ungeraden und einer geraden Anzahl von Werten

In der Statistik und Wahrscheinlichkeitstheorie ist der Median der Wert, der die obere Hälfte von der unteren Hälfte einer Datenstichprobe, einer Population oder einer Wahrscheinlichkeitsverteilung trennt. Für einen Datensatz kann er als "mittlerer" Wert betrachtet werden. Die grundlegende Eigenschaft des Medians bei der Beschreibung von Daten im Vergleich zum Mittelwert (der oft einfach als "Durchschnitt" bezeichnet wird) besteht darin, dass er nicht durch einen kleinen Anteil extrem großer oder kleiner Werte verzerrt ist und daher eine bessere Darstellung eines "typischen" Wertes bietet. Der Median des Einkommens ist beispielsweise ein besserer Anhaltspunkt für ein "typisches" Einkommen, da die Einkommensverteilung stark verzerrt sein kann. Der Median ist in der robusten Statistik von zentraler Bedeutung, da er die widerstandsfähigste Statistik ist und einen Schwellenwert von 50 % hat: Solange nicht mehr als die Hälfte der Daten verunreinigt ist, ist der Median kein willkürlich großes oder kleines Ergebnis.

In der Statistik ist der Median – auch Zentralwert genannt – ein Mittelwert und Lageparameter. Der Median der Messwerte einer Urliste ist derjenige Messwert, der genau „in der Mitte“ steht, wenn man die Messwerte der Größe nach sortiert. Beispielsweise ist für die ungeordnete Urliste 4, 1, 37, 2, 1 der Messwert 2 der Median, der zentrale Wert in der geordneten Urliste 1, 1, 2, 4, 37.

Endlicher Datensatz von Zahlen

Der Median einer endlichen Liste von Zahlen ist die "mittlere" Zahl, wenn diese Zahlen in der Reihenfolge vom kleinsten zum größten Wert aufgelistet sind.

Wenn der Datensatz eine ungerade Anzahl von Beobachtungen enthält, wird die mittlere Zahl ausgewählt. Ein Beispiel: Die folgende Liste mit sieben Zahlen,

1, 3, 3, 6, 7, 8, 9

hat den Median von 6, was der vierte Wert ist.

Wenn der Datensatz eine gerade Anzahl von Beobachtungen aufweist, gibt es keinen eindeutigen Mittelwert, und der Median wird in der Regel als das arithmetische Mittel der beiden mittleren Werte definiert. Zum Beispiel hat dieser Datensatz mit 8 Zahlen

1, 2, 3, 4, 5, 6, 8, 9

hat einen Medianwert von 4,5, d. h. . (Technisch gesehen bedeutet dies, dass der Median der vollständig getrimmte mittlere Bereich ist).

Im Allgemeinen kann der Median mit dieser Konvention wie folgt definiert werden: Für einen Datensatz von Elementen, geordnet vom kleinsten zum größten,

wenn ungerade ist,
wenn gerade ist,
Vergleich der gemeinsamen Mittelwerte der Werte [ 1, 2, 2, 3, 4, 7, 9 ]
Typ Beschreibung Beispiel Ergebnis
Arithmetisches Mittel Summe der Werte eines Datensatzes geteilt durch die Anzahl der Werte: (1 + 2 + 2 + 3 + 4 + 7 + 9) / 7 4
Median Mittelwert, der die größere und die kleinere Hälfte eines Datensatzes trennt 1, 2, 2, 3, 4, 7, 9 3
Modus Häufigster Wert in einem Datensatz 1, 2, 2, 3, 4, 7, 9 2

Eine wichtige Eigenschaft des Medians ist Robustheit gegenüber Ausreißern.

  • Beispiel: Sieben unsortierte Messwerte 4, 1, 15, 2, 4, 5, 4 werden nach Größe sortiert: 1, 2, 4, 4, 4, 5, 15; Der Median (auch der Ober- und der Untermedian) ist der Wert an der mittleren Stelle, also 4. Wenn im Beispiel durch einen Fehler eine 4 durch 46 ersetzt wurde, ändert sich der Median nicht: 1, 2, 4, 4, 5, 15, 46. Das arithmetische Mittel hingegen springt von 5 auf 11.

Formale Definition

Formal ist ein Median einer Grundgesamtheit ein Wert, bei dem höchstens die Hälfte der Grundgesamtheit kleiner als der vorgeschlagene Median und höchstens die Hälfte größer als der vorgeschlagene Median ist. Wie oben gesehen, sind Mediane nicht unbedingt eindeutig. Wenn jede Menge weniger als die Hälfte der Grundgesamtheit enthält, dann ist ein Teil der Grundgesamtheit genau gleich dem eindeutigen Median.

Der Median ist für alle geordneten (eindimensionalen) Daten wohldefiniert und ist unabhängig von jeder Abstandsmetrik. Der Median kann daher auf Klassen angewandt werden, die zwar geordnet, aber nicht numerisch sind (z. B. Berechnung des Medians einer Note, wenn die Schüler von A bis F benotet werden), obwohl das Ergebnis bei einer geraden Anzahl von Fällen in der Mitte zwischen den Klassen liegen kann.

Ein geometrischer Median hingegen wird in einer beliebigen Anzahl von Dimensionen definiert. Ein verwandtes Konzept, bei dem das Ergebnis einem Mitglied der Stichprobe entsprechen muss, ist das Medoid.

Es gibt keine allgemein akzeptierte Standardnotation für den Median, aber einige Autoren stellen den Median einer Variablen x entweder als oder als μ1/2, manchmal auch als M dar. In jedem dieser Fälle muss die Verwendung dieser oder anderer Symbole für den Median ausdrücklich definiert werden, wenn sie eingeführt werden.

Der Median ist ein Spezialfall anderer Möglichkeiten, die typischen Werte einer statistischen Verteilung zusammenzufassen: Er ist das zweite Quartil, das fünfte Dezil und das fünfzigste Perzentil.

Verwendungen

Der Median kann als Maß für die Lage verwendet werden, wenn man den Extremwerten eine geringere Bedeutung beimisst, typischerweise weil eine Verteilung schief ist, die Extremwerte nicht bekannt sind oder Ausreißer nicht vertrauenswürdig sind, d. h. Mess-/Schreibfehler sein können.

Betrachten wir zum Beispiel das Multiset

1, 2, 2, 2, 3, 14.

Der Median ist in diesem Fall 2 (ebenso wie der Modus) und könnte als besserer Indikator für die Mitte angesehen werden als das arithmetische Mittel von 4, das größer ist als alle bis auf einen der Werte. Die weithin zitierte empirische Beziehung, dass der Mittelwert "weiter in den Schwanz" einer Verteilung verschoben ist als der Median, ist jedoch nicht generell wahr. Man kann höchstens sagen, dass die beiden Statistiken nicht "zu weit" voneinander entfernt sein können; siehe § Ungleichheit zwischen Mittelwerten und Medianen weiter unten.

Da der Median auf den mittleren Daten eines Satzes basiert, ist es nicht erforderlich, den Wert der Extremwerte zu kennen, um ihn zu berechnen. Wenn zum Beispiel in einem Psychologietest, in dem die für die Lösung einer Aufgabe benötigte Zeit untersucht wird, eine kleine Anzahl von Personen die Aufgabe in der vorgegebenen Zeit überhaupt nicht lösen konnte, kann trotzdem ein Median berechnet werden.

Da der Median einfach zu verstehen und leicht zu berechnen ist und gleichzeitig eine robuste Annäherung an den Mittelwert darstellt, ist der Median eine beliebte zusammenfassende Statistik in der deskriptiven Statistik. In diesem Zusammenhang gibt es mehrere Möglichkeiten für ein Maß der Variabilität: die Spanne, der Interquartilsbereich, die mittlere absolute Abweichung und die absolute Medianabweichung.

Für praktische Zwecke werden verschiedene Maße für Lage und Streuung häufig auf der Grundlage der Frage verglichen, wie gut die entsprechenden Populationswerte aus einer Datenstichprobe geschätzt werden können. Der Median, der anhand des Stichprobenmedians geschätzt wird, hat in dieser Hinsicht gute Eigenschaften. Er ist zwar in der Regel nicht optimal, wenn eine bestimmte Bevölkerungsverteilung angenommen wird, aber seine Eigenschaften sind immer recht gut. So zeigt beispielsweise ein Vergleich der Effizienz der Kandidatenschätzer, dass der Stichprobenmittelwert statistisch effizienter ist, wenn - und nur wenn - die Daten nicht durch Daten aus Verteilungen mit starkem Schwanz oder aus Verteilungsmischungen verunreinigt sind. Selbst dann hat der Median eine Effizienz von 64 % im Vergleich zum Mittelwert mit minimaler Varianz (für große normale Stichproben), d. h. die Varianz des Medians ist ~50 % größer als die Varianz des Mittelwerts.

Wahrscheinlichkeitsverteilungen

Geometrische Visualisierung von Modus, Median und Mittelwert einer beliebigen Wahrscheinlichkeitsdichtefunktion

Für jede reellwertige Wahrscheinlichkeitsverteilung mit kumulativer Verteilungsfunktion F ist der Median als jede reelle Zahl m definiert, die die folgenden Ungleichungen erfüllt

Eine äquivalente Formulierung verwendet eine Zufallsvariable X, die gemäß F verteilt ist:

Man beachte, dass diese Definition nicht voraussetzt, dass X eine absolut kontinuierliche Verteilung hat (die eine Wahrscheinlichkeitsdichtefunktion f hat), und auch nicht, dass sie diskret ist. Im ersten Fall können die Ungleichungen in Gleichheit umgewandelt werden: Ein Median erfüllt folgende Bedingungen

Jede Wahrscheinlichkeitsverteilung auf R hat mindestens einen Median, aber in pathologischen Fällen kann es mehr als einen Median geben: Wenn F auf einem Intervall konstant 1/2 ist (so dass f=0 dort), dann ist jeder Wert dieses Intervalls ein Median.

Mediane von bestimmten Verteilungen

Die Mediane bestimmter Verteilungen lassen sich leicht aus ihren Parametern berechnen; außerdem gibt es sie auch für einige Verteilungen, die keinen wohldefinierten Mittelwert haben, wie z. B. die Cauchy-Verteilung:

  • Der Median einer symmetrischen unimodalen Verteilung fällt mit dem Modus zusammen.
  • Der Median einer symmetrischen Verteilung, die einen Mittelwert μ besitzt, nimmt ebenfalls den Wert μ an.
    • Der Median einer Normalverteilung mit Mittelwert μ und Varianz σ2 ist μ. Für eine Normalverteilung gilt also: Mittelwert = Median = Modus.
    • Der Median einer Gleichverteilung im Intervall [a, b] ist (a + b) / 2, was auch der Mittelwert ist.
  • Der Median einer Cauchy-Verteilung mit dem Ortsparameter x0 und dem Skalenparameter y ist x0, der Ortsparameter.
  • Der Median einer Potenzgesetzverteilung x-a mit einem Exponenten a > 1 ist 21/(a - 1)xmin, wobei xmin der Mindestwert ist, für den das Potenzgesetz gilt
  • Der Median einer Exponentialverteilung mit dem Geschwindigkeitsparameter λ ist der natürliche Logarithmus von 2 geteilt durch den Geschwindigkeitsparameter: λ-1ln 2.
  • Der Median einer Weibull-Verteilung mit dem Formparameter k und dem Skalenparameter λ ist λ(ln 2)1/k.

Populationen

Optimalitätseigenschaft

Der mittlere absolute Fehler einer reellen Variablen c in Bezug auf die Zufallsvariable X ist

Unter der Voraussetzung, dass die Wahrscheinlichkeitsverteilung von X so ist, dass der obige Erwartungswert existiert, ist m dann und nur dann ein Median von X, wenn m den mittleren absoluten Fehler in Bezug auf X minimiert.

Allgemeiner ausgedrückt, ist ein Median definiert als ein Minimum von

wie weiter unten im Abschnitt über multivariate Mediane (insbesondere den räumlichen Median) erläutert.

Diese auf Optimierung basierende Definition des Medians ist in der statistischen Datenanalyse nützlich, z. B. beim k-Median-Clustering.

Ungleichheit zwischen Mittelwerten und Medianen

Vergleich von Mittelwert, Median und Modus zweier Log-Normalverteilungen mit unterschiedlicher Schiefe

Wenn die Verteilung eine endliche Varianz hat, dann ist der Abstand zwischen dem Median und dem Mittelwert durch eine Standardabweichung begrenzt.

Diese Schranke wurde 1979 von Book und Sher für diskrete Stichproben und 1982 von Page und Murty in allgemeinerer Form bewiesen. In einem Kommentar zu einem späteren Beweis von O'Cinneide präsentierte Mallows 1991 einen kompakten Beweis, der die Jensensche Ungleichung zweimal verwendet, wie folgt. Unter Verwendung von |-| für den absoluten Wert ergibt sich

Die erste und die dritte Ungleichung ergeben sich aus der Anwendung der Jensenschen Ungleichung auf die Absolutwertfunktion und die quadratische Funktion, die beide konvex sind. Die zweite Ungleichung ergibt sich aus der Tatsache, dass ein Median die absolute Abweichungsfunktion minimiert .

Der Beweis von Mallows kann verallgemeinert werden, um eine multivariate Version der Ungleichung zu erhalten, indem der Absolutwert durch eine Norm ersetzt wird:

wobei m ein räumlicher Median ist, d. h. ein Minimierer der Funktion Der räumliche Median ist eindeutig, wenn die Dimension des Datensatzes zwei oder mehr beträgt.

Ein alternativer Beweis verwendet die einseitige Tschebyscheff-Ungleichung; sie erscheint in einer Ungleichung für Orts- und Skalenparameter. Diese Formel folgt auch direkt aus der Ungleichung von Cantelli.

Unimodale Verteilungen

Für den Fall unimodaler Verteilungen kann man eine schärfere Schranke für den Abstand zwischen Median und Mittelwert erreichen:

.

Eine ähnliche Beziehung besteht zwischen dem Median und dem Modus:

Jensensche Ungleichung für Mediane

Die Jensen'sche Ungleichung besagt, dass für jede Zufallsvariable X mit einem endlichen Erwartungswert E[X] und für jede konvexe Funktion f

Diese Ungleichung lässt sich auch auf den Median verallgemeinern. Wir sagen, dass eine Funktion f: RR ist eine C-Funktion, wenn für jedes t,

ein geschlossenes Intervall ist (wobei die entarteten Fälle eines einzelnen Punktes oder einer leeren Menge zulässig sind). Jede konvexe Funktion ist eine C-Funktion, aber der umgekehrte Fall trifft nicht zu. Wenn f eine C-Funktion ist, dann

Wenn die Mediane nicht eindeutig sind, gilt die Aussage auch für die entsprechenden Suprema.

Mediane für Stichproben

Der Stichprobenmedian

Effiziente Berechnung des Stichprobenmedians

Auch wenn die Vergleichssortierung von n Elementen Ω(n log n) Operationen erfordert, können Auswahlalgorithmen das k-kleinste von n Elementen mit nur Θ(n) Operationen berechnen. Dies gilt auch für den Median, der die Statistik n/2. Ordnung ist (oder bei einer geraden Anzahl von Stichproben das arithmetische Mittel der beiden Statistiken mittlerer Ordnung).

Selektionsalgorithmen haben immer noch den Nachteil, dass sie Ω(n) Speicher benötigen, d. h. sie müssen die gesamte Stichprobe (oder einen linear großen Teil davon) im Speicher haben. Da dies ebenso wie der lineare Zeitbedarf unerschwinglich sein kann, wurden mehrere Schätzverfahren für den Median entwickelt. Ein einfaches Verfahren ist die Median-Drei-Regel, die den Median als Median einer Unterstichprobe mit drei Elementen schätzt; dieses Verfahren wird häufig als Unterprogramm im Quicksortieralgorithmus verwendet, der eine Schätzung des Medians seiner Eingabe verwendet. Ein robusterer Schätzer ist Tukey's ninther, der der Median der Drei-Regel ist, die mit begrenzter Rekursion angewendet wird: Wenn A die als Array angelegte Stichprobe ist und

med3(A) = Median(A[1], A[n/2], A[n]),

dann

ninther(A) = med3(med3(A[1 ... 1/3n]), med3(A[1/3n ... 2/3n]), med3(A[2/3n ... n]))

Der Remedian ist ein Schätzer für den Median, der lineare Zeit, aber sublinearen Speicher benötigt und in einem einzigen Durchgang über die Stichprobe arbeitet.

Stichprobenverteilung

Die Verteilungen sowohl des Stichprobenmittelwerts als auch des Stichprobenmedians wurden von Laplace bestimmt. Die Verteilung des Stichprobenmedians aus einer Grundgesamtheit mit einer Dichtefunktion ist asymptotisch normal mit Mittelwert und Varianz

wobei der Median von und der Stichprobenumfang ist. Ein moderner Beweis folgt weiter unten. Das Laplacesche Ergebnis wird nun als Spezialfall der asymptotischen Verteilung beliebiger Quantile verstanden.

Für normale Stichproben ist die Dichte Somit ist für große Stichproben die Varianz des Medians gleich (Siehe auch Abschnitt #Effizienz unten.)

Ableitung der asymptotischen Verteilung

Wir nehmen an, dass der Stichprobenumfang eine ungerade Zahl ist und nehmen an, dass unsere Variable kontinuierlich ist; die Formel für den Fall diskreter Variablen wird weiter unten in § Empirische lokale Dichte angegeben. Die Stichprobe lässt sich als "unter dem Median", "im Median" und "über dem Median" zusammenfassen, was einer Trinomialverteilung mit den Wahrscheinlichkeiten , und . Bei einer kontinuierlichen Variablen ist die Wahrscheinlichkeit, dass mehrere Stichprobenwerte genau dem Median entsprechen, 0, so dass man die Dichte am Punkt direkt aus der Trinomialverteilung berechnen:

.

Nun führen wir die Betafunktion ein. Für ganzzahlige Argumente und kann diese ausgedrückt werden als . Außerdem sei daran erinnert, dass . Unter Verwendung dieser Beziehungen und der Einstellung beider und gleich kann der letzte Ausdruck geschrieben werden als

Die Dichtefunktion des Medians ist also eine symmetrische Beta-Verteilung, die durch . Ihr Mittelwert ist, wie zu erwarten, 0,5 und ihre Varianz ist . Nach der Kettenregel ist die entsprechende Varianz des Stichprobenmedians

.

Die zusätzlichen 2 sind im Grenzfall vernachlässigbar.

Empirische lokale Dichte

In der Praxis sind die Funktionen und oft nicht bekannt oder werden nicht angenommen. Sie können jedoch aus einer beobachteten Häufigkeitsverteilung geschätzt werden. In diesem Abschnitt geben wir ein Beispiel. Betrachten wir die folgende Tabelle, die eine Stichprobe von 3.800 (diskret-wertigen) Beobachtungen darstellt:

v 0 0.5 1 1.5 2 2.5 3 3.5 4 4.5 5
f(v) 0.000 0.008 0.010 0.013 0.083 0.108 0.328 0.220 0.202 0.023 0.005
F(v) 0.000 0.008 0.018 0.031 0.114 0.222 0.550 0.770 0.972 0.995 1.000

Da die Beobachtungen diskret-wertig sind, ist die Konstruktion der genauen Verteilung des Medians keine unmittelbare Übersetzung des obigen Ausdrucks für Man kann (und wird typischerweise) mehrere Instanzen des Medians in seiner Stichprobe haben. Wir müssen also über alle diese Möglichkeiten summieren:

Hier ist i die Anzahl der Punkte, die streng unter dem Median liegen, und k die Anzahl, die streng darüber liegen.

Anhand dieser Vorüberlegungen kann die Auswirkung des Stichprobenumfangs auf die Standardfehler von Mittelwert und Median untersucht werden. Der beobachtete Mittelwert ist 3,16, der beobachtete rohe Median ist 3 und der beobachtete interpolierte Median ist 3,174. Die folgende Tabelle enthält einige Vergleichsstatistiken.

Stichprobengröße
Statistik
3 9 15 21
Erwarteter Wert des Medians 3.198 3.191 3.174 3.161
Standardfehler des Medians (obige Formel) 0.482 0.305 0.257 0.239
Standardfehler des Medians (asymptotische Approximation) 0.879 0.508 0.393 0.332
Standardfehler des Mittelwerts 0.421 0.243 0.188 0.159

Der Erwartungswert des Medians sinkt geringfügig mit zunehmendem Stichprobenumfang, während die Standardfehler sowohl des Medians als auch des Mittelwerts erwartungsgemäß proportional zur inversen Quadratwurzel des Stichprobenumfangs sind. Die asymptotische Annäherung ist mit Vorsicht zu genießen, da der Standardfehler überschätzt wird.

Schätzung der Varianz anhand von Stichprobendaten

Der Wert von -der asymptotische Wert von wobei ist der Median der Grundgesamtheit - wurde von mehreren Autoren untersucht. Die Standard-Jackknife-Methode "delete one" führt zu widersprüchlichen Ergebnissen. Eine Alternative - die "delete k"-Methode - bei der mit dem Stichprobenumfang wächst, hat sich als asymptotisch konsistent erwiesen. Diese Methode kann bei großen Datensätzen rechenintensiv sein. Eine Bootstrap-Schätzung ist bekanntermaßen konsistent, konvergiert aber sehr langsam (Größenordnung von ). Es wurden auch andere Methoden vorgeschlagen, deren Verhalten sich jedoch bei großen und kleinen Stichproben unterscheiden kann.

Wirkungsgrad

Die Effizienz des Stichprobenmedians, gemessen als das Verhältnis der Varianz des Mittelwerts zur Varianz des Medians, hängt vom Stichprobenumfang und von der zugrunde liegenden Populationsverteilung ab. Für eine Stichprobe des Umfangs aus der Normalverteilung beträgt die Effizienz für ein großes N

Der Wirkungsgrad tendiert zu wenn gegen unendlich geht.

Mit anderen Worten, die relative Varianz des Medians ist oder 57% größer als die Varianz des Mittelwerts - der relative Standardfehler des Medians ist oder 25% größer als der Standardfehler des Mittelwerts, (siehe auch Abschnitt #Stichprobenverteilung weiter oben.).

Andere Schätzer

Für univariate Verteilungen, die um einen Median symmetrisch sind, ist der Hodges-Lehmann-Schätzer ein robuster und hocheffizienter Schätzer für den Median der Grundgesamtheit.

Wenn die Daten durch ein statistisches Modell dargestellt werden, das eine bestimmte Familie von Wahrscheinlichkeitsverteilungen spezifiziert, dann können Schätzungen des Medians durch Anpassung dieser Familie von Wahrscheinlichkeitsverteilungen an die Daten und Berechnung des theoretischen Medians der angepassten Verteilung erhalten werden. Die Pareto-Interpolation ist eine Anwendung dieser Methode, wenn angenommen wird, dass die Population eine Pareto-Verteilung aufweist.

Multivariater Median

Bisher wurde in diesem Artikel der univariate Median behandelt, wenn die Stichprobe oder die Grundgesamtheit eindimensional ist. Wenn die Dimension zwei oder mehr ist, gibt es mehrere Konzepte, die die Definition des univariaten Medians erweitern; jeder dieser multivariaten Mediane stimmt mit dem univariaten Median überein, wenn die Dimension genau eins ist.

Marginaler Median

Der marginale Median wird für Vektoren definiert, die in Bezug auf einen festen Satz von Koordinaten definiert sind. Ein marginaler Median ist definiert als derjenige Vektor, dessen Komponenten univariate Mediane sind. Der marginale Median ist leicht zu berechnen, und seine Eigenschaften wurden von Puri und Sen untersucht.

Geometrischer Median

Der geometrische Median einer diskreten Menge von Stichprobenpunkten in einem euklidischen Raum ist der Punkt, der die Summe der Abstände zu den Stichprobenpunkten minimiert.

Im Gegensatz zum marginalen Median ist der geometrische Median äquivariant in Bezug auf euklidische Ähnlichkeitstransformationen wie Translationen und Rotationen.

Median in alle Richtungen

Wenn die marginalen Mediane für alle Koordinatensysteme übereinstimmen, kann ihre gemeinsame Lage als "Median in allen Richtungen" bezeichnet werden. Dieses Konzept ist für die Wahltheorie aufgrund des Medianwählertheorems von Bedeutung. Wenn er existiert, fällt der Median in allen Richtungen mit dem geometrischen Median zusammen (zumindest für diskrete Verteilungen).

Mittelpunkt

Eine alternative Verallgemeinerung des Medians in höheren Dimensionen ist der Mittelpunkt.

Andere Konzepte im Zusammenhang mit dem Median

Interpolierter Median

Bei einer diskreten Variablen ist es manchmal sinnvoll, die beobachteten Werte als Mittelpunkte der zugrunde liegenden kontinuierlichen Intervalle zu betrachten. Ein Beispiel hierfür ist eine Likert-Skala, bei der Meinungen oder Präferenzen auf einer Skala mit einer bestimmten Anzahl von Antwortmöglichkeiten ausgedrückt werden. Wenn die Skala aus positiven ganzen Zahlen besteht, könnte eine Beobachtung von 3 als Darstellung des Intervalls von 2,50 bis 3,50 angesehen werden. Es ist möglich, den Median der zugrunde liegenden Variable zu schätzen. Wenn z. B. 22 % der Beobachtungen den Wert 2 oder weniger und 55,0 % den Wert 3 oder weniger haben (33 % haben also den Wert 3), dann ist der Median gleich 3, da der Median der kleinste Wert von ist, für den größer als eine Hälfte ist. Aber der interpolierte Median liegt irgendwo zwischen 2,50 und 3,50. Zuerst addieren wir die Hälfte der Intervallbreite zum Median, um die obere Grenze des Medianintervalls zu erhalten. Dann subtrahieren wir den Teil der Intervallbreite, der dem Anteil der 33% entspricht, der über der 50%-Marke liegt. Mit anderen Worten, wir teilen die Intervallbreite im Verhältnis zur Anzahl der Beobachtungen auf. In diesem Fall sind die 33 % in 28 % unterhalb und 5 % oberhalb des Medians aufgeteilt, so dass wir 5/33 der Intervallbreite von der oberen Grenze von 3,50 abziehen, um einen interpolierten Median von 3,35 zu erhalten. Formaler ausgedrückt: Wenn die Werte bekannt sind, kann der interpolierte Median berechnet werden aus

Alternativ kann man, wenn in einer beobachteten Stichprobe Werte oberhalb der Median-Kategorie, Werte in dieser Kategorie und Werte unterhalb des Medians gibt, dann ist der interpolierte Median gegeben durch

Pseudo-Median

Für univariate Verteilungen, die um einen Median symmetrisch sind, ist der Hodges-Lehmann-Schätzer ein robuster und hocheffizienter Schätzer des Populationsmedians; für nicht-symmetrische Verteilungen ist der Hodges-Lehmann-Schätzer ein robuster und hocheffizienter Schätzer des Pseudo-Medians der Population, der der Median einer symmetrisierten Verteilung ist und der nahe am Populationsmedian liegt. Der Hodges-Lehmann-Schätzer wurde auf multivariate Verteilungen verallgemeinert.

Varianten der Regression

Der Theil-Sen-Schätzer ist eine Methode zur robusten linearen Regression, die auf der Ermittlung der Mediane der Steigungen beruht.

Median-Filter

Der Medianfilter ist ein wichtiges Werkzeug der Bildverarbeitung, mit dem Salz- und Pfefferrauschen aus Graustufenbildern effektiv entfernt werden kann.

Cluster-Analyse

Bei der Clusteranalyse bietet der k-Median-Cluster-Algorithmus eine Möglichkeit zur Definition von Clustern, bei der das Kriterium der Maximierung des Abstands zwischen Cluster-Mittelwerten, das beim k-Means-Clustering verwendet wird, durch die Maximierung des Abstands zwischen Cluster-Medianen ersetzt wird.

Median-Mittelwert-Linie

Dies ist eine Methode der robusten Regression. Die Idee geht auf Wald aus dem Jahr 1940 zurück, der vorschlug, einen Satz bivariater Daten in Abhängigkeit vom Wert des unabhängigen Parameters in zwei Hälften zu unterteilen eine linke Hälfte mit Werten kleiner als der Median und eine rechte Hälfte mit Werten größer als der Median. Er schlug vor, die Mittelwerte der abhängigen und unabhängigen der abhängigen und der unabhängigen Variablen der linken und der rechten Hälfte zu nehmen und die Steigung der Linie zu schätzen, die diese beiden Punkte verbindet. Die Linie könnte dann so angepasst werden, dass sie auf die Mehrheit der Punkte im Datensatz passt.

Nair und Shrivastava schlugen 1942 eine ähnliche Idee vor, sprachen sich aber dafür aus, die Stichprobe in drei gleiche Teile zu unterteilen und dann die Mittelwerte der Teilstichproben zu berechnen. Brown und Mood schlugen 1951 vor, anstelle der Mittelwerte die Mediane von zwei Teilstichproben zu verwenden. Tukey kombinierte diese Ideen und empfahl, die Stichprobe in drei gleich große Teilstichproben zu unterteilen und die Linie auf der Grundlage der Mediane der Teilstichproben zu schätzen.

Median-unverzerrte Schätzer

Jeder mittelwertunabhängige Schätzer minimiert das Risiko (erwarteter Verlust) in Bezug auf die Verlustfunktion mit quadratischem Fehler, wie von Gauß festgestellt. Ein medianunvoreingenommener Schätzer minimiert das Risiko in Bezug auf die Verlustfunktion der absoluten Abweichung, wie sie von Laplace beobachtet wurde. Andere Verlustfunktionen werden in der statistischen Theorie verwendet, insbesondere in der robusten Statistik.

Die Theorie der Median-unbiased estimators wurde 1947 von George W. Brown wiederbelebt:

Eine Schätzung eines eindimensionalen Parameters θ wird als median-unbiased bezeichnet, wenn bei festem θ der Median der Verteilung der Schätzung bei dem Wert θ liegt, d.h. die Schätzung unterschätzt genauso oft wie sie überschätzt. Diese Anforderung scheint für die meisten Zwecke genauso viel zu leisten wie die Anforderung der Unverzerrtheit des Mittelwerts und hat die zusätzliche Eigenschaft, dass sie bei einer Eins-zu-Eins-Transformation invariant ist.

- Seite 584

Es wurden weitere Eigenschaften von median-unverzerrten Schätzern berichtet. Median-unverzerrte Schätzer sind invariant unter Eins-zu-Eins-Transformationen.

Es gibt Methoden zur Konstruktion von median-unbiased Schätzern, die optimal sind (in einem Sinne, der der Eigenschaft der minimalen Varianz für mean-unbiased Schätzer entspricht). Solche Konstruktionen existieren für Wahrscheinlichkeitsverteilungen mit monotonen Likelihood-Funktionen. Ein solches Verfahren ist ein Analogon des Rao-Blackwell-Verfahrens für mittelwert-unverzerrte Schätzer: Das Verfahren gilt für eine kleinere Klasse von Wahrscheinlichkeitsverteilungen als das Rao-Blackwell-Verfahren, aber für eine größere Klasse von Verlustfunktionen.

Geschichte

Wissenschaftliche Forscher im Alten Orient scheinen keine zusammenfassenden Statistiken verwendet zu haben, sondern wählten stattdessen Werte, die mit einer umfassenderen Theorie, die eine Vielzahl von Phänomenen einbezog, maximal übereinstimmten. In der mediterranen (und später in der europäischen) Gelehrtengemeinschaft sind Statistiken wie der Mittelwert im Wesentlichen eine mittelalterliche und frühneuzeitliche Entwicklung. (Die Geschichte des Medians außerhalb Europas und seiner Vorläufer ist noch relativ unerforscht).

Die Idee des Medians tauchte im 6. Jahrhundert im Talmud auf, um abweichende Einschätzungen fair zu analysieren. Das Konzept verbreitete sich jedoch nicht in der breiteren wissenschaftlichen Gemeinschaft.

Der nächste Vorläufer des modernen Medians ist der von Al-Biruni erfundene Mittelwert. Die Weitergabe der Arbeit von Al-Biruni an spätere Gelehrte ist unklar. Al-Biruni wendete seine Technik auf die Untersuchung von Metallen an, aber nach der Veröffentlichung seiner Arbeit übernahmen die meisten Untersucher immer noch den ungünstigsten Wert ihrer Ergebnisse, um nicht als Betrüger dazustehen. Die zunehmende Navigation auf See während des Zeitalters der Entdeckungen bedeutete jedoch, dass die Schiffsnavigatoren zunehmend versuchen mussten, den Breitengrad bei ungünstigem Wetter an feindlichen Küsten zu bestimmen, was zu einem erneuten Interesse an zusammenfassenden Statistiken führte. In Harriots "Instructions for Raleigh's Voyage to Guiana, 1595" wird den Seefahrern der mittlere Bereich empfohlen, unabhängig davon, ob er wiederentdeckt oder unabhängig erfunden wurde.

Die Idee des Mittelwerts taucht möglicherweise erstmals in Edward Wrights Buch Certaine Errors in Navigation von 1599 in einem Abschnitt über die Kompassnavigation auf. Wright verwarf nur ungern Messwerte und war möglicherweise der Meinung, dass der Median - der einen größeren Teil der Datenmenge umfasst als der mittlere Bereich - mit größerer Wahrscheinlichkeit korrekt ist. Wright gab jedoch keine Beispiele für die Anwendung seiner Technik, so dass es schwer zu überprüfen ist, ob er den modernen Begriff des Medians beschrieben hat. Der Median (im Zusammenhang mit der Wahrscheinlichkeitsrechnung) taucht zwar in der Korrespondenz von Christiaan Huygens auf, aber als Beispiel für eine Statistik, die für die versicherungsmathematische Praxis ungeeignet ist.

Die früheste Empfehlung für den Median stammt aus dem Jahr 1757, als Roger Joseph Boscovich eine Regressionsmethode entwickelte, die auf der L1-Norm und damit implizit auf dem Median basiert. Im Jahr 1774 machte Laplace diesen Wunsch explizit: Er schlug vor, den Median als Standardschätzer für den Wert einer posterioren PDF zu verwenden. Das spezifische Kriterium bestand darin, die erwartete Größe des Fehlers zu minimieren; wobei ist die Schätzung und der wahre Wert ist. Zu diesem Zweck bestimmte Laplace in den frühen 1800er Jahren die Verteilungen sowohl des Stichprobenmittelwerts als auch des Stichprobenmedians. Ein Jahrzehnt später entwickelten Gauß und Legendre jedoch die Methode der kleinsten Quadrate, die minimiert, um den Mittelwert zu erhalten. Im Zusammenhang mit der Regression bietet die Innovation von Gauß und Legendre eine wesentlich einfachere Berechnung. Folglich wurde der Vorschlag von Laplaces bis zum Aufkommen von Computern 150 Jahre später allgemein abgelehnt (und ist immer noch ein relativ seltener Algorithmus).

Antoine Augustin Cournot war 1843 der erste, der den Begriff Median (valeur médiane) für den Wert verwendete, der eine Wahrscheinlichkeitsverteilung in zwei gleiche Hälften teilt. Gustav Theodor Fechner verwendete den Median (Centralwerth) für soziologische und psychologische Phänomene. Zuvor war er nur in der Astronomie und verwandten Bereichen verwendet worden. Gustav Fechner machte den Median in der formalen Analyse von Daten populär, obwohl er zuvor von Laplace verwendet worden war, und der Median erschien in einem Lehrbuch von F. Y. Edgeworth. Francis Galton verwendete 1881 den englischen Begriff Median, nachdem er zuvor 1869 den Begriff "middle-most value" und 1880 den Begriff "medium" verwendet hatte.

Die Statistiker setzten sich im 19. Jahrhundert intensiv für die Verwendung von Medianen ein, da sie intuitiv verständlich und leicht manuell zu berechnen sind. Der Begriff des Medians eignet sich jedoch nicht so gut für die Theorie der höheren Momente wie das arithmetische Mittel und ist viel schwieriger mit dem Computer zu berechnen. Infolgedessen wurde der Median im Laufe des 20. Jahrhunderts immer mehr vom arithmetischen Mittel als Begriff des allgemeinen Durchschnitts verdrängt.

Median einer Stichprobe

Ober- und Untermedian

Oft möchte man sicherstellen, dass der Median ein Element der Stichprobe ist. In diesem Fall wird alternativ zu obiger Definition bei einer geraden Anzahl von Elementen entweder der Untermedian oder der Obermedian als Median gewählt. Im Falle einer ungeraden Anzahl der Beobachtungen gilt natürlich wie oben .

Mithilfe von Gauß-Klammern lassen sich die Indizes auch relativ kompakt durch selbst ausdrücken:

Diese Medianbestimmung spielt beispielsweise bei Datenbanksystemen eine große Rolle, wie z. B. bei SELECT-Abfragen mittels des Medians der Mediane.

Eigenschaften

Der Median , und im Fall einer geraden Anzahl von Messwerten alle Werte mit , minimieren die Summe der absoluten Abweichungen, das heißt, für ein beliebiges gilt

Der Median ist Grundlage der Methode der kleinsten absoluten Abweichungen und Verfahren der robusten Regression. Das arithmetische Mittel dagegen minimiert die Summe der Abweichungsquadrate, ist Grundlage der Methode der kleinsten Quadrate und der Regressionsanalyse und ist mathematisch leichter zu handhaben, jedoch nicht robust gegen Ausreißer.

Der Median kann, wie oben beschrieben, algorithmisch bestimmt werden, indem die Messwerte sortiert werden. Das ist im Allgemeinen mit Aufwand verbunden, nur auf speziellen Klassen von Eingabedaten ist möglich (siehe Sortieralgorithmus). Es gibt aber auch Algorithmen zur Quantilsbestimmung mit linearem Worst-Case-Aufwand sowie Algorithmen zur Abschätzung, beispielsweise die Cornish-Fisher-Methode.

Median von gruppierten Daten

Bevölkerungspyramide Tansania 2016, der Median liegt bei geschätzt 18 Jahren

Vor allem in den Sozialwissenschaften wird bei Statistiken häufig der Median geschätzt, da nicht alle Daten explizit und exakt gegeben sind, sondern nur in Intervallen gruppiert vorliegen. So wird beispielsweise bei Umfragen selten nach dem exakten Gehalt gefragt, sondern nur nach der Einkommensklasse, also dem Bereich, in dem das Gehalt liegt. Wenn nur die Häufigkeiten jeder Klasse bekannt sind, dann lässt sich der Median einer solchen Stichprobe im Allgemeinen nur näherungsweise bestimmen. Es seien die Anzahl aller Daten, die jeweilige Anzahl der Daten der -ten Gruppe und bzw. die entsprechenden oberen bzw. unteren Intervallgrenzen. Zunächst wird nun die mediane Klasse (oder mediane Gruppe) bestimmt, d. h., diejenige Gruppe, in die der Median (nach obiger, konventioneller Definition) hineinfällt, z. B. die -te Gruppe. Die Zahl ist dadurch bestimmt, dass , aber gilt. Wenn keine weiteren Angaben über die Verteilung der Daten gegeben sind, wird z. B. Gleichverteilung postuliert, sodass man sich der linearen Interpolation als Hilfsmittel bedienen kann, um eine Schätzung des Medians der gruppierten Daten zu erhalten:

Wenn keine weiteren Angaben über die Verteilung der Daten gegeben sind, kann auch jede andere Verteilung außer der Gleichverteilung vorliegen und somit kann auch jeder andere Wert im -ten Intervall der Median sein.

Im Gegensatz zur konventionellen Definition des Medians muss dieser nicht zwangsläufig ein Element aus der tatsächlichen Datenmenge sein, die in aller Regel auch gar nicht bekannt ist.

Beispiel

Einkommen:

Klasse () Bereich ( bis ) Gruppengröße ()
1 mind. 0, weniger als 1500 160
2 mind. 1500, weniger als 2500 320
3 mind. 2500, weniger als 3500 212

Man berechne

Also liegt der Median in der 2. Klasse (d. h. ), da die erste Klasse nur 160 Elemente umfasst. Somit ergibt sich als Schätzung für den Median

Da die konkrete Verteilung der Daten in den Intervallen unbekannt ist, kann auch jeder andere Wert im 2. Intervall der Median sein. Der beispielhaft errechnete Wert 2081,25 kann daher bis zu 581,25 zu groß und bis zu 418,75 zu klein sein, der Fehler der Schätzung also bis zu 28 % betragen.

Eine Veranschaulichung dieses Verfahrens zur Festlegung des Medians bei gruppierten Daten ist die grafische Ermittlung mit Hilfe der Summenkurve. Hier wird der Abszissenwert gesucht, der zum Ordinatenwert gehört. Bei kleinerem und geradem kann stattdessen auch der Ordinatenwert gewählt werden.

Median und arithmetisches Mittel: sehr einfaches Beispiel

In einer Gruppe von zehn Personen haben alle Personen Monatseinkommen in unterschiedlicher Höhe. Eine Person erhält 1.000.000 €, die übrigen neun bekommen 1.000 €, 2.000 €, 3.000 € usw. bis 9.000 €.

Das arithmetische Mittel, der „Durchschnitt“ – das Monatseinkommen jeder der zehn Personen bei gleichmäßiger Aufteilung der Summe aller Einkommen auf sie –, beträgt in diesem Falle 104.500 €. Allerdings verdient nur eine der zehn Personen mehr als dies, die neun anderen deutlich weniger.

Der Median dagegen ist 5.500 €. Fünf Personen verdienen mehr als das, fünf Personen weniger. Der Median markiert hier die Grenzlinie zwischen der besser verdienenden und der schlechter verdienenden Hälfte.