Maximum-Likelihood-Methode

Aus besserwiki.de

Die Maximum-Likelihood-Methode, kurz ML-Methode, auch Maximum-Likelihood-Schätzung (maximum likelihood englisch für größte Plausibilität, daher auch Methode der größten Plausibilität), Methode der maximalen Mutmaßlichkeit, Größte-Dichte-Methode oder Methode der größten Dichte bezeichnet in der Statistik ein parametrisches Schätzverfahren. Dabei wird – vereinfacht ausgedrückt – derjenige Parameter als Schätzung ausgewählt, gemäß dessen Verteilung die Realisierung der beobachteten Daten am plausibelsten erscheint.

Im Falle einer von einem Parameter abhängigen Wahrscheinlichkeitsfunktion

wird zu einem beobachteten Ausgang also die folgende Likelihood-Funktion für verschiedene Parameter betrachtet:

Dabei bezeichnet den Ergebnisraum und den Parameterraum (Raum aller möglichen Parameterwerte).

Für einen bestimmten Wert des Parameters entspricht die Likelihood-Funktion (Wahrscheinlichkeitsfunktion) der Wahrscheinlichkeit, das Ergebnis zu beobachten. Als Maximum-Likelihood-Schätzung wird entsprechend dasjenige bezeichnet, für das die Likelihood-Funktion maximal wird. Im Falle stetiger Verteilungen gilt eine analoge Definition, nur wird die Wahrscheinlichkeitsfunktion in dieser Situation durch die zugehörige Dichtefunktion ersetzt. Allgemein lassen sich Maximum-Likelihood-Methoden für beliebige statistische Modelle definieren, solange die entsprechende Verteilungsklasse eine dominierte Verteilungsklasse ist.

Aus der Perspektive der Bayes'schen Inferenz ist MLE im Allgemeinen äquivalent zur Maximum-a-posteriori-Schätzung (MAP) unter einer einheitlichen Prioritätsverteilung für die Parameter. In der frequentistischen Inferenz ist MLE ein Spezialfall eines Extremwertschätzers, wobei die Zielfunktion die Likelihood ist.

Grundsätze

Wir modellieren einen Satz von Beobachtungen als Zufallsstichprobe aus einer unbekannten gemeinsamen Wahrscheinlichkeitsverteilung, die durch einen Satz von Parametern ausgedrückt wird. Das Ziel der Maximum-Likelihood-Schätzung besteht darin, die Parameter zu bestimmen, für die die beobachteten Daten die höchste gemeinsame Wahrscheinlichkeit aufweisen. Wir schreiben die Parameter, die die gemeinsame Verteilung bestimmen, als Vektor so dass diese Verteilung in eine parametrische Familie fällt wobei der Parameterraum genannt wird, eine endlich-dimensionale Teilmenge des euklidischen Raums. Die Auswertung der gemeinsamen Dichte an der beobachteten Datenprobe ergibt eine reellwertige Funktion,

die als Likelihood-Funktion bezeichnet wird. Für unabhängige und identisch verteilte Zufallsvariablen, das Produkt der univariaten Dichtefunktionen sein:

Das Ziel der Maximum-Likelihood-Schätzung besteht darin, die Werte der Modellparameter zu finden, die die Likelihood-Funktion über den Parameterraum maximieren, d. h.

Intuitiv werden so die Parameterwerte ausgewählt, die die beobachteten Daten am wahrscheinlichsten machen. Der spezifische Wert der die Likelihood-Funktion maximiert maximiert, wird als Maximum-Likelihood-Schätzung bezeichnet. Wenn die so definierte Funktion messbar ist, wird sie als Maximum-Likelihood-Schätzer bezeichnet. Im Allgemeinen handelt es sich um eine Funktion, die über den Stichprobenraum definiert ist, d. h. sie nimmt eine gegebene Stichprobe als ihr Argument. Eine hinreichende, aber nicht notwendige Bedingung für seine Existenz ist, dass die Likelihood-Funktion in einem kompakten Parameterraum kontinuierlich ist der kompakt ist. Für einen offenen kann die Likelihood-Funktion ansteigen, ohne jemals einen Supremumswert zu erreichen.

In der Praxis ist es oft zweckmäßig, mit dem natürlichen Logarithmus der Likelihood-Funktion, der so genannten Log-Likelihood, zu arbeiten:

Da der Logarithmus eine monotone Funktion ist, tritt das Maximum von bei demselben Wert von wie das Maximum von Wenn differenzierbar ist in sind die notwendigen Bedingungen für das Auftreten eines Maximums (oder eines Minimums)

als Likelihood-Gleichungen bekannt. Für einige Modelle können diese Gleichungen explizit gelöst werden für gelöst werden, aber im Allgemeinen ist keine geschlossene Lösung für das Maximierungsproblem bekannt oder verfügbar, und eine MLE kann nur durch numerische Optimierung gefunden werden. Ein weiteres Problem ist, dass es bei endlichen Stichproben mehrere Wurzeln für die Wahrscheinlichkeitsgleichungen geben kann. Ob die identifizierte Wurzel der Likelihood-Gleichungen tatsächlich ein (lokales) Maximum ist, hängt davon ab, ob die Matrix der partiellen und quasi-partiellen Ableitungen zweiter Ordnung, die so genannte Hessian-Matrix

negativ semidefinit ist bei ist, da dies auf lokale Konkavität hindeutet. Praktischerweise sind die meisten gängigen Wahrscheinlichkeitsverteilungen - insbesondere die Exponentialverteilung - logarithmisch konkav.

Eingeschränkter Parameterraum

Während der Bereich der Likelihood-Funktion - der Parameterraum - im Allgemeinen eine endlich-dimensionale Teilmenge des euklidischen Raums ist, müssen manchmal zusätzliche Einschränkungen in den Schätzprozess einbezogen werden. Der Parameterraum kann ausgedrückt werden als

wobei ist eine vektorwertige Funktion, die Folgendes abbildet auf abbildet. Schätzung des wahren Parameters der zu bedeutet dann in der Praxis, das Maximum der Wahrscheinlichkeitsfunktion unter der Bedingung zu finden

Theoretisch ist der natürlichste Ansatz für dieses eingeschränkte Optimierungsproblem die Methode der Substitution, d. h. das "Ausfüllen" der Einschränkungen zu einer Menge in einer Weise, dass eine Eins-zu-Eins-Funktion von zu sich selbst ist, und reparametrisieren Sie die Wahrscheinlichkeitsfunktion durch Setzen von Aufgrund der Äquivarianz des Maximum-Likelihood-Schätzers gelten die Eigenschaften der MLE auch für die eingeschränkten Schätzungen. Zum Beispiel muss bei einer multivariaten Normalverteilung die Kovarianzmatrix positiv-definit sein; diese Einschränkung lässt sich durch Ersetzen von wobei eine reelle obere Dreiecksmatrix ist und ihre Transponierte ist.

In der Praxis werden Beschränkungen in der Regel mit Hilfe der Lagrange-Methode auferlegt, die bei den oben definierten Beschränkungen zu den beschränkten Wahrscheinlichkeitsgleichungen führt

und

wobei ist ein Spaltenvektor der Lagrange-Multiplikatoren und die k × r Jacobimatrix der partiellen Ableitungen ist. Wenn die Nebenbedingungen im Maximum nicht bindend sind, sollten die Lagrange-Multiplikatoren natürlich Null sein. Dies wiederum ermöglicht einen statistischen Test der "Gültigkeit" der Nebenbedingung, den so genannten Lagrange-Multiplikator-Test.

Eigenschaften

Ein Maximum-Likelihood-Schätzer ist ein Extremwertschätzer, der durch Maximierung der Zielfunktion als Funktion von θ erhalten wird . Wenn die Daten unabhängig und identisch verteilt sind, dann gilt

dies ist das Analogon der erwarteten Log-Likelihood , wobei dieser Erwartungswert in Bezug auf die wahre Dichte genommen wird.

Maximum-Likelihood-Schätzer haben keine optimalen Eigenschaften für endliche Stichproben in dem Sinne, dass (bei Auswertung endlicher Stichproben) andere Schätzer eine größere Konzentration um den wahren Parameterwert aufweisen können. Die Maximum-Likelihood-Schätzung weist jedoch wie andere Schätzverfahren eine Reihe attraktiver Begrenzungseigenschaften auf: Wenn der Stichprobenumfang ins Unendliche steigt, haben Sequenzen von Maximum-Likelihood-Schätzern diese Eigenschaften:

  • Konsistenz: Die Folge von MLEs konvergiert in der Wahrscheinlichkeit gegen den zu schätzenden Wert.
  • Funktionale Äquivarianz: Wenn ist der Maximum-Likelihood-Schätzer für ist, und wenn eine beliebige Transformation von ist, dann ist der Maximum-Likelihood-Schätzer für ist .
  • Effizienz, d. h. er erreicht die untere Schranke von Cramér-Rao, wenn der Stichprobenumfang gegen unendlich tendiert. Dies bedeutet, dass kein konsistenter Schätzer einen geringeren asymptotischen mittleren quadratischen Fehler aufweist als der MLE (oder andere Schätzer, die diese Schranke erreichen), was auch bedeutet, dass der MLE asymptotische Normalität besitzt.
  • Effizienz zweiter Ordnung nach Korrektur für Verzerrungen.

Konsistenz

Unter den nachstehend beschriebenen Bedingungen ist der Maximum-Likelihood-Schätzer konsistent. Die Konsistenz bedeutet, dass, wenn die Daten generiert wurden durch generiert wurden und wir eine ausreichend große Anzahl von Beobachtungen n haben, dann ist es möglich, den Wert von θ0 mit beliebiger Genauigkeit zu finden. Mathematisch ausgedrückt bedeutet dies, dass der Schätzer mit n gegen unendlich mit an Sicherheit grenzender Wahrscheinlichkeit zu seinem wahren Wert konvergiert:

Unter etwas strengeren Bedingungen konvergiert der Schätzer fast sicher (oder stark):

In praktischen Anwendungen werden die Daten nie von . Vielmehr, ein Modell, oft in idealisierter Form, des durch die Daten erzeugten Prozesses. Es ist ein gängiger Aphorismus in der Statistik, dass alle Modelle falsch sind. Daher kommt echte Konsistenz in praktischen Anwendungen nicht vor. Nichtsdestotrotz wird Konsistenz oft als eine wünschenswerte Eigenschaft für einen Schätzer angesehen.

Um Konsistenz zu erreichen, sind die folgenden Bedingungen ausreichend.

  1. Identifizierung des Modells:

    Mit anderen Worten: Verschiedene Parameterwerte θ entsprechen verschiedenen Verteilungen innerhalb des Modells. Wäre diese Bedingung nicht erfüllt, gäbe es einen Wert θ1, so dass θ0 und θ1 eine identische Verteilung der beobachtbaren Daten erzeugen. Dann könnten wir selbst bei einer unendlichen Datenmenge nicht zwischen diesen beiden Parametern unterscheiden - diese Parameter wären beobachtungsmäßig gleichwertig.

    Die Identifikationsbedingung ist absolut notwendig, damit der ML-Schätzer konsistent ist. Wenn diese Bedingung erfüllt ist, hat die limitierende Likelihood-Funktion (θ|-) ein eindeutiges globales Maximum bei θ0.
  2. Kompaktheit: Der Parameterraum Θ des Modells ist kompakt.
    Ee noncompactness.svg

    Die Identifikationsbedingung besagt, dass die log-Wahrscheinlichkeit ein eindeutiges globales Maximum hat. Kompaktheit bedeutet, dass sich die Wahrscheinlichkeit dem Maximalwert nicht an einem anderen Punkt beliebig stark annähern kann (wie z. B. in der Abbildung rechts gezeigt).

    Kompaktheit ist nur eine hinreichende Bedingung und keine notwendige Bedingung. Die Kompaktheit kann durch andere Bedingungen ersetzt werden, wie z. B.:

    • sowohl Konkavität der Log-Likelihood-Funktion als auch Kompaktheit einiger (nicht leerer) oberer Mengen der Log-Likelihood-Funktion oder
    • Vorhandensein einer kompakten Nachbarschaft N von θ0, so dass die Log-Wahrscheinlichkeitsfunktion außerhalb von N um mindestens ein ε > 0 kleiner als das Maximum ist.
  3. Stetigkeit: Die Funktion ln f(x | θ) ist in θ für fast alle Werte von x stetig:
    Die Kontinuität kann hier durch eine etwas schwächere Bedingung der oberen Halbkontinuität ersetzt werden.
  4. Dominanz: Es existiert D(x), das in Bezug auf die Verteilung f(x | θ0) integrabel ist, so dass
    Nach dem Gesetz der großen Zahlen begründen die Dominanzbedingung und die Stetigkeit die gleichmäßige Wahrscheinlichkeitskonvergenz der log-likelihood:

Die Dominanzbedingung kann im Fall von i.i.d.-Beobachtungen verwendet werden. Für den Fall, dass die Beobachtungen nicht i.i.d. sind, kann die gleichmäßige Konvergenz der Wahrscheinlichkeit überprüft werden, indem gezeigt wird, dass die Folge stochastisch äquikontinuierlich ist. Wenn man zeigen will, dass der ML-Schätzer mit ziemlicher Sicherheit gegen θ0 konvergiert, muss eine strengere Bedingung der gleichmäßigen Konvergenz mit ziemlicher Sicherheit gestellt werden:

Wenn zusätzlich (wie oben angenommen) die Daten durch generiert wurden, dann kann unter bestimmten Bedingungen auch gezeigt werden, dass der Maximum-Likelihood-Schätzer in der Verteilung gegen eine Normalverteilung konvergiert. Genauer gesagt,

wobei I die Fisher-Informationsmatrix ist. Im Likelihood-Quotienten-Test wird geprüft, ob sich zwei hierarchisch geschachtelte Modelle (englisch nested models) signifikant voneinander unterscheiden. Ist ein Parametervektor, sind zwei Parameterräume ( reduziertes Modell, volles Modell) sowie die Likelihood-Funktion, dann gilt unter der Nullhypothese ( vs. ) Eine Ablehnung der Nullhypothese bedeutet, dass das „volle Modell“ (das Modell unter der Alternativhypothese) eine signifikant bessere Erklärung liefert als das „reduzierte Modell“ (das Modell unter der Nullhypothese bzw. Nullmodell) .

Funktionale Äquivarianz

Der Maximum-Likelihood-Schätzer wählt den Parameterwert aus, der den beobachteten Daten die größtmögliche Wahrscheinlichkeit (oder Wahrscheinlichkeitsdichte, im kontinuierlichen Fall) verleiht. Besteht der Parameter aus mehreren Komponenten, so definieren wir deren separate Maximum-Likelihood-Schätzer als die entsprechende Komponente des MLE des vollständigen Parameters. Dementsprechend ist, wenn das MLE für ist, und wenn eine beliebige Transformation von ist, dann ist das MLE für per Definition

Es maximiert die sogenannte Profilwahrscheinlichkeit:

Das MLE ist auch äquivariant in Bezug auf bestimmte Transformationen der Daten. Wenn wobei eins zu eins ist und nicht von den zu schätzenden Parametern abhängt, dann erfüllen die Dichtefunktionen

und daher unterscheiden sich die Likelihood-Funktionen für und nur um einen Faktor unterscheiden, der nicht von den Modellparametern abhängt.

Zum Beispiel sind die MLE-Parameter der Log-Normalverteilung die gleichen wie die der Normalverteilung, die an den Logarithmus der Daten angepasst wurde.

Wirkungsgrad

Wenn die Daten, wie oben angenommen, mit erzeugt wurden, kann unter bestimmten Bedingungen auch gezeigt werden, dass der Maximum-Likelihood-Schätzer in der Verteilung gegen eine Normalverteilung konvergiert. Er ist √n -konsistent und asymptotisch effizient, was bedeutet, dass er die Cramér-Rao-Schranke erreicht. Im Einzelnen,

wobei ist die Fisher-Informationsmatrix:

Dies bedeutet insbesondere, dass die Verzerrung des Maximum-Likelihood-Schätzers bis zur Ordnung 1/√n gleich Null ist.

Effizienz zweiter Ordnung nach Korrektur der Verzerrung

Betrachtet man jedoch die Terme höherer Ordnung in der Erweiterung der Verteilung dieses Schätzers, so stellt sich heraus, dass θmle eine Verzerrung der Ordnung 1⁄n aufweist. Diese Verzerrung ist gleich (komponentenweise)

wobei (mit hochgestellten Ziffern) bezeichnet die (j,k)-te Komponente der inversen Fisher-Informationsmatrix und

Anhand dieser Formeln lässt sich die Verzerrung zweiter Ordnung des Maximum-Likelihood-Schätzers schätzen und durch Subtraktion dieser Verzerrung korrigieren:

Dieser Schätzer ist bis zu den Termen der Ordnung 1/ n unverzerrt und wird als verzerrungskorrigierter Maximum-Likelihood-Schätzer bezeichnet.

Dieser verzerrungskorrigierte Schätzer ist effizient zweiter Ordnung (zumindest innerhalb der Familie der gekrümmten Exponentiale), was bedeutet, dass er unter allen verzerrungskorrigierten Schätzern zweiter Ordnung einen minimalen mittleren quadratischen Fehler aufweist, und zwar bis zu den Termen der Ordnung 1/ n2 . Es ist möglich, diesen Prozess fortzusetzen, d. h. den Term der Verzerrungskorrektur dritter Ordnung abzuleiten, und so weiter. Der Maximum-Likelihood-Schätzer ist jedoch nicht effizient dritter Ordnung.

Beziehung zur Bayes'schen Inferenz

Ein Maximum-Likelihood-Schätzer stimmt mit dem wahrscheinlichsten Bayes'schen Schätzer überein, wenn eine gleichmäßige Prioritätsverteilung für die Parameter gegeben ist. Die maximale a-posteriori-Schätzung ist der Parameter θ, der die Wahrscheinlichkeit von θ bei gegebenen Daten maximiert, wie im Bayes-Theorem beschrieben:

wobei ist die Prioritätsverteilung für den Parameter θ und wobei die über alle Parameter gemittelte Wahrscheinlichkeit der Daten ist. Da der Nenner unabhängig von θ ist, erhält man den Bayes'schen Schätzer durch Maximierung von in Bezug auf θ. Wenn wir weiter annehmen, dass der Prior eine Gleichverteilung ist, erhält man den Bayes'schen Schätzer durch Maximierung der Likelihood-Funktion . Der Bayes'sche Schätzer ist somit identisch mit dem Maximum-Likelihood-Schätzer für eine gleichmäßige Prioritätsverteilung .

Anwendung der Maximum-Likelihood-Schätzung in der Bayes-Entscheidungstheorie

In vielen praktischen Anwendungen des maschinellen Lernens wird die Maximum-Likelihood-Schätzung als Modell für die Parameterschätzung verwendet.

Bei der Bayes'schen Entscheidungstheorie geht es darum, einen Klassifikator zu entwerfen, der das erwartete Gesamtrisiko minimiert. Insbesondere dann, wenn die mit verschiedenen Entscheidungen verbundenen Kosten (die Verlustfunktion) gleich sind, minimiert der Klassifikator den Fehler über die gesamte Verteilung.

Die Bayes-Entscheidungsregel lautet also

"Entscheide wenn sonst entscheiden "

wobei sind Vorhersagen für verschiedene Klassen. Unter dem Gesichtspunkt der Fehlerminimierung lässt sich dies auch so ausdrücken

wobei

wenn wir entscheiden und wenn wir entscheiden

Durch Anwendung des Satzes von Bayes

,

und wenn wir weiterhin die Null-oder-Eins-Verlustfunktion annehmen, die für alle Fehler den gleichen Verlust bedeutet, kann die Bayes-Entscheidungsregel wie folgt umformuliert werden

wobei ist die Vorhersage und ist die Vorhersagewahrscheinlichkeit.

Beziehung zur Minimierung der Kullback-Leibler-Divergenz und der Kreuzentropie

Die Suche nach die die Wahrscheinlichkeit maximiert, ist asymptotisch äquivalent zum Finden der die eine Wahrscheinlichkeitsverteilung definiert () definiert, die in Bezug auf die Kullback-Leibler-Divergenz einen minimalen Abstand zu der realen Wahrscheinlichkeitsverteilung aufweist, aus der unsere Daten generiert wurden (d. h. generiert durch ). In einer idealen Welt sind P und Q identisch (und die einzige Unbekannte ist die P definiert), aber selbst wenn dies nicht der Fall ist und das von uns verwendete Modell falsch spezifiziert ist, liefert uns die MLE die Verteilung, die der realen Verteilung am nächsten kommt (innerhalb der Beschränkung eines Modells Q, das abhängig ist von ) der realen Verteilung .

Da die Kreuzentropie nur die Shannon-Entropie plus KL-Divergenz ist, und da die Entropie von konstant ist, dann ist die MLE auch eine asymptotische Minimierung der Kreuzentropie.

Beispiele

Diskrete Gleichverteilung

Betrachten wir einen Fall, in dem n Lose mit Nummern von 1 bis n in eine Schachtel gelegt werden und eines zufällig ausgewählt wird (siehe Gleichverteilung); der Stichprobenumfang ist also 1. Wenn n unbekannt ist, dann ist der Maximum-Likelihood-Schätzer von n die Zahl m auf dem gezogenen Los. (Die Wahrscheinlichkeit ist 0 für n < m, 1⁄n für n ≥ m, und sie ist am größten, wenn n = m. Man beachte, dass die Maximum-Likelihood-Schätzung von n am unteren Extrem der möglichen Werte {m, m + 1, ...} auftritt und nicht irgendwo in der "Mitte" des Bereichs der möglichen Werte, was zu einer geringeren Verzerrung führen würde). Der erwartete Wert der Zahl m auf dem gezogenen Los und damit der erwartete Wert von ist (n + 1)/2. Folglich unterschätzt der Maximum-Likelihood-Schätzer für n bei einem Stichprobenumfang von 1 den Wert n systematisch um (n - 1)/2.

Diskrete Verteilung, endlicher Parameterraum

Angenommen, man möchte bestimmen, wie stark eine unfaire Münze verzerrt ist. Nennen wir die Wahrscheinlichkeit, dass die Münze "Kopf" wirft, p. Das Ziel ist dann, p zu bestimmen.

Angenommen, die Münze wird 80-mal geworfen, d. h. die Stichprobe könnte etwa so aussehen: x1 = H, x2 = T, ..., x80 = T, und die Anzahl der Köpfe "H" wird beobachtet.

Die Wahrscheinlichkeit, dass Zahl gewürfelt wird, ist 1 - p (hier ist p also θ). Nehmen wir an, das Ergebnis ist 49 Kopf und 31 Zahl, und nehmen wir an, die Münze wurde aus einer Schachtel genommen, die drei Münzen enthält: eine, die mit der Wahrscheinlichkeit p = 13 Kopf ergibt, eine, die mit der Wahrscheinlichkeit p = 12 Kopf ergibt, und eine andere, die mit der Wahrscheinlichkeit p = 23 Kopf ergibt. Die Münzen haben ihre Beschriftung verloren, so dass nicht bekannt ist, welche es war. Mit Hilfe der Maximum-Likelihood-Schätzung kann die Münze mit der größten Wahrscheinlichkeit gefunden werden, wenn die beobachteten Daten vorliegen. Unter Verwendung der Wahrscheinlichkeitsmassenfunktion der Binomialverteilung mit einem Stichprobenumfang von 80 und einer Erfolgszahl von 49, aber für verschiedene Werte von p (der "Erfolgswahrscheinlichkeit"), nimmt die Likelihood-Funktion (wie unten definiert) einen von drei Werten an:

Die Likelihood ist maximiert, wenn p = 23 ist, dies ist also die Maximum-Likelihood-Schätzung für p.

Eine Urne enthält Kugeln, die entweder rot oder schwarz sind. Die genaue Anzahl der roten Kugeln ist nicht bekannt. Nacheinander werden Kugeln gezogen und jeweils wieder zurück in die Urne gelegt. Beobachtet werden (erste Kugel ist rot), (zweite Kugel ist rot), (dritte Kugel ist schwarz) und (vierte Kugel ist rot).

Es ergeben sich folgende Funktionswerte:

0 0,002 0,012 0,033 0,063 0,092 0,105 0,084 0

Diskrete Verteilung, kontinuierlicher Parameterraum

Nehmen wir nun an, dass es nur eine Münze gab, deren p aber einen beliebigen Wert 0 ≤ p ≤ 1 gehabt haben könnte. Die zu maximierende Likelihood-Funktion ist

und die Maximierung erfolgt über alle möglichen Werte 0 ≤ p ≤ 1 .

Likelihood-Funktion für den Anteilswert eines Binomialprozesses (n = 10)

Eine Möglichkeit, diese Funktion zu maximieren, besteht darin, nach p zu differenzieren und auf Null zu setzen:

Dies ist ein Produkt aus drei Termen. Der erste Term ist 0, wenn p = 0. Der zweite ist 0, wenn p = 1. Der dritte ist Null, wenn p = 4980. Die Lösung, die die Likelihood maximiert, ist eindeutig p = 4980 (da p = 0 und p = 1 eine Likelihood von 0 ergeben). Der Maximum-Likelihood-Schätzer für p ist also 4980.

Dieses Ergebnis lässt sich leicht verallgemeinern, indem man einen Buchstaben wie s anstelle von 49 einsetzt, um die beobachtete Anzahl der "Erfolge" unserer Bernoulli-Versuche darzustellen, und einen Buchstaben wie n anstelle von 80, um die Anzahl der Bernoulli-Versuche darzustellen. Genau dieselbe Berechnung ergibt s⁄n, den Maximum-Likelihood-Schätzer für eine beliebige Folge von n Bernoulli-Versuchen, die zu s "Erfolgen" führen.

Kontinuierliche Verteilung, kontinuierlicher Parameterraum

Für die Normalverteilung mit der Wahrscheinlichkeitsdichtefunktion

hat, lautet die entsprechende Wahrscheinlichkeitsdichtefunktion für eine Stichprobe von n unabhängigen, identisch verteilten normalverteilten Zufallsvariablen (die Likelihood)

Diese Familie von Verteilungen hat zwei Parameter: θ = (μ, σ); wir maximieren also die Wahrscheinlichkeit (Likelihood), über beide Parameter gleichzeitig oder, falls möglich, einzeln.

Da die Logarithmusfunktion selbst eine kontinuierliche, streng steigende Funktion über den Bereich der Wahrscheinlichkeit ist, maximieren die Werte, die die Wahrscheinlichkeit maximieren, auch ihren Logarithmus (die Log-Likelihood selbst ist nicht unbedingt streng steigend). Die log-likelihood kann wie folgt geschrieben werden:

(Hinweis: Die log-likelihood ist eng mit der Informationsentropie und der Fisher-Information verbunden).

Wir berechnen nun die Ableitungen dieser log-likelihood wie folgt.

wobei ist der Stichprobenmittelwert. Dies wird gelöst durch

Dies ist in der Tat das Maximum der Funktion, da es der einzige Wendepunkt in μ ist und die zweite Ableitung streng kleiner als Null ist. Sein Erwartungswert ist gleich dem Parameter μ der gegebenen Verteilung,

was bedeutet, dass der Maximum-Likelihood-Schätzer unverzerrt ist.

In ähnlicher Weise differenzieren wir die Log-Likelihood nach σ und setzen sie mit Null gleich:

Dies wird gelöst durch

Durch Einsetzen der Schätzung erhält man

Um den Erwartungswert zu berechnen, ist es zweckmäßig, den Ausdruck in Form von Zufallsvariablen mit dem Mittelwert Null (statistischer Fehler) umzuschreiben . Wenn man den Schätzwert in diesen Variablen ausdrückt, erhält man

Durch Vereinfachung des obigen Ausdrucks unter Ausnutzung der Tatsache, dass und ermöglicht es uns, Folgendes zu erhalten

Dies bedeutet, dass der Schätzer verzerrt ist für . Es kann auch gezeigt werden, dass verzerrt ist für ist, aber dass beide und konsistent sind.

Formal sagen wir, dass der Maximum-Likelihood-Schätzer für ist

In diesem Fall könnten die MLEs einzeln ermittelt werden. In der Regel ist dies nicht der Fall, und die MLEs müssen gleichzeitig ermittelt werden.

Das Maximum der normalen Log-Likelihood hat eine besonders einfache Form:

Es kann gezeigt werden, dass diese maximale Log-Wahrscheinlichkeit für allgemeinere kleinste Quadrate, sogar für nichtlineare kleinste Quadrate, die gleiche ist. Dies wird häufig bei der Bestimmung von näherungsweisen Konfidenzintervallen und Konfidenzbereichen auf der Grundlage der Likelihood verwendet, die im Allgemeinen genauer sind als diejenigen, die die oben beschriebene asymptotische Normalität verwenden.

Nicht-unabhängige Variablen

Es kann vorkommen, dass Variablen korreliert sind, d. h. nicht unabhängig sind. Zwei Zufallsvariablen und sind nur dann unabhängig, wenn ihre gemeinsame Wahrscheinlichkeitsdichtefunktion das Produkt der einzelnen Wahrscheinlichkeitsdichtefunktionen ist, d. h.

Angenommen, man konstruiert einen Gauß-Vektor der Ordnung n aus Zufallsvariablen , wobei jede Variable Mittelwerte hat, die durch . Ferner sei die Kovarianzmatrix durch . Die gemeinsame Wahrscheinlichkeitsdichtefunktion dieser n Zufallsvariablen folgt dann einer multivariaten Normalverteilung, die durch gegeben ist:

Im bivariaten Fall ist die gemeinsame Wahrscheinlichkeitsdichtefunktion gegeben durch:

In diesem und anderen Fällen, in denen eine gemeinsame Dichtefunktion existiert, wird die Wahrscheinlichkeitsfunktion wie oben im Abschnitt "Grundsätze" unter Verwendung dieser Dichte definiert.

Beispiel

sind Zählungen in den Zellen/Kästchen 1 bis m; jedes Kästchen hat eine andere Wahrscheinlichkeit (man stelle sich vor, dass die Kästchen größer oder kleiner sind) und wir legen die Anzahl der Kugeln, die fallen, auf :. Die Wahrscheinlichkeit für jedes Kästchen ist mit einer Nebenbedingung: . Dies ist ein Fall, in dem die s nicht unabhängig sind, wird die gemeinsame Wahrscheinlichkeit eines Vektors wird Multinomial genannt und hat die Form:

Jedes Kästchen für sich genommen ist ein Binom, und dies ist eine Erweiterung davon.

Die logarithmische Wahrscheinlichkeit davon ist:

Die Nebenbedingung muss berücksichtigt werden und die Lagrange-Multiplikatoren müssen verwendet werden:

Indem man alle Ableitungen als 0 setzt, erhält man die natürlichste Schätzung

Die Maximierung der log-Likelihood, mit und ohne Nebenbedingungen, kann ein unlösbares Problem in geschlossener Form sein, dann müssen wir iterative Verfahren verwenden.

Iterative Verfahren

Außer in speziellen Fällen können die Likelihood-Gleichungen

nicht explizit für einen Schätzer gelöst werden . Stattdessen müssen sie iterativ gelöst werden: ausgehend von einer Anfangsschätzung von (sagen wir ) versucht man, eine konvergente Folge zu erhalten . Es gibt viele Methoden für diese Art von Optimierungsproblemen, aber die am häufigsten verwendeten sind Algorithmen, die auf einer Aktualisierungsformel der Form

wobei der Vektor die Abstiegsrichtung des rSchrittes angibt, und der Skalar die "Schrittlänge" angibt, die auch als Lernrate bezeichnet wird. Im Allgemeinen ist die Likelihood-Funktion nicht konvex und hat mehrere lokale Maxima. Auf Ableitungen basierende deterministische Suchmethoden können in der Regel nur ein lokales Maximum der Likelihood-Funktion identifizieren. Das Auffinden eines globalen Maximums einer nicht-konvexen Funktion ist ein NP-komplettes Problem und kann daher nicht in einer angemessenen Zeit gelöst werden. Biologisch inspirierte und andere heuristische Optimierungstechniken können verwendet werden, um mehrere lokale Maxima zu untersuchen und ein akzeptables Maximum in der Praxis zu finden.

Methode des Gradientenabstiegs

(Anmerkung: Hier handelt es sich um ein Maximierungsproblem, daher wird das Vorzeichen vor dem Gradienten umgedreht)

die klein genug für Konvergenz ist und

Die Methode des Gradientenabstiegs erfordert die Berechnung des Gradienten bei der r-ten Iteration, aber keine Berechnung der Inversen der Ableitung zweiter Ordnung, d.h. der Hessischen Matrix. Daher ist sie rechnerisch schneller als die Newton-Raphson-Methode.

Newton-Raphson-Verfahren

und

wobei ist die Punktzahl und ist die Inverse der Hess'schen Matrix der Log-Likelihood-Funktion, die beide in der rdritten Iteration. Da die Berechnung der Hessian-Matrix jedoch sehr rechenaufwendig ist, wurden zahlreiche Alternativen vorgeschlagen. Der beliebte Berndt-Hall-Hall-Hausman-Algorithmus approximiert die Hessian mit dem äußeren Produkt des erwarteten Gradienten, so dass

Quasi-Newton-Verfahren

Andere Quasi-Newton-Methoden verwenden aufwändigere Sekantenaktualisierungen, um eine Annäherung an die Hessian-Matrix zu erreichen.

Davidon-Fletcher-Powell-Formel

Die DFP-Formel findet eine Lösung, die symmetrisch und positiv-definit ist und dem aktuellen Näherungswert der Ableitung zweiter Ordnung am nächsten kommt:

wobei

Broyden-Fletcher-Goldfarb-Shanno-Algorithmus

BFGS liefert ebenfalls eine Lösung, die symmetrisch und positiv-definit ist:

wobei

Die Konvergenz der BFGS-Methode ist nicht garantiert, es sei denn, die Funktion hat eine quadratische Taylor-Entwicklung in der Nähe eines Optimums. BFGS kann jedoch auch bei nicht-glatten Optimierungsfällen eine akzeptable Leistung erbringen.

Fisher's Scoring

Eine weitere beliebte Methode besteht darin, die Hessian durch die Fisher-Informationsmatrix zu ersetzen, zu ersetzen, womit wir den Fisher-Scoring-Algorithmus erhalten. Dieses Verfahren ist Standard bei der Schätzung vieler Methoden, z. B. bei verallgemeinerten linearen Modellen.

Obwohl sie sehr beliebt sind, können Quasi-Newton-Methoden zu einem stationären Punkt konvergieren, der nicht unbedingt ein lokales oder globales Maximum ist, sondern eher ein lokales Minimum oder ein Sattelpunkt. Daher ist es wichtig, die Gültigkeit der erhaltenen Lösung der Likelihood-Gleichungen zu bewerten, indem überprüft wird, dass die Hessian, die an der Lösung ausgewertet wird, sowohl negativ definit als auch wohl konditioniert ist.

Geschichte

Ronald Fisher im Jahr 1913

Frühe Anwender der Maximum Likelihood waren Carl Friedrich Gauß, Pierre-Simon Laplace, Thorvald N. Thiele und Francis Ysidro Edgeworth. Die weit verbreitete Anwendung stieg jedoch zwischen 1912 und 1922, als Ronald Fisher die Maximum-Likelihood-Schätzung empfahl, weithin bekannt machte und sorgfältig analysierte (mit vergeblichen Versuchen von Beweisen).

Die Maximum-Likelihood-Schätzung wurde schließlich durch einen 1938 von Samuel S. Wilks veröffentlichten Beweis, der heute als Wilks-Theorem bezeichnet wird, über die heuristische Rechtfertigung hinausgeführt. Das Theorem zeigt, dass der Fehler im Logarithmus der Likelihood-Werte für Schätzungen aus mehreren unabhängigen Beobachtungen asymptotisch χ 2-verteilt ist, was die bequeme Bestimmung eines Vertrauensbereichs um jede Schätzung der Parameter ermöglicht. Der einzige schwierige Teil des Wilks'schen Beweises hängt vom Erwartungswert der Fisher-Informationsmatrix ab, der durch ein von Fisher bewiesenes Theorem bereitgestellt wird. Wilks hat die Allgemeinheit des Theorems im Laufe seines Lebens immer weiter verbessert, wobei sein allgemeinster Beweis 1962 veröffentlicht wurde.

Die Entwicklung der Maximum-Likelihood-Schätzung wurde von einer Reihe von Autoren untersucht.

Motivation

Einfach gesprochen bedeutet die Maximum-Likelihood-Methode Folgendes: Wenn man statistische Untersuchungen durchführt, untersucht man in der Regel eine Stichprobe mit einer bestimmten Anzahl von Objekten einer Grundgesamtheit. Da die Untersuchung der gesamten Grundgesamtheit in den meisten Fällen hinsichtlich der Kosten und des Aufwandes unmöglich ist, sind die wichtigen Kennwerte der Grundgesamtheit unbekannt. Solche Kennwerte sind z. B. der Erwartungswert oder die Standardabweichung. Da man diese Kennwerte jedoch zu den statistischen Rechnungen, die man durchführen möchte, benötigt, muss man die unbekannten Kennwerte der Grundgesamtheit anhand der bekannten Stichprobe schätzen.

Die Maximum-Likelihood-Methode wird nun in Situationen benutzt, in denen die Elemente der Grundgesamtheit als Realisierung eines Zufallsexperiments interpretiert werden können, das von einem unbekannten Parameter abhängt, bis auf diesen aber eindeutig bestimmt und bekannt ist. Entsprechend hängen die interessanten Kennwerte ausschließlich von diesem unbekannten Parameter ab, lassen sich also als Funktion von ihm darstellen. Als Maximum-Likelihood-Schätzer wird nun derjenige Parameter bezeichnet, der die Wahrscheinlichkeit, die Stichprobe zu erhalten, maximiert.

Die Maximum-Likelihood-Methode ist aufgrund ihrer Vorteile gegenüber anderen Schätzverfahren (beispielsweise die Methode der kleinsten Quadrate und die Momentenmethode) das wichtigste Prinzip zur Gewinnung von Schätzfunktionen für die Parameter einer Verteilung.

Eine heuristische Herleitung

Es wird nun folgendes Beispiel betrachtet: Es gibt eine Urne mit einer großen Anzahl von Kugeln, die entweder schwarz oder rot sind. Da die Untersuchung aller Kugeln praktisch unmöglich erscheint, wird eine Stichprobe von zehn Kugeln (etwa mit Zurücklegen) gezogen. In dieser Stichprobe seien nun eine rote und neun schwarze Kugeln. Ausgehend von dieser einen Stichprobe soll nun die wahre Wahrscheinlichkeit, eine rote Kugel in der Gesamtpopulation (Urne) zu ziehen, geschätzt werden.

Drei Likelihood-Funktionen für Parameter p einer Binomialverteilung für verschiedene Anzahlen k von roten Kugeln in einer Stichprobe von n=10 Kugeln

Die Maximum-Likelihood-Methode versucht diese Schätzung nun so zu erstellen, dass das Auftreten unserer Stichprobe damit am wahrscheinlichsten wird. Dazu könnte man ausprobieren, bei welchem Schätzwert die Wahrscheinlichkeit für unser Stichprobenergebnis maximal wird.

Probiert man beispielsweise als Schätzwert für die Wahrscheinlichkeit einer roten Kugel, so kann man mit Hilfe der Binomialverteilung die Wahrscheinlichkeit des beobachteten Ergebnisses (genau eine rote Kugel) berechnen: das Ergebnis ist .

Probiert man es mit als Schätzwert für , berechnet also für die Wahrscheinlichkeit, dass genau eine rote Kugel gezogen wird, ist das Ergebnis .

Mit für ist die Wahrscheinlichkeit, dass das beobachtete Ergebnis (genau eine rote Kugel) in der Stichprobe durch eine Populationswahrscheinlichkeit für rote Kugeln von verursacht wurde, somit größer als bei . Damit wäre nach der Maximum-Likelihood-Methode ein besserer Schätzwert für den Anteil roter Kugeln in der Grundgesamtheit. Es erweist sich, dass für (siehe rote Linie für in der Grafik) die Wahrscheinlichkeit des beobachteten Ergebnisses am größten ist. Deshalb ist die Maximum-Likelihood-Schätzung von . Man kann zeigen, dass sich allgemein bei roten Kugeln in der Stichprobe als Maximum-Likelihood-Schätzung von ergibt.

Maximum-Likelihood-Schätzung

Als Maximum-Likelihood-Schätzung, kurz MLS bezeichnet man in der Statistik eine Parameterschätzung, die nach der Maximum-Likelihood-Methode berechnet wurde. In der englischen Fachliteratur ist die Abkürzung MLE (für maximum likelihood estimation oder maximum likelihood estimator) dafür sehr verbreitet. Eine Schätzung, bei der Vorwissen in Form einer A-priori-Wahrscheinlichkeit einfließt, wird Maximum-a-posteriori-Schätzung (kurz MAP) genannt.

Eigenschaften von Maximum-Likelihood-Schätzern

Die besondere Qualität von Maximum-Likelihood-Schätzern äußert sich darin, dass sie in der Regel die effizienteste Methode zur Schätzung bestimmter Parameter darstellt.

Existenz

Unter bestimmten Regularitätsbedingungen lässt sich beweisen, dass Maximum-Likelihood-Schätzer existieren, was aufgrund ihrer impliziten Definition als eindeutiger Maximalstelle einer nicht näher bestimmten Wahrscheinlichkeitsfunktion nicht offensichtlich ist. Die für diesen Beweis benötigten Voraussetzungen bestehen im Prinzip ausschließlich aus Annahmen zur Vertauschbarkeit von Integration und Differentiation, was in den meisten betrachteten Modellen erfüllt ist.

Allgemeine Tests

Arbeitsweise der drei Tests im Rahmen der Maximum-Likelihood-Methode.

Die Konvergenz der Maximum-Likelihood-Schätzfunktion gegen eine Normalverteilung erlaubt die Ableitung allgemeiner Tests zur Prüfung von Modellen und Koeffizienten:

  • Likelihood-Quotienten-Test,
  • Wald-Test und
  • Score-Test oder Lagrange-Multiplikator-Test (LM-Test).

Die Grafik rechts zeigt die Arbeitsweise der Tests auf: Der Likelihood-Quotienten-Test vergleicht die Werte der Likelihood-Funktionen miteinander, der Wald-Test prüft den Abstand zwischen dem geschätzten Parameter und dem vorgegebenen Parameter und der Score-Test, ob die Ableitung der Likelihood-Funktion Null ist.

Da diese Tests nur asymptotisch gültig sind, gibt es für „kleine“ Stichprobenumfänge oft Tests mit besseren Optimalitätseigenschaften.

Wald-Test

Während der Likelihood-Quotienten-Test Modelle vergleicht, zielt der Wald-Test auf einzelne Koeffizienten (univariat) oder Koeffizientengruppen (multivariat). Asymptotisch und unter der Nullhypothese folgt

.

D.h. die Wald-Teststatistik ist unter o. g. Voraussetzungen standardnormalverteilt. Hierbei bezeichnet die Fisher-Information.

Anwendungsbeispiel: Maximum-Likelihood in der molekularen Phylogenie

Das Maximum-Likelihood-Kriterium gilt als eine der Standardmethoden zur Berechnung von phylogenetischen Bäumen, um Verwandtschaftsbeziehungen zwischen Organismen – meist anhand von DNA- oder Proteinsequenzen – zu erforschen. Als explizite Methode ermöglicht Maximum-Likelihood die Anwendung verschiedener Evolutionsmodelle, die in Form von Substitutionsmatrizen in die Stammbaumberechnungen einfließen. Entweder werden empirische Modelle verwendet (Proteinsequenzen) oder die Wahrscheinlichkeiten für Punktmutationen zwischen den verschiedenen Nukleotiden werden anhand des Datensatzes geschätzt und hinsichtlich des Likelihood-Wertes () optimiert (DNA-Sequenzen). Allgemein gilt ML als die zuverlässigste und am wenigsten Artefakt-anfällige Methode unter den phylogenetischen Baumkonstruktionsmethoden. Dies erfordert jedoch ein sorgfältiges Taxon-„Sampling“ und meist ein komplexes Evolutionsmodell.