Hesse-Matrix

In der Mathematik ist die Hessische Matrix oder Hessian eine quadratische Matrix der partiellen Ableitungen zweiter Ordnung einer skalaren Funktion oder eines skalaren Feldes. Sie beschreibt die lokale Krümmung einer Funktion mit vielen Variablen. Die Hess'sche Matrix wurde im 19. Jahrhundert von dem deutschen Mathematiker Ludwig Otto Hesse entwickelt und später nach ihm benannt. Hesse verwendete ursprünglich den Begriff "funktionale Determinanten". ⓘ

Die Hesse-Matrix taucht bei der Approximation einer mehrdimensionalen Funktion in der Taylor-Entwicklung auf. Sie ist unter anderem in Zusammenhang mit der Optimierung von Systemen von Bedeutung, die durch mehrere Parameter beschrieben werden, wie sie beispielsweise in den Wirtschaftswissenschaften, in der Physik, theoretischen Chemie oder in den Ingenieurwissenschaften häufig auftreten. ⓘ

Definitionen und Eigenschaften

Angenommen, $f:\mathbb {R} ^{n}\to \mathbb {R}$ sei eine Funktion, die als Eingabe einen Vektor $\mathbf {x} \in \mathbb {R} ^{n}$ und gibt einen Skalar aus $f(\mathbf {x} )\in \mathbb {R} .$ Wenn alle zweiten partiellen Ableitungen von $f$ existieren, dann ist die hessische Matrix $\mathbf {H}$ von $f$ eine quadratische $n\times n$ Matrix, die normalerweise wie folgt definiert und angeordnet ist:

\mathbf {H} _{f}={\begin{bmatrix}{\dfrac {\partial ^{2}f}{\partial x_{1}^{2}}}&{\dfrac {\partial ^{2}f}{\partial x_{1}\,\partial x_{2}}}&\cdots &{\dfrac {\partial ^{2}f}{\partial x_{1}\,\partial x_{n}}}\\[2.2ex]{\dfrac {\partial ^{2}f}{\partial x_{2}\,\partial x_{1}}}&{\dfrac {\partial ^{2}f}{\partial x_{2}^{2}}}&\cdots &{\dfrac {\partial ^{2}f}{\partial x_{2}\,\partial x_{n}}}\\[2.2ex]\vdots &\vdots &\ddots &\vdots \\[2.2ex]{\dfrac {\partial ^{2}f}{\partial x_{n}\,\partial x_{1}}}&{\dfrac {\partial ^{2}f}{\partial x_{n}\,\partial x_{2}}}&\cdots &{\dfrac {\partial ^{2}f}{\partial x_{n}^{2}}}\end{bmatrix}},

oder durch Angabe einer Gleichung für die Koeffizienten mit den Indizes i und j,

(\mathbf {H} _{f})_{i,j}={\frac {\partial ^{2}f}{\partial x_{i}\,\partial x_{j}}}.

ⓘ

Wenn darüber hinaus die zweiten partiellen Ableitungen alle stetig sind, ist die hessische Matrix nach dem Satz von Schwarz eine symmetrische Matrix. ⓘ

Die Determinante der hessischen Matrix wird als Hesssche Determinante. ⓘ

Die Hessian-Matrix einer Funktion $f$ ist die Jacobimatrix des Gradienten der Funktion $f$ das heißt: $\mathbf {H} (f(\mathbf {x} ))=\mathbf {J} (\nabla f(\mathbf {x} )).$ ⓘ

Anwendungen

Wendepunkte

Wenn $f$ ein homogenes Polynom in drei Variablen ist, ist die Gleichung $f=0$ die implizite Gleichung einer ebenen projektiven Kurve. Die Wendepunkte der Kurve sind genau die nicht-singulären Punkte, an denen die Hess'sche Determinante Null ist. Aus dem Satz von Bézout folgt, dass eine kubische ebene Kurve höchstens $9$ Wendepunkte hat, da die Hess'sche Determinante ein Polynom vom Grad $3.$ ⓘ

Test der zweiten Ableitung

Die Hessian-Matrix einer konvexen Funktion ist positiv semidefinit. Durch Verfeinerung dieser Eigenschaft lässt sich prüfen, ob ein kritischer Punkt $x$ ein lokales Maximum, ein lokales Minimum oder ein Sattelpunkt ist, wie folgt: Wenn die Hessian-Matrix positiv-definit ist bei $x,$ dann $f$ ein isoliertes lokales Minimum bei $x.$ Wenn der Hessian negativ-definit ist bei $x,$ dann $f$ erreicht ein isoliertes lokales Maximum bei $x.$ Wenn der Hessian sowohl positive als auch negative Eigenwerte hat, dann $x$ ein Sattelpunkt für $f.$ Andernfalls ist der Test nicht schlüssig. Dies bedeutet, dass bei einem lokalen Minimum die Hessian positiv-halbfinit ist und bei einem lokalen Maximum die Hessian negativ-halbfinit ist. ⓘ

Für positiv-halbfinite und negativ-halbfinite Hessians ist der Test nicht schlüssig (ein kritischer Punkt, an dem die Hessian halbfinit, aber nicht definitiv ist, kann ein lokales Extremum oder ein Sattelpunkt sein). Aus der Sicht der Morse-Theorie kann jedoch mehr gesagt werden. ⓘ

Der Test der zweiten Ableitung für Funktionen mit einer und zwei Variablen ist einfacher als im allgemeinen Fall. Bei einer Variablen enthält der Hessian genau eine zweite Ableitung; wenn diese positiv ist, dann $x$ ein lokales Minimum, und wenn sie negativ ist, dann $x$ ein lokales Maximum; wenn sie Null ist, ist der Test nicht schlüssig. Bei zwei Variablen kann die Determinante verwendet werden, denn die Determinante ist das Produkt der Eigenwerte. Wenn sie positiv ist, sind die Eigenwerte beide positiv oder beide negativ. Wenn sie negativ ist, haben die beiden Eigenwerte unterschiedliche Vorzeichen. Ist sie gleich Null, ist der Test der zweiten Ableitung nicht schlüssig. ⓘ

Äquivalent dazu können die Bedingungen zweiter Ordnung, die für ein lokales Minimum oder Maximum hinreichend sind, als Folge von Hauptminoren (Determinanten von Untermatrizen) der Hessian ausgedrückt werden; diese Bedingungen sind ein Spezialfall der im nächsten Abschnitt für begrenzte Hessians für eingeschränkte Optimierung gegebenen Bedingungen - der Fall, in dem die Anzahl der Einschränkungen Null ist. Insbesondere besteht die hinreichende Bedingung für ein Minimum darin, dass alle diese Hauptminoren positiv sind, während die hinreichende Bedingung für ein Maximum darin besteht, dass die Minoren sich im Vorzeichen abwechseln, wobei der $1\times 1$ Minor negativ ist. ⓘ

Ist $f$ auf ihrer Definitionsmenge $D$ strikt konvex, so besitzt $f$ höchstens ein globales Minimum auf $D$ . Jedes lokale Minimum ist zugleich das (einzige) globale Minimum. Ist $f$ strikt konkav, so besitzt $f$ höchstens ein globales Maximum. Jedes lokale Maximum ist zugleich ihr (einziges) globales Maximum. ⓘ

Kritische Punkte

Wenn der Gradient (der Vektor der partiellen Ableitungen) einer Funktion $f$ in einem bestimmten Punkt Null ist $\mathbf {x} ,$ dann $f$ hat einen kritischen Punkt (oder stationären Punkt) an $\mathbf {x} .$ Die Determinante der Hessian bei $\mathbf {x}$ wird in manchen Zusammenhängen auch als Diskriminante bezeichnet. Wenn diese Determinante Null ist, dann $\mathbf {x}$ ein sogenannter degenerierter kritischer Punkt von $f,$ oder ein nicht-Morse-kritischer Punkt von $f.$ Andernfalls ist er nicht entartet und wird als kritischer Morse-Punkt von $f.$ ⓘ

Die Hess'sche Matrix spielt in der Morse- und Katastrophentheorie eine wichtige Rolle, da ihr Kern und ihre Eigenwerte eine Klassifizierung der kritischen Punkte ermöglichen. ⓘ

Die Determinante der Hess'schen Matrix ist, wenn sie an einem kritischen Punkt einer Funktion ausgewertet wird, gleich der Gaußschen Krümmung der Funktion, die als Mannigfaltigkeit betrachtet wird. Die Eigenwerte der Hess'schen Matrix an diesem Punkt sind die Hauptkrümmungen der Funktion, und die Eigenvektoren sind die Hauptrichtungen der Krümmung. (Siehe Gaußsche Krümmung § Beziehung zu den Hauptkrümmungen). ⓘ

Verwendung in der Optimierung

Hessian-Matrizen werden bei großen Optimierungsproblemen im Rahmen von Newton-Methoden verwendet, da sie der Koeffizient des quadratischen Terms einer lokalen Taylor-Entwicklung einer Funktion sind. Das heißt,

y=f(\mathbf {x} +\Delta \mathbf {x} )\approx f(\mathbf {x} )+\nabla f(\mathbf {x} )^{\mathrm {T} }\Delta \mathbf {x} +{\frac {1}{2}}\,\Delta \mathbf {x} ^{\mathrm {T} }\mathbf {H} (\mathbf {x} )\,\Delta \mathbf {x}

wobei

\nabla f

der Gradient ist

\left({\frac {\partial f}{\partial x_{1}}},\ldots ,{\frac {\partial f}{\partial x_{n}}}\right).

Das Berechnen und Speichern der vollständigen Hessian-Matrix erfordert

\Theta \left(n^{2}\right)

Dies ist für hochdimensionale Funktionen wie die Verlustfunktionen neuronaler Netze, bedingte Zufallsfelder und andere statistische Modelle mit einer großen Anzahl von Parametern nicht praktikabel. Für solche Situationen wurden Truncated-Newton- und Quasi-Newton-Algorithmen entwickelt. Die letztgenannte Familie von Algorithmen verwendet Näherungen an die Hessian; einer der beliebtesten Quasi-Newton-Algorithmen ist BFGS. ⓘ

Solche Approximationen können die Tatsache ausnutzen, dass ein Optimierungsalgorithmus den Hessian nur als linearen Operator verwendet $\mathbf {H} (\mathbf {v} ),$ und gehen so vor, dass sie zunächst feststellen, dass der Hessian auch in der lokalen Erweiterung des Gradienten erscheint:

\nabla f(\mathbf {x} +\Delta \mathbf {x} )=\nabla f(\mathbf {x} )+\mathbf {H} (\mathbf {x} )\,\Delta \mathbf {x} +{\mathcal {O}}(\|\Delta \mathbf {x} \|^{2})

ⓘ

Lässt man $\Delta \mathbf {x} =r\mathbf {v}$ für einen Skalar $r,$ ergibt dies

\mathbf {H} (\mathbf {x} )\,\Delta \mathbf {x} =\mathbf {H} (\mathbf {x} )r\mathbf {v} =r\mathbf {H} (\mathbf {x} )\mathbf {v} =\nabla f(\mathbf {x} +r\mathbf {v} )-\nabla f(\mathbf {x} )+{\mathcal {O}}(r^{2}),

das heißt,

\mathbf {H} (\mathbf {x} )\mathbf {v} ={\frac {1}{r}}\left[\nabla f(\mathbf {x} +r\mathbf {v} )-\nabla f(\mathbf {x} )\right]+{\mathcal {O}}(r)

Wenn also der Gradient bereits berechnet ist, kann die approximative Hessian durch eine lineare (in der Größe des Gradienten) Anzahl von skalaren Operationen berechnet werden. (Dieses Näherungsschema ist zwar einfach zu programmieren, aber numerisch nicht stabil, da

r

klein gemacht werden muss, um einen Fehler aufgrund des

{\mathcal {O}}(r)

Term zu vermeiden, aber durch die Verkleinerung verliert es an Präzision im ersten Term.) ⓘ

Was die Randomized Search Heuristiken betrifft, so passt sich die Kovarianzmatrix der Evolutionsstrategie bis auf einen skalaren Faktor und kleine Zufallsschwankungen an die Inverse der Hessian-Matrix an. Dieses Ergebnis wurde für eine Ein-Eltern-Strategie und ein statisches Modell mit zunehmender Populationsgröße unter Verwendung der quadratischen Approximation formal bewiesen. ⓘ

Andere Anwendungen

Die Hessian-Matrix wird häufig verwendet, um Bildverarbeitungsoperatoren in der Bildverarbeitung und der Computer Vision auszudrücken (siehe den Laplacian of Gaussian (LoG) Blob-Detektor, den Determinant of Hessian (DoH) Blob-Detektor und den Scale Space). Die Hessian-Matrix kann auch in der Normalmodenanalyse zur Berechnung der verschiedenen Molekularfrequenzen in der Infrarotspektroskopie verwendet werden. ⓘ

Laplace-Operator

Der Laplace-Operator einer zweimal stetig differenzierbaren Funktion $f\colon D\to \mathbb {R}$ mit $D\subseteq \mathbb {R} ^{n}$ ist gleich der Spur ihrer Hesse-Matrix und daher unabhängig von der Wahl der Koordinaten:

\Delta f=\mathrm {Spur} ({H}_{f})

ⓘ

Verallgemeinerungen

Gebundene Hessische Matrix

A gerahmte Hessian wird für den Test der zweiten Ableitung bei bestimmten eingeschränkten Optimierungsproblemen verwendet. Gegeben die Funktion $f$ die zuvor betrachtet wurde, aber unter Hinzufügung einer Nebenbedingungsfunktion $g$ derart, dass $g(\mathbf {x} )=c,$ ist die gerahmte Hessian die Hessian der Lagrange-Funktion $\Lambda (\mathbf {x} ,\lambda )=f(\mathbf {x} )+\lambda [g(\mathbf {x} )-c]:$

\mathbf {H} (\Lambda )={\begin{bmatrix}{\dfrac {\partial ^{2}\Lambda }{\partial \lambda ^{2}}}&{\dfrac {\partial ^{2}\Lambda }{\partial \lambda \partial \mathbf {x} }}\\\left({\dfrac {\partial ^{2}\Lambda }{\partial \lambda \partial \mathbf {x} }}\right)^{\mathsf {T}}&{\dfrac {\partial ^{2}\Lambda }{\partial \mathbf {x} ^{2}}}\end{bmatrix}}={\begin{bmatrix}0&{\dfrac {\partial g}{\partial x_{1}}}&{\dfrac {\partial g}{\partial x_{2}}}&\cdots &{\dfrac {\partial g}{\partial x_{n}}}\\[2.2ex]{\dfrac {\partial g}{\partial x_{1}}}&{\dfrac {\partial ^{2}\Lambda }{\partial x_{1}^{2}}}&{\dfrac {\partial ^{2}\Lambda }{\partial x_{1}\,\partial x_{2}}}&\cdots &{\dfrac {\partial ^{2}\Lambda }{\partial x_{1}\,\partial x_{n}}}\\[2.2ex]{\dfrac {\partial g}{\partial x_{2}}}&{\dfrac {\partial ^{2}\Lambda }{\partial x_{2}\,\partial x_{1}}}&{\dfrac {\partial ^{2}\Lambda }{\partial x_{2}^{2}}}&\cdots &{\dfrac {\partial ^{2}\Lambda }{\partial x_{2}\,\partial x_{n}}}\\[2.2ex]\vdots &\vdots &\vdots &\ddots &\vdots \\[2.2ex]{\dfrac {\partial g}{\partial x_{n}}}&{\dfrac {\partial ^{2}\Lambda }{\partial x_{n}\,\partial x_{1}}}&{\dfrac {\partial ^{2}\Lambda }{\partial x_{n}\,\partial x_{2}}}&\cdots &{\dfrac {\partial ^{2}\Lambda }{\partial x_{n}^{2}}}\end{bmatrix}}={\begin{bmatrix}0&{\dfrac {\partial g}{\partial \mathbf {x} }}\\\left({\dfrac {\partial g}{\partial \mathbf {x} }}\right)^{\mathsf {T}}&{\dfrac {\partial ^{2}\Lambda }{\partial \mathbf {x} ^{2}}}\end{bmatrix}}

ⓘ

Wenn es zum Beispiel $m$ gibt, dann ist die Null in der oberen linken Ecke ein $m\times m$ Block von Nullen, und es gibt $m$ Randzeilen am oberen Rand und $m$ Randspalten auf der linken Seite. ⓘ

Die obigen Regeln, die besagen, dass Extrema (unter den kritischen Punkten mit einer nicht-singulären Hessischen) durch eine positiv-definite oder negativ-definite Hessische charakterisiert werden, können hier nicht gelten, da eine umrandete Hessische weder negativ-definit noch positiv-definit sein kann, da $\mathbf {z} ^{\mathsf {T}}\mathbf {H} \mathbf {z} =0$ wenn $\mathbf {z}$ ein beliebiger Vektor ist, dessen einziger Nicht-Null-Eintrag sein erster ist. ⓘ

Der zweite Ableitungstest besteht hier aus Vorzeichenbeschränkungen der Determinanten einer bestimmten Menge von $n-m$ Untermatrizen der begrenzten Hessischen. Intuitiv können die $m$ Beschränkungen als eine Reduzierung des Problems auf ein Problem mit $n-m$ freien Variablen. (Zum Beispiel ist die Maximierung von $f\left(x_{1},x_{2},x_{3}\right)$ vorbehaltlich der Nebenbedingung $x_{1}+x_{2}+x_{3}=1$ kann reduziert werden auf die Maximierung von $f\left(x_{1},x_{2},1-x_{1}-x_{2}\right)$ ohne Einschränkung). ⓘ

Insbesondere werden Vorzeichenbedingungen für die Abfolge der führenden Hauptminoren (Determinanten der oben-links-justierten Submatrizen) der gerahmten Hessian auferlegt, für die die ersten $2m$ führenden Hauptminoren vernachlässigt werden, wobei die kleinste Minorität aus den abgeschnittenen ersten $2m+1$ Zeilen und Spalten besteht, die nächste aus den abgeschnittenen ersten $2m+2$ Zeilen und Spalten besteht, und so weiter, wobei die letzte die gesamte gerahmte Hessische ist; wenn $2m+1$ größer ist als $n+m,$ ist, dann ist die kleinste führende Hauptunterordnung die Hessische selbst. Es sind also $n-m$ Nebenwerte zu berücksichtigen, die jeweils an dem Punkt ausgewertet werden, der als Maximum oder Minimum in Frage kommt. Eine hinreichende Bedingung für ein lokales Maximum ist, dass die Vorzeichen dieser Minoren abwechseln, wobei der kleinste das Vorzeichen von $(-1)^{m+1}.$ Eine hinreichende Bedingung für ein lokales Minimum ist, dass alle diese Minoren das Vorzeichen von $(-1)^{m}.$ (Im unbeschränkten Fall von $m=0$ stimmen diese Bedingungen mit den Bedingungen überein, unter denen die ungebundene Hessian negativ bzw. positiv definiert ist). ⓘ

Vektorwertige Funktionen

Wenn $f$ ist stattdessen ein Vektorfeld $\mathbf {f} :\mathbb {R} ^{n}\to \mathbb {R} ^{m},$ das heißt,

\mathbf {f} (\mathbf {x} )=\left(f_{1}(\mathbf {x} ),f_{2}(\mathbf {x} ),\ldots ,f_{m}(\mathbf {x} )\right),

dann ist die Sammlung der zweiten partiellen Ableitungen nicht eine

n\times n

Matrix, sondern eher ein Tensor dritter Ordnung. Man kann sich dies als eine Reihe von

m

Hess'schen Matrizen, eine für jede Komponente von

\mathbf {f}

:

\mathbf {H} (\mathbf {f} )=\left(\mathbf {H} (f_{1}),\mathbf {H} (f_{2}),\ldots ,\mathbf {H} (f_{m})\right).

Dieser Tensor degeneriert zur üblichen hessischen Matrix, wenn

m=1.

ⓘ

Verallgemeinerung auf den komplexen Fall

Im Zusammenhang mit mehreren komplexen Variablen kann der Hessian verallgemeinert werden. Nehmen wir an, $f:\mathbb {C} ^{n}\to \mathbb {C} ,$ und schreiben Sie $f\left(z_{1},\ldots ,z_{n}\right).$ Dann ist der verallgemeinerte Hessian ${\frac {\partial ^{2}f}{\partial z_{i}\partial {\overline {z_{j}}}}}.$ Wenn $f$ die n-dimensionalen Cauchy-Riemann-Bedingungen erfüllt, dann ist die komplexe Hessian-Matrix identisch Null. ⓘ

Verallgemeinerungen für Riemannsche Mannigfaltigkeiten

Sei $(M,g)$ sei eine riemannsche Mannigfaltigkeit und $\nabla$ ihre Levi-Civita-Verbindung. Sei $f:M\to \mathbb {R}$ sei eine glatte Funktion. Definieren Sie den Hessischen Tensor durch

\operatorname {Hess} (f)\in \Gamma \left(T^{*}M\otimes T^{*}M\right)\quad {\text{ by }}\quad \operatorname {Hess} (f):=\nabla \nabla f=\nabla df,

wobei die Tatsache ausgenutzt wird, dass die erste kovariante Ableitung einer Funktion dieselbe ist wie ihre gewöhnliche Ableitung. Wählt man lokale Koordinaten