Normalverteilung

Normalverteilung ⓘ
	Wahrscheinlichkeitsdichtefunktion Die rote Kurve ist die Standardnormalverteilung
	Kumulative Verteilungsfunktion
Notation
Parameter	= Mittelwert (Ort); = Varianz (Skalenquadrat)
Unterstützung
PDF
CDF
Quantil
Mittelwert
Median
Modus
Varianz
MAD
Schrägheit
Bsp. Kurtosis
Entropie
MGF
CF
Fisher-Information
Kullback-Leibler-Divergenz

In der Statistik ist die Normalverteilung (auch bekannt als Gauß-, Gauß- oder Laplace-Gauß-Verteilung) ein Typ der kontinuierlichen Wahrscheinlichkeitsverteilung für eine reellwertige Zufallsvariable. Die allgemeine Form ihrer Wahrscheinlichkeitsdichtefunktion ist

f(x)={\frac {1}{\sigma {\sqrt {2\pi }}}}e^{-{\frac {1}{2}}\left({\frac {x-\mu }{\sigma }}\right)^{2}}

Der Parameter $\mu$ ist der Mittelwert oder Erwartungswert der Verteilung (und auch ihr Median und Modus), während der Parameter $\sigma$ ihre Standardabweichung ist. Die Varianz der Verteilung ist $\sigma ^{2}$ . Eine Zufallsvariable mit einer Gaußschen Verteilung gilt als normalverteilt und wird als Normalabweichung bezeichnet. ⓘ

Normalverteilungen sind in der Statistik von großer Bedeutung und werden in den Natur- und Sozialwissenschaften häufig zur Darstellung von reellwertigen Zufallsvariablen verwendet, deren Verteilungen nicht bekannt sind. Ihre Bedeutung ist zum Teil auf den zentralen Grenzwertsatz zurückzuführen. Es besagt, dass unter bestimmten Bedingungen der Durchschnitt vieler Stichproben (Beobachtungen) einer Zufallsvariablen mit endlichem Mittelwert und Varianz selbst eine Zufallsvariable ist, deren Verteilung mit zunehmender Anzahl der Stichproben gegen eine Normalverteilung konvergiert. Daher haben physikalische Größen, von denen man annimmt, dass sie die Summe vieler unabhängiger Prozesse sind, wie z. B. Messfehler, oft Verteilungen, die nahezu normal sind. ⓘ

Darüber hinaus haben Gaußverteilungen einige einzigartige Eigenschaften, die für analytische Untersuchungen von Nutzen sind. Zum Beispiel ist jede lineare Kombination einer festen Sammlung von Normalabweichungen eine Normalabweichung. Viele Ergebnisse und Methoden, wie z. B. die Ausbreitung der Unsicherheit und die Anpassung von Parametern nach der Methode der kleinsten Quadrate, lassen sich analytisch in expliziter Form ableiten, wenn die relevanten Variablen normalverteilt sind. ⓘ

Eine Normalverteilung wird manchmal informell als Glockenkurve bezeichnet. Viele andere Verteilungen sind jedoch glockenförmig (z. B. Cauchy-, Student's t- und logistische Verteilungen). ⓘ

Die univariate Wahrscheinlichkeitsverteilung wird für Vektoren in der multivariaten Normalverteilung und für Matrizen in der Matrixnormalverteilung verallgemeinert. ⓘ

Die besondere Bedeutung der Normalverteilung beruht unter anderem auf dem zentralen Grenzwertsatz, dem zufolge Verteilungen, die durch additive Überlagerung einer großen Zahl von unabhängigen Einflüssen entstehen, unter schwachen Voraussetzungen annähernd normalverteilt sind. Die Familie der Normalverteilungen bildet eine Lage-Skalen-Familie. ⓘ

Die Abweichungen der Messwerte vieler natur-, wirtschafts- und ingenieurwissenschaftlicher Vorgänge vom Erwartungswert lassen sich durch die Normalverteilung (bei biologischen Prozessen oft logarithmische Normalverteilung) in sehr guter Näherung beschreiben (vor allem Prozesse, die in mehreren Faktoren unabhängig voneinander in verschiedene Richtungen wirken). ⓘ

Zufallsvariablen mit Normalverteilung benutzt man zur Beschreibung zufälliger Vorgänge wie:

zufällige Streuung von Messwerten,
zufällige Abweichungen vom Sollmaß bei der Fertigung von Werkstücken,
Beschreibung der brownschen Molekularbewegung. ⓘ

In der Versicherungsmathematik ist die Normalverteilung geeignet zur Modellierung von Schadensdaten im Bereich mittlerer Schadenshöhen. ⓘ

In der Messtechnik wird häufig eine Normalverteilung angesetzt, um die Streuung von Messwerten zu beschreiben. ⓘ

Die Standardabweichung $\sigma$ beschreibt die Breite der Normalverteilung. Die Halbwertsbreite einer Normalverteilung ist ungefähr das $2{,}4$ -Fache (genau $2{\sqrt {2\ln 2}}$ ) der Standardabweichung. Es gilt näherungsweise:

Im Intervall der Abweichung $\pm \sigma$ vom Erwartungswert sind 68,27 % aller Messwerte zu finden,
Im Intervall der Abweichung $\pm 2\sigma$ vom Erwartungswert sind 95,45 % aller Messwerte zu finden,
Im Intervall der Abweichung $\pm 3\sigma$ vom Erwartungswert sind 99,73 % aller Messwerte zu finden.

Und ebenso lassen sich umgekehrt für gegebene Wahrscheinlichkeiten die maximalen Abweichungen vom Erwartungswert finden:

50 % aller Messwerte haben eine Abweichung von höchstens $0{,}675\sigma$ vom Erwartungswert,
90 % aller Messwerte haben eine Abweichung von höchstens $1{,}645\sigma$ vom Erwartungswert,
95 % aller Messwerte haben eine Abweichung von höchstens $1{,}960\sigma$ vom Erwartungswert,
99 % aller Messwerte haben eine Abweichung von höchstens $2{,}576\sigma$ vom Erwartungswert. ⓘ

Somit kann neben dem Erwartungswert, der als Schwerpunkt der Verteilung interpretiert werden kann, auch der Standardabweichung eine einfache Bedeutung im Hinblick auf die Größenordnungen der auftretenden Wahrscheinlichkeiten bzw. Häufigkeiten zugeordnet werden. ⓘ

Definitionen

Standard-Normalverteilung

Der einfachste Fall einer Normalverteilung wird als Standardnormalverteilung oder Einheitsnormalverteilung bezeichnet. Dies ist ein Spezialfall, wenn $\mu =0$ und $\sigma =1$ und wird durch diese Wahrscheinlichkeitsdichtefunktion (oder Dichte) beschrieben:

\varphi (z)={\frac {e^{-z^{2}/2}}{\sqrt {2\pi }}}

Die Variable $z$ hat einen Mittelwert von 0 und eine Varianz und Standardabweichung von 1. Die Dichte $\varphi (z)$ hat ihre Spitze $1/{\sqrt {2\pi }}$ bei . $z=0$ und Wendepunkte bei $z=+1$ und $z=-1$ . ⓘ

Obwohl die obige Dichte am häufigsten als Standardnormalverteilung bezeichnet wird, haben einige Autoren diesen Begriff verwendet, um andere Versionen der Normalverteilung zu beschreiben. Carl Friedrich Gauß zum Beispiel definierte die Standardnormalverteilung als

\varphi (z)={\frac {e^{-z^{2}}}{\sqrt {\pi }}}

was eine Varianz von 1/2 hat, und Stephen Stigler definierte einst die Standardnormale als

\varphi (z)=e^{-\pi z^{2}}

definiert, die eine einfache funktionale Form und eine Varianz von $\sigma ^{2}=1/(2\pi )$ : ⓘ

Allgemeine Normalverteilung

Jede Normalverteilung ist eine Version der Standardnormalverteilung, deren Bereich um einen Faktor gestreckt wurde $\sigma$ (die Standardabweichung) gestreckt und dann durch $\mu$ (den Mittelwert):

f(x\mid \mu ,\sigma ^{2})={\frac {1}{\sigma }}\varphi \left({\frac {x-\mu }{\sigma }}\right)

ⓘ

Die Wahrscheinlichkeitsdichte muss skaliert werden durch $1/\sigma$ skaliert werden, so dass das Integral immer noch 1 ist. ⓘ

Wenn $Z$ eine Standard-Normalabweichung ist, dann $X=\sigma Z+\mu$ eine Normalverteilung mit Erwartungswert $\mu$ und Standardabweichung $\sigma$ . Dies ist gleichbedeutend mit der Aussage, dass die "Standard"-Normalverteilung $Z$ um einen Faktor von $\sigma$ und verschoben um $\mu$ verschoben wird, um eine andere Normalverteilung zu erhalten, die $X$ . Umgekehrt, wenn $X$ eine Normalabweichung mit den Parametern $\mu$ und $\sigma ^{2}$ ist, dann kann diese $X$ Verteilung neu skaliert und verschoben werden, und zwar mit der Formel $Z=(X-\mu )/\sigma$ in die "Standard"-Normalverteilung umgewandelt werden. Diese Variante wird auch als die standardisierte Form von $X$ . ⓘ

Notation

Die Wahrscheinlichkeitsdichte der Gaußschen Standardverteilung (Standardnormalverteilung, mit Mittelwert Null und Einheitsvarianz) wird häufig mit dem griechischen Buchstaben $\phi$ (phi) bezeichnet. Die alternative Form des griechischen Buchstabens phi, $\varphi$ wird ebenfalls recht häufig verwendet. ⓘ

Die Normalverteilung wird oft als $N(\mu ,\sigma ^{2})$ oder ${\mathcal {N}}(\mu ,\sigma ^{2})$ . Wenn also eine Zufallsvariable $X$ normalverteilt ist mit Mittelwert $\mu$ und Standardabweichung $\sigma$ , kann man schreiben ⓘ

X\sim {\mathcal {N}}(\mu ,\sigma ^{2}).

ⓘ

Alternative Parametrisierungen

Einige Autoren befürworten die Verwendung der Genauigkeit $\tau$ als Parameter zu verwenden, der die Breite der Verteilung definiert, anstelle der Abweichung $\sigma$ oder der Varianz $\sigma ^{2}$ . Die Präzision wird normalerweise als der Kehrwert der Varianz definiert, $1/\sigma ^{2}$ . Die Formel für die Verteilung lautet dann ⓘ

f(x)={\sqrt {\frac {\tau }{2\pi }}}e^{-\tau (x-\mu )^{2}/2}.

ⓘ

Es wird behauptet, dass diese Wahl Vorteile bei numerischen Berechnungen hat, wenn $\sigma$ sehr nahe bei Null liegt, und vereinfacht die Formeln in einigen Zusammenhängen, wie z. B. bei der Bayes'schen Inferenz von Variablen mit multivariater Normalverteilung. ⓘ

Alternativ dazu kann der Kehrwert der Standardabweichung $\tau ^{\prime }=1/\sigma$ als Präzision definiert werden, wobei der Ausdruck der Normalverteilung wie folgt lautet ⓘ

f(x)={\frac {\tau ^{\prime }}{\sqrt {2\pi }}}e^{-(\tau ^{\prime })^{2}(x-\mu )^{2}/2}.

ⓘ

Nach Stigler ist diese Formulierung vorteilhaft, weil sie eine viel einfachere und leichter zu merkende Formel und einfache Näherungsformeln für die Quantile der Verteilung bietet. ⓘ

Normalverteilungen bilden eine Exponentialfamilie mit natürlichen Parametern $\textstyle \theta _{1}={\frac {\mu }{\sigma ^{2}}}$ und $\textstyle \theta _{2}={\frac {-1}{2\sigma ^{2}}}$ , und natürlichen Statistiken x und x². Die dualen Erwartungsparameter der Normalverteilung sind η₁ = μ und η₂ = μ² + σ². ⓘ

Kumulative Verteilungsfunktionen

Die kumulative Verteilungsfunktion (CDF) der Standardnormalverteilung, die gewöhnlich mit dem großen griechischen Buchstaben $\Phi$ (phi) bezeichnet wird, ist das Integral ⓘ

\Phi (x)={\frac {1}{\sqrt {2\pi }}}\int _{-\infty }^{x}e^{-t^{2}/2}\,dt

ⓘ

Die zugehörige Fehlerfunktion $\operatorname {erf} (x)$ gibt die Wahrscheinlichkeit an, dass eine Zufallsvariable mit Normalverteilung, Mittelwert 0 und Varianz 1/2, in den Bereich $[-x,x]$ . Das heißt:

\operatorname {erf} (x)={\frac {2}{\sqrt {\pi }}}\int _{0}^{x}e^{-t^{2}}\,dt

ⓘ

Diese Integrale können nicht in Form von elementaren Funktionen ausgedrückt werden und werden oft als spezielle Funktionen bezeichnet. Es sind jedoch zahlreiche numerische Näherungen bekannt; siehe unten. ⓘ

Die beiden Funktionen sind eng miteinander verwandt, nämlich ⓘ

\Phi (x)={\frac {1}{2}}\left[1+\operatorname {erf} \left({\frac {x}{\sqrt {2}}}\right)\right]

ⓘ

Für eine allgemeine Normalverteilung mit Dichte $f$ , Mittelwert $\mu$ und Abweichung $\sigma$ ist die kumulative Verteilungsfunktion ⓘ

F(x)=\Phi \left({\frac {x-\mu }{\sigma }}\right)={\frac {1}{2}}\left[1+\operatorname {erf} \left({\frac {x-\mu }{\sigma {\sqrt {2}}}}\right)\right]

ⓘ

Das Komplement der Standardnormalverteilung CDF, $Q(x)=1-\Phi (x)$ wird oft als Q-Funktion bezeichnet, insbesondere in technischen Texten. Sie gibt die Wahrscheinlichkeit an, dass der Wert einer standardnormalen Zufallsvariablen $X$ größer ist als $x$ : $P(X>x)$ . Andere Definitionen der $Q$ -Funktion, die alle einfache Transformationen von $\Phi$ sind, werden ebenfalls gelegentlich verwendet. ⓘ

Der Graph der Standard-Normal-CDF $\Phi$ hat eine 2-fache Rotationssymmetrie um den Punkt (0,1/2); das heißt, $\Phi (-x)=1-\Phi (x)$ . Ihre Antiderivative (unbestimmtes Integral) kann wie folgt ausgedrückt werden:

\int \Phi (x)\,dx=x\Phi (x)+\varphi (x)+C.

ⓘ

Die CDF der Standardnormalverteilung kann durch Integration durch Teile zu einer Reihe erweitert werden:

\Phi (x)={\frac {1}{2}}+{\frac {1}{\sqrt {2\pi }}}\cdot e^{-x^{2}/2}\left[x+{\frac {x^{3}}{3}}+{\frac {x^{5}}{3\cdot 5}}+\cdots +{\frac {x^{2n+1}}{(2n+1)!!}}+\cdots \right]

ⓘ

wobei $!!$ die doppelte Fakultät bezeichnet. ⓘ

Eine asymptotische Erweiterung der CDF für große x kann auch durch Integration durch Teile abgeleitet werden. Weitere Informationen finden Sie unter Fehlerfunktion#Asymptotische Entwicklung. ⓘ

Eine schnelle Annäherung an die CDF der Standardnormalverteilung lässt sich mit Hilfe einer Taylorreihen-Approximation finden: $\Phi (x)\approx {\frac {1}{2}}+{\frac {1}{\sqrt {2\pi }}}\sum _{k=0}^{n}{\frac {\left(-1\right)^{k}x^{\left(2k+1\right)}}{2^{k}k!\left(2k+1\right)}}$ ⓘ

Standardabweichung und Streuung

Intervalle um

\mu

bei der Normalverteilung ⓘ

Aus der Standardnormalverteilungstabelle ist ersichtlich, dass für normalverteilte Zufallsvariablen jeweils ungefähr

68,3 % der Realisierungen im Intervall

\mu \pm \sigma

,

95,4 % im Intervall

\mu \pm 2\sigma

und

99,7 % im Intervall

\mu \pm 3\sigma

liegen. Da in der Praxis viele Zufallsvariablen annähernd normalverteilt sind, werden diese Werte aus der Normalverteilung oft als Faustformel benutzt. So wird beispielsweise $\sigma$ oft als die halbe Breite des Intervalls angenommen, das die mittleren zwei Drittel der Werte in einer Stichprobe umfasst, siehe Quantil. ⓘ

Normalverteilung (a) und kontaminierte Normalverteilung (b) ⓘ

Diese Praxis ist aber nicht empfehlenswert, denn sie kann zu sehr großen Fehlern führen. Zum Beispiel ist die Verteilung $P=0{,}9\cdot {\mathcal {N}}(\mu ,\sigma ^{2})+0{,}1\cdot {\mathcal {N}}(\mu ,(10\sigma )^{2})$ optisch kaum von der Normalverteilung zu unterscheiden (siehe Bild), aber bei ihr liegen im Intervall $\mu \pm {\overline {\sigma }}$ 92,5 % der Werte, wobei ${\overline {\sigma }}$ die Standardabweichung von $P$ bezeichnet. Solche kontaminierten Normalverteilungen sind in der Praxis sehr häufig; das genannte Beispiel beschreibt die Situation, wenn zehn Präzisionsmaschinen etwas herstellen, aber eine davon schlecht justiert ist und mit zehnmal so hohen Abweichungen wie die anderen neun produziert. ⓘ

Werte außerhalb der zwei- bis dreifachen Standardabweichung werden oft als Ausreißer behandelt. Ausreißer können ein Hinweis auf grobe Fehler der Datenerfassung sein. Es kann den Daten aber auch eine stark schiefe Verteilung zugrunde liegen. Andererseits liegt bei einer Normalverteilung im Durchschnitt ca. jeder 20. Messwert außerhalb der zweifachen Standardabweichung und ca. jeder 500. Messwert außerhalb der dreifachen Standardabweichung. ⓘ

Da der Anteil der Werte außerhalb der sechsfachen Standardabweichung mit ca. 2 ppb verschwindend klein wird, gilt ein solches Intervall als gutes Maß für eine nahezu vollständige Abdeckung aller Werte. Das wird im Qualitätsmanagement durch die Methode Six Sigma genutzt, indem die Prozessanforderungen Toleranzgrenzen von mindestens $6\sigma$ vorschreiben. Allerdings geht man dort von einer langfristigen Erwartungswertverschiebung um 1,5 Standardabweichungen aus, sodass der zulässige Fehleranteil auf 3,4 ppm steigt. Dieser Fehleranteil entspricht einer viereinhalbfachen Standardabweichung ( $4{,}5\ \sigma$ ). Ein weiteres Problem der $6\sigma$ -Methode ist, dass die $6\sigma$ -Punkte praktisch nicht bestimmbar sind. Bei unbekannter Verteilung (d. h., wenn es sich nicht ganz sicher um eine Normalverteilung handelt) grenzen zum Beispiel die Extremwerte von 1.400.000.000 Messungen ein 75-%-Konfidenzintervall für die $6\sigma$ -Punkte ein. ⓘ

Abhängigkeit der Wahrscheinlichkeit (Prozent innerhalb) von der Größe des Streuintervalls

p(z)

ⓘ

Abhängigkeit der Streuintervallgrenze von der eingeschlossenen Wahrscheinlichkeit

z(p)

ⓘ

Erwartete Anteile der Werte einer normalverteilten Zufallsvariablen innerhalb bzw. außerhalb der Streuintervalle $\left(\mu -z\sigma ,\mu +z\sigma \right)$ ⓘ
$z\sigma$	Prozent innerhalb	Prozent außerhalb	ppb außerhalb	Bruchteil außerhalb
0,674490 $\sigma$	50 %	50 %	500.000.000	1 / 2
0,994458 $\sigma$	68 %	32 %	320.000.000	1 / 3,125
1 $\sigma$	68,268 9492 %	31,731 0508 %	317.310.508	1 / 3,151 4872
1,281552 $\sigma$	80 %	20 %	200.000.000	1 / 5
1,644854 $\sigma$	90 %	10 %	100.000.000	1 / 10
1,959964 $\sigma$	95 %	5 %	50.000.000	1 / 20
2 $\sigma$	95,449 9736 %	4,550 0264 %	45.500.264	1 / 21,977 895
2,354820 $\sigma$	98,146 8322 %	1,853 1678 %	18.531.678	1 / 54
2,575829 $\sigma$	99 %	1 %	10.000.000	1 / 100
3 $\sigma$	99,730 0204 %	0,269 9796 %	2.699.796	1 / 370,398
3,290527 $\sigma$	99,9 %	0,1 %	1.000.000	1 / 1.000
3,890592 $\sigma$	99,99 %	0,01 %	100.000	1 / 10.000
4 $\sigma$	99,993 666 %	0,006 334 %	63.340	1 / 15.787
4,417173 $\sigma$	99,999 %	0,001 %	10.000	1 / 100.000
4,891638 $\sigma$	99,9999 %	0,0001 %	1.000	1 / 1.000.000
5 $\sigma$	99,999 942 6697 %	0,000 057 3303 %	573,3303	1 / 1.744.278
5,326724 $\sigma$	99,999 99 %	0,000 01 %	100	1 / 10.000.000
5,730729 $\sigma$	99,999 999 %	0,000 001 %	10	1 / 100.000.000
6 $\sigma$	99,999 999 8027 %	0,000 000 1973 %	1,973	1 / 506.797.346
6,109410 $\sigma$	99,999 9999 %	0,000 0001 %	1	1 / 1.000.000.000
6,466951 $\sigma$	99,999 999 99 %	0,000 000 01 %	0,1	1 / 10.000.000.000
6,806502 $\sigma$	99,999 999 999 %	0,000 000 001 %	0,01	1 / 100.000.000.000
7 $\sigma$	99,999 999 999 7440 %	0,000 000 000 256 %	0,002 56	1 / 390.682.215.445

Die Wahrscheinlichkeiten $p$ für bestimmte Streuintervalle $[\mu -z\sigma ;\mu +z\sigma ]$ können berechnet werden als ⓘ

p=2\Phi (z)-1

, ⓘ

wobei $\Phi (z)={\frac {1}{\sqrt {2\pi }}}\int _{-\infty }^{z}e^{-{\frac {x^{2}}{2}}}\,\mathrm {d} x$ die Verteilungsfunktion der Standardnormalverteilung ist. ⓘ

Umgekehrt können für gegebenes $p\in (0,1)$ durch ⓘ

z=\Phi ^{-1}\left({\frac {p+1}{2}}\right)

ⓘ

die Grenzen des zugehörigen Streuintervalls $[\mu -z\sigma ;\mu +z\sigma ]$ mit Wahrscheinlichkeit $p$ berechnet werden. ⓘ

Genauer gesagt liegt die Wahrscheinlichkeit, dass eine Normalabweichung im Bereich zwischen $\mu -n\sigma$ und $\mu +n\sigma$ ist gegeben durch

F(\mu +n\sigma )-F(\mu -n\sigma )=\Phi (n)-\Phi (-n)=\operatorname {erf} \left({\frac {n}{\sqrt {2}}}\right).

Auf 12 signifikante Stellen genau sind die Werte für $n=1,2,\ldots ,6$ sind:

n

p=F(\mu +n\sigma )-F(\mu -n\sigma )

{\text{i.e. }}1-p

{\text{or }}1{\text{ in }}p

OEIS ⓘ

1

0.682689492137

0.317310507863

3	.15148718753

OEIS: A178647

2

0.954499736104

0.045500263896

21	.9778945080

OEIS: A110894

3

0.997300203937

0.002699796063

370	.398347345

OEIS: A270712

4

0.999936657516

0.000063342484

15787

.1927673

5

0.999999426697

0.000000573303

1744277

.89362

6

0.999999998027

0.000000001973

506797345

.897

Quantilsfunktion

Die Quantilsfunktion einer Verteilung ist die Umkehrung der kumulativen Verteilungsfunktion. Die Quantilsfunktion der Standardnormalverteilung wird als Probitfunktion bezeichnet und kann durch die inverse Fehlerfunktion ausgedrückt werden:

\Phi ^{-1}(p)={\sqrt {2}}\operatorname {erf} ^{-1}(2p-1),\quad p\in (0,1).

Für eine normale Zufallsvariable mit Mittelwert $\mu$ und Varianz $\sigma ^{2}$ ist die Quantilsfunktion

F^{-1}(p)=\mu +\sigma \Phi ^{-1}(p)=\mu +\sigma {\sqrt {2}}\operatorname {erf} ^{-1}(2p-1),\quad p\in (0,1).

Das Quantil $\Phi ^{-1}(p)$ der Standardnormalverteilung wird üblicherweise bezeichnet als $z_{p}$ . Diese Werte werden bei Hypothesentests, der Konstruktion von Konfidenzintervallen und Q-Q-Diagrammen verwendet. Eine normale Zufallsvariable $X$ größer ist als $\mu +z_{p}\sigma$ mit der Wahrscheinlichkeit $1-p$ , und liegt außerhalb des Intervalls $\mu \pm z_{p}\sigma$ mit der Wahrscheinlichkeit $2(1-p)$ . Insbesondere ist das Quantil $z_{0.975}$ beträgt 1,96; daher liegt eine normale Zufallsvariable nur in 5 % der Fälle außerhalb des Intervalls $\mu \pm 1.96\sigma$ nur in 5 % der Fälle. ⓘ

Die folgende Tabelle zeigt das Quantil $z_{p}$ so dass $X$ im Bereich $\mu \pm z_{p}\sigma$ mit einer bestimmten Wahrscheinlichkeit $p$ . Diese Werte sind nützlich, um Toleranzintervalle für Stichprobendurchschnitte und andere statistische Schätzer mit normaler (oder asymptotisch normaler) Verteilung zu bestimmen. Beachten Sie, dass die folgende Tabelle zeigt ${\sqrt {2}}\operatorname {erf} ^{-1}(p)=\Phi ^{-1}\left({\frac {p+1}{2}}\right)$ , nicht $\Phi ^{-1}(p)$ wie oben definiert. ⓘ

$p$	$z_{p}$	$p$	$z_{p}$ ⓘ
0.80	1.281551565545	0.999	3.290526731492
0.90	1.644853626951	0.9999	3.890591886413
0.95	1.959963984540	0.99999	4.417173413469
0.98	2.326347874041	0.999999	4.891638475699
0.99	2.575829303549	0.9999999	5.326723886384
0.995	2.807033768344	0.99999999	5.730728868236
0.998	3.090232306168	0.999999999	6.109410204869

Für kleine $p$ hat die Quantilsfunktion die nützliche asymptotische Erweiterung $\Phi ^{-1}(p)=-{\sqrt {\ln {\frac {1}{p^{2}}}-\ln \ln {\frac {1}{p^{2}}}-\ln(2\pi )}}+{\mathcal {o}}(1).$ ⓘ

Eigenschaften

Die Normalverteilung ist die einzige Verteilung, deren Kumulanten jenseits der ersten beiden (d. h. abgesehen von Mittelwert und Varianz) Null sind. Sie ist auch die kontinuierliche Verteilung mit der maximalen Entropie für einen bestimmten Mittelwert und eine bestimmte Varianz. Geary hat unter der Annahme, dass Mittelwert und Varianz endlich sind, gezeigt, dass die Normalverteilung die einzige Verteilung ist, bei der Mittelwert und Varianz, die aus einer Reihe unabhängiger Ziehungen berechnet werden, unabhängig voneinander sind. ⓘ

Die Normalverteilung ist eine Unterklasse der elliptischen Verteilungen. Die Normalverteilung ist symmetrisch um ihren Mittelwert und ist über die gesamte reelle Linie ungleich Null. Daher ist sie möglicherweise kein geeignetes Modell für Variablen, die von Natur aus positiv oder stark schief sind, wie z. B. das Gewicht einer Person oder der Preis einer Aktie. Solche Variablen können besser durch andere Verteilungen beschrieben werden, wie z. B. die Log-Normal-Verteilung oder die Pareto-Verteilung. ⓘ

Der Wert der Normalverteilung ist praktisch Null, wenn der Wert $x$ mehr als ein paar Standardabweichungen vom Mittelwert entfernt liegt (z. B. deckt eine Streuung von drei Standardabweichungen alle bis auf 0,27 % der Gesamtverteilung ab). Daher ist es möglicherweise kein geeignetes Modell, wenn man einen signifikanten Anteil an Ausreißern erwartet - Werte, die viele Standardabweichungen vom Mittelwert entfernt liegen - und die kleinsten Quadrate und andere statistische Schlussfolgerungsmethoden, die für normalverteilte Variablen optimal sind, werden oft sehr unzuverlässig, wenn sie auf solche Daten angewendet werden. In diesen Fällen sollte eine Verteilung mit stärkerem Schwanz angenommen und die entsprechenden robusten statistischen Schlussfolgerungsmethoden angewandt werden. ⓘ

Die Gauß-Verteilung gehört zur Familie der stabilen Verteilungen, die die Attraktoren von Summen unabhängiger, identisch verteilter Verteilungen sind, unabhängig davon, ob der Mittelwert oder die Varianz endlich ist oder nicht. Mit Ausnahme der Gauß-Verteilung, die ein Grenzfall ist, haben alle stabilen Verteilungen starke Schwänze und eine unendliche Varianz. Die Gauß-Verteilung ist eine der wenigen stabilen Verteilungen, deren Wahrscheinlichkeitsdichtefunktionen analytisch ausgedrückt werden können; die anderen sind die Cauchy-Verteilung und die Lévy-Verteilung. ⓘ

Symmetrien und Ableitungen

Die Normalverteilung mit der Dichte $f(x)$ (Mittelwert $\mu$ und Standardabweichung $\sigma >0$ ) hat die folgenden Eigenschaften:

Sie ist symmetrisch um den Punkt $x=\mu ,$ der gleichzeitig der Modus, der Median und der Mittelwert der Verteilung ist.
Sie ist unimodal: ihre erste Ableitung ist positiv für $x<\mu ,$ negativ für $x>\mu ,$ und Null nur bei $x=\mu .$
Die Fläche, die von der Kurve und der $x$ -Achse begrenzt wird, ist eins (d. h. gleich eins).
Ihre erste Ableitung ist $f^{\prime }(x)=-{\frac {x-\mu }{\sigma ^{2}}}f(x).$
Die Dichte hat zwei Wendepunkte (an denen die zweite Ableitung von $f$ Null ist und das Vorzeichen wechselt), die eine Standardabweichung vom Mittelwert entfernt liegen, nämlich bei $x=\mu -\sigma$ und $x=\mu +\sigma .$
Die Dichte ist log-konkav.
Die Dichte ist unendlich differenzierbar, und zwar superglatt der Ordnung 2. ⓘ

Außerdem ist die Dichte $\varphi$ der Standardnormalverteilung (d. h. $\mu =0$ und $\sigma =1$ ) auch die folgenden Eigenschaften:

Ihre erste Ableitung ist $\varphi ^{\prime }(x)=-x\varphi (x).$
Ihre zweite Ableitung ist $\varphi ^{\prime \prime }(x)=(x^{2}-1)\varphi (x)$
Allgemeiner ausgedrückt, ist ihre n-te Ableitung $\varphi ^{(n)}(x)=(-1)^{n}\operatorname {He} _{n}(x)\varphi (x),$ wobei $\operatorname {He} _{n}(x)$ ist das $n$ -te (probabilistische) Hermite-Polynom.
Die Wahrscheinlichkeit, dass eine normalverteilte Variable $X$ mit bekannter $\mu$ und $\sigma$ in einer bestimmten Menge liegt, lässt sich berechnen, indem man die Tatsache nutzt, dass der Bruchteil $Z=(X-\mu )/\sigma$ eine Standardnormalverteilung hat. ⓘ

Momente

Die einfachen und absoluten Momente einer Variablen $X$ sind die Erwartungswerte von $X^{p}$ und $|X|^{p}$ beziehungsweise. Wenn der erwartete Wert $\mu$ von $X$ Null ist, werden diese Parameter als zentrale Momente bezeichnet; andernfalls werden diese Parameter als nicht-zentrale Momente bezeichnet. Normalerweise sind wir nur an Momenten mit ganzzahliger Ordnung interessiert $\ p$ . ⓘ

Wenn $X$ eine Normalverteilung hat, existieren die nicht-zentralen Momente und sind endlich für jeden $p$ deren Realteil größer als -1 ist. Für jede nichtnegative ganze Zahl $p$ sind die einfachen zentralen Momente:

\operatorname {E} \left[(X-\mu )^{p}\right]={\begin{cases}0&{\text{if }}p{\text{ is odd,}}\\\sigma ^{p}(p-1)!!&{\text{if }}p{\text{ is even.}}\end{cases}}

Hier $n!!$ die doppelte Fakultät, d. h. das Produkt aller Zahlen von $n$ bis 1, die die gleiche Parität haben wie $n.$ ⓘ

Die zentralen absoluten Momente stimmen für alle geraden Ordnungen mit den einfachen Momenten überein, sind aber für ungerade Ordnungen ungleich Null. Für jede nichtnegative ganze Zahl $p,$ ⓘ

{\begin{aligned}\operatorname {E} \left[|X-\mu |^{p}\right]&=\sigma ^{p}(p-1)!!\cdot {\begin{cases}{\sqrt {\frac {2}{\pi }}}&{\text{if }}p{\text{ is odd}}\\1&{\text{if }}p{\text{ is even}}\end{cases}}\\&=\sigma ^{p}\cdot {\frac {2^{p/2}\Gamma \left({\frac {p+1}{2}}\right)}{\sqrt {\pi }}}.\end{aligned}}

Die letzte Formel gilt auch für jede nicht-ganzzahlige Zahl $p>-1.$ Wenn der Mittelwert $\mu \neq 0,$ können die einfachen und absoluten Momente als konfluente hypergeometrische Funktionen ausgedrückt werden ${}_{1}F_{1}$ und $U.$ ⓘ

{\begin{aligned}\operatorname {E} \left[X^{p}\right]&=\sigma ^{p}\cdot (-i{\sqrt {2}})^{p}U\left(-{\frac {p}{2}},{\frac {1}{2}},-{\frac {1}{2}}\left({\frac {\mu }{\sigma }}\right)^{2}\right),\\\operatorname {E} \left[|X|^{p}\right]&=\sigma ^{p}\cdot 2^{p/2}{\frac {\Gamma \left({\frac {1+p}{2}}\right)}{\sqrt {\pi }}}{}_{1}F_{1}\left(-{\frac {p}{2}},{\frac {1}{2}},-{\frac {1}{2}}\left({\frac {\mu }{\sigma }}\right)^{2}\right).\end{aligned}}

ⓘ

Diese Ausdrücke bleiben auch dann gültig, wenn $p$ nicht eine ganze Zahl ist. Siehe auch verallgemeinerte Hermite-Polynome. ⓘ

Ordnung	Nicht-zentrales Moment	Zentrales Moment ⓘ
1	$\mu$	$0$
2	$\mu ^{2}+\sigma ^{2}$	$\sigma ^{2}$
3	$\mu ^{3}+3\mu \sigma ^{2}$	$0$
4	$\mu ^{4}+6\mu ^{2}\sigma ^{2}+3\sigma ^{4}$	$3\sigma ^{4}$
5	$\mu ^{5}+10\mu ^{3}\sigma ^{2}+15\mu \sigma ^{4}$	$0$
6	$\mu ^{6}+15\mu ^{4}\sigma ^{2}+45\mu ^{2}\sigma ^{4}+15\sigma ^{6}$	$15\sigma ^{6}$
7	$\mu ^{7}+21\mu ^{5}\sigma ^{2}+105\mu ^{3}\sigma ^{4}+105\mu \sigma ^{6}$	$0$
8	$\mu ^{8}+28\mu ^{6}\sigma ^{2}+210\mu ^{4}\sigma ^{4}+420\mu ^{2}\sigma ^{6}+105\sigma ^{8}$	$105\sigma ^{8}$

Der Erwartungswert von $X$ bedingt durch das Ereignis, dass $X$ in einem Intervall liegt $[a,b]$ ist gegeben durch

\operatorname {E} \left[X\mid a<X<b\right]=\mu -\sigma ^{2}{\frac {f(b)-f(a)}{F(b)-F(a)}}

wobei $f$ und $F$ sind die Dichte bzw. die kumulative Verteilungsfunktion von $X$ . Für $b=\infty$ ist dies als das inverse Mills-Verhältnis bekannt. Beachten Sie, dass oben die Dichte $f$ von $X$ anstelle der Standardnormaldichte wie im inversen Mills-Verhältnis verwendet wird, so dass wir hier $\sigma ^{2}$ anstelle von $\sigma$ . ⓘ

Fouriertransformation und charakteristische Funktion

Die Fourier-Transformierte einer Normaldichte $f$ mit Mittelwert $\mu$ und Standardabweichung $\sigma$ ist ⓘ

{\hat {f}}(t)=\int _{-\infty }^{\infty }f(x)e^{-itx}\,dx=e^{-i\mu t}e^{-{\frac {1}{2}}(\sigma t)^{2}}

ⓘ

wobei $i$ ist die imaginäre Einheit. Wenn der Mittelwert $\mu =0$ ist der erste Faktor 1, und die Fourier-Transformierte ist, abgesehen von einem konstanten Faktor, eine Normaldichte im Frequenzbereich, mit Mittelwert 0 und Standardabweichung $1/\sigma$ . Insbesondere ist die Standardnormalverteilung $\varphi$ ist eine Eigenfunktion der Fourier-Transformation. ⓘ

In der Wahrscheinlichkeitstheorie ist die Fourier-Transformation der Wahrscheinlichkeitsverteilung einer reellwertigen Zufallsvariablen $X$ eng verbunden mit der charakteristischen Funktion $\varphi _{X}(t)$ dieser Variablen, die definiert ist als der Erwartungswert von $e^{itX}$ als eine Funktion der reellen Variablen $t$ (dem Frequenzparameter der Fourier-Transformation). Diese Definition kann analytisch auf eine komplexwertige Variable erweitert werden $t$ . Die Beziehung zwischen beiden ist:

\varphi _{X}(t)={\hat {f}}(-t)

ⓘ

Moment- und Kumulanten-Erzeugungsfunktionen

Die momenterzeugende Funktion einer reellen Zufallsvariablen $X$ ist der Erwartungswert von $e^{tX}$ in Abhängigkeit von dem reellen Parameter $t$ . Für eine Normalverteilung mit der Dichte $f$ , Mittelwert $\mu$ und Abweichung $\sigma$ existiert die momenterzeugende Funktion und ist gleich ⓘ

M(t)=\operatorname {E} [e^{tX}]={\hat {f}}(it)=e^{\mu t}e^{{\tfrac {1}{2}}\sigma ^{2}t^{2}}

ⓘ

Die kumulierende Erzeugungsfunktion ist der Logarithmus der momenterzeugenden Funktion, nämlich ⓘ

g(t)=\ln M(t)=\mu t+{\tfrac {1}{2}}\sigma ^{2}t^{2}

ⓘ

Da es sich um ein quadratisches Polynom in $t$ ist, sind nur die ersten beiden Kumulanten ungleich Null, nämlich der Mittelwert $\mu$ und die Varianz $\sigma ^{2}$ . ⓘ

Stein-Operator und Klasse

Im Rahmen der Steinschen Methode sind der Stein-Operator und die Klasse einer Zufallsvariablen $X\sim {\mathcal {N}}(\mu ,\sigma ^{2})$ sind ${\mathcal {A}}f(x)=\sigma ^{2}f'(x)-(x-\mu )f(x)$ und ${\mathcal {F}}$ die Klasse aller absolut stetigen Funktionen $f:\mathbb {R} \to \mathbb {R} {\mbox{ such that }}\mathbb {E} [|f'(X)|]<\infty$ . ⓘ

Null-Varianz-Grenze

Im Grenzwert, wenn $\sigma$ gegen Null tendiert, tendiert die Wahrscheinlichkeitsdichte $f(x)$ schließlich gegen Null tendiert bei jedem $x\neq \mu$ , wächst aber unbegrenzt, wenn $x=\mu$ Daher kann die Normalverteilung nicht als gewöhnliche Funktion definiert werden, wenn $\sigma =0$ . ⓘ

Man kann jedoch die Normalverteilung mit der Varianz Null als verallgemeinerte Funktion definieren, und zwar als Diracs "Deltafunktion" $\delta$ übersetzt durch den Mittelwert $\mu$ , d.h. $f(x)=\delta (x-\mu ).$ Ihre CDF ist dann die mit dem Mittelwert übersetzte Heaviside-Stufenfunktion $\mu$ nämlich

F(x)={\begin{cases}0&{\text{if }}x<\mu \\1&{\text{if }}x\geq \mu \end{cases}}

ⓘ

Maximale Entropie

Von allen Wahrscheinlichkeitsverteilungen über den reellen Zahlen mit einem bestimmten Mittelwert $\mu$ und Varianz $\sigma ^{2}$ ist die Normalverteilung $N(\mu ,\sigma ^{2})$ diejenige mit maximaler Entropie. Wenn $X$ eine stetige Zufallsvariable mit der Wahrscheinlichkeitsdichte $f(x)$ ist, dann ist die Entropie von $X$ ist definiert als

H(X)=-\int _{-\infty }^{\infty }f(x)\log f(x)\,dx

ⓘ

wobei $f(x)\log f(x)$ ist immer dann gleich Null, wenn $f(x)=0$ . Dieses Funktional kann unter der Voraussetzung, dass die Verteilung ordnungsgemäß normalisiert ist und eine bestimmte Varianz aufweist, mit Hilfe der Variationsrechnung maximiert werden. Es wird eine Funktion mit zwei Lagrange-Multiplikatoren definiert:

L=\int _{-\infty }^{\infty }f(x)\ln(f(x))\,dx-\lambda _{0}\left(1-\int _{-\infty }^{\infty }f(x)\,dx\right)-\lambda \left(\sigma ^{2}-\int _{-\infty }^{\infty }f(x)(x-\mu )^{2}\,dx\right)

ⓘ

wobei $f(x)$ wird vorerst als eine Dichtefunktion mit Mittelwert $\mu$ und Standardabweichung $\sigma$ . ⓘ

Bei maximaler Entropie ist eine kleine Variation $\delta f(x)$ um $f(x)$ eine Abweichung $\delta L$ um $L$ die gleich 0 ist:

0=\delta L=\int _{-\infty }^{\infty }\delta f(x)\left(\ln(f(x))+1+\lambda _{0}+\lambda (x-\mu )^{2}\right)\,dx

ⓘ

Da dies für jede kleine $\delta f(x)$ gelten muss, muss der Term in Klammern Null sein, und die Lösung für $f(x)$ ergibt:

f(x)=e^{-\lambda _{0}-1-\lambda (x-\mu )^{2}}

ⓘ

Die Anwendung der Zwangsgleichungen zur Lösung für $\lambda _{0}$ und $\lambda$ erhält man die Dichte der Normalverteilung:

f(x,\mu ,\sigma )={\frac {1}{\sqrt {2\pi \sigma ^{2}}}}e^{-{\frac {(x-\mu )^{2}}{2\sigma ^{2}}}}

Die Entropie einer Normalverteilung ist gleich

H(X)={\tfrac {1}{2}}(1+\log(2\sigma ^{2}\pi ))

ⓘ

Andere Eigenschaften

Wenn die charakteristische Funktion $\phi _{X}$ einer Zufallsvariablen $X$ von der Form $\phi _{X}(t)=\exp ^{Q(t)}$ , wobei $Q(t)$ ein Polynom ist, dann besagt das Marcinkiewicz-Theorem (benannt nach Józef Marcinkiewicz), dass $Q$ höchstens ein quadratisches Polynom sein kann, und daher $X$ eine normale Zufallsvariable ist. Die Folge dieses Ergebnisses ist, dass die Normalverteilung die einzige Verteilung mit einer endlichen Anzahl (zwei) von Kumulanten ungleich Null ist.
Wenn $X$ und $Y$ sind gemeinsam normal und unkorreliert, dann sind sie unabhängig. Die Bedingung, dass $X$ und $Y$ gemeinsam normal sind, ist wesentlich; ohne sie gilt die Eigenschaft nicht.[Beweis] Für nicht-normale Zufallsvariablen impliziert Unkorreliertheit nicht Unabhängigkeit.
Die Kullback-Leibler-Divergenz einer Normalverteilung $X_{1}\sim N(\mu _{1},\sigma _{1}^{2})$ von einer anderen $X_{2}\sim N(\mu _{2},\sigma _{2}^{2})$ ist gegeben durch: $D_{\mathrm {KL} }(X_{1}\,\|\,X_{2})={\frac {(\mu _{1}-\mu _{2})^{2}}{2\sigma _{2}^{2}}}+{\frac {1}{2}}\left({\frac {\sigma _{1}^{2}}{\sigma _{2}^{2}}}-1-\ln {\frac {\sigma _{1}^{2}}{\sigma _{2}^{2}}}\right)$ Der Hellinger-Abstand zwischen gleichen Verteilungen ist gleich $H^{2}(X_{1},X_{2})=1-{\sqrt {\frac {2\sigma _{1}\sigma _{2}}{\sigma _{1}^{2}+\sigma _{2}^{2}}}}e^{-{\frac {1}{4}}{\frac {(\mu _{1}-\mu _{2})^{2}}{\sigma _{1}^{2}+\sigma _{2}^{2}}}}$
Die Fisher-Informationsmatrix für eine Normalverteilung ist diagonal und hat die Form ${\mathcal {I}}={\begin{pmatrix}{\frac {1}{\sigma ^{2}}}&0\\0&{\frac {1}{2\sigma ^{4}}}\end{pmatrix}}$
Die konjugierte Priorität des Mittelwerts einer Normalverteilung ist eine andere Normalverteilung. Genauer gesagt, wenn $x_{1},\ldots ,x_{n}$ iid sind $\sim N(\mu ,\sigma ^{2})$ und der Prior ist $\mu \sim N(\mu _{0},\sigma _{0}^{2})$ ist, dann ist die Posteriorverteilung für den Schätzer von $\mu$ sein $\mu \mid x_{1},\ldots ,x_{n}\sim {\mathcal {N}}\left({\frac {{\frac {\sigma ^{2}}{n}}\mu _{0}+\sigma _{0}^{2}{\bar {x}}}{{\frac {\sigma ^{2}}{n}}+\sigma _{0}^{2}}},\left({\frac {n}{\sigma ^{2}}}+{\frac {1}{\sigma _{0}^{2}}}\right)^{-1}\right)$
Die Familie der Normalverteilungen bildet nicht nur eine Exponentialfamilie (EF), sondern sogar eine natürliche Exponentialfamilie (NEF) mit quadratischer Varianzfunktion (NEF-QVF). Viele Eigenschaften von Normalverteilungen lassen sich auf Eigenschaften von NEF-QVF-Verteilungen, NEF-Verteilungen oder EF-Verteilungen im Allgemeinen verallgemeinern. NEF-QVF-Verteilungen umfassen 6 Familien, darunter Poisson-, Gamma-, Binomial- und negative Binomialverteilungen, während viele der in der Wahrscheinlichkeitsrechnung und Statistik untersuchten Familien NEF- oder EF-Verteilungen sind.
In der Informationsgeometrie bildet die Familie der Normalverteilungen eine statistische Mannigfaltigkeit mit konstanter Krümmung $-1$ . Die gleiche Familie ist flach in Bezug auf die (±1)-Verbindungen $\nabla ^{(e)}$ und $\nabla ^{(m)}$ . ⓘ

Symmetrie

Der Graph der Wahrscheinlichkeitsdichte $f\colon \ \mathbb {R} \to \mathbb {R}$ ist eine Gaußsche Glockenkurve, deren Höhe und Breite von $\sigma$ abhängt. Sie ist achsensymmetrisch zur Geraden mit der Gleichung $x=\mu$ und somit eine symmetrische Wahrscheinlichkeitsverteilung um ihren Erwartungswert. Der Graph der Verteilungsfunktion $F$ ist punktsymmetrisch zum Punkt $(\mu ;0{,}5).$ Für $\mu =0$ gilt insbesondere $\varphi (-x)=\varphi (x)$ und $\Phi (-x)=1-\Phi (x)$ für alle $x\in \mathbb {R}$ . ⓘ

Normierung

Dichte einer zentrierten Normalverteilung

\delta _{a}(x)={\tfrac {1}{{\sqrt {\pi }}a}}\cdot e^{-{\frac {x^{2}}{a^{2}}}}

.
Für

a\to 0

wird die Funktion immer höher und schmaler, der Flächeninhalt bleibt jedoch unverändert 1. ⓘ

Wichtig ist, dass die gesamte Fläche unter der Kurve gleich $1$ , also gleich der Wahrscheinlichkeit des sicheren Ereignisses, ist. Somit folgt, dass, wenn zwei Gaußsche Glockenkurven dasselbe $\mu$ , aber unterschiedliches $\sigma$ haben, die Kurve mit dem größeren $\sigma$ breiter und niedriger ist (da ja beide zugehörigen Flächen jeweils den Wert $1$ haben und nur die Standardabweichung größer ist). Zwei Glockenkurven mit gleichem $\sigma ,$ aber unterschiedlichem $\mu$ haben kongruente Graphen, die um die Differenz der $\mu$ -Werte parallel zur $x$ -Achse gegeneinander verschoben sind. ⓘ

Jede Normalverteilung ist tatsächlich normiert, denn mit Hilfe der linearen Substitution $z={\tfrac {x-\mu }{\sigma }}$ erhalten wir

\int _{-\infty }^{\infty }{\frac {1}{\sigma {\sqrt {2\pi }}}}e^{-{\frac {1}{2}}\left({\frac {x-\mu }{\sigma }}\right)^{2}}\mathrm {d} x={\frac {1}{\sqrt {2\pi }}}\int _{-\infty }^{\infty }e^{-{\frac {1}{2}}z^{2}}\mathrm {d} z=1

. ⓘ

Für die Normiertheit des letzteren Integrals siehe Fehlerintegral. ⓘ

Berechnung

Da sich $\Phi (z)$ nicht auf eine elementare Stammfunktion zurückführen lässt, wurde für die Berechnung früher meist auf Tabellen zurückgegriffen (siehe Standardnormalverteilungstabelle). Heutzutage sind in statistischen Programmiersprachen wie zum Beispiel R Funktionen verfügbar, die auch die Transformation auf beliebige $\mu$ und $\sigma$ beherrschen. ⓘ

Erwartungswert

Der Erwartungswert der Standardnormalverteilung ist $0$ . Es sei $X\sim {\mathcal {N}}\left(0,1\right)$ , so gilt ⓘ

\operatorname {E} (X)={\frac {1}{\sqrt {2\pi }}}\int \limits _{-\infty }^{+\infty }x\ e^{-{\frac {1}{2}}x^{2}}\mathrm {d} x=0,

ⓘ

da der Integrand integrierbar und punktsymmetrisch ist. ⓘ

Ist nun $Y\sim {\mathcal {N}}\left(\mu ,\sigma ^{2}\right)$ , so gilt $X=(Y-\mu )/\sigma$ ist standardnormalverteilt, und somit ⓘ

\operatorname {E} (Y)=\operatorname {E} (\sigma X+\mu )=\sigma \underbrace {\operatorname {E} (X)} _{=0}+\mu =\mu .

ⓘ

Standardabweichung der Normalverteilung

Eindimensionale Normalverteilungen werden durch Angabe von Erwartungswert $\mu$ und Varianz $\sigma ^{2}$ vollständig beschrieben. Ist also $X$ eine $\mu$ - $\sigma ^{2}$ -verteilte Zufallsvariable – in Symbolen $X\sim {\mathcal {N}}(\mu ,\sigma ^{2})$ –, so ist ihre Standardabweichung einfach $\sigma _{X}={\sqrt {\sigma ^{2}}}=\sigma$ . ⓘ

Ein Beispiel (mit Schwankungsbreite)

Die Körpergröße des Menschen ist näherungsweise normalverteilt. Bei einer Stichprobe von 1.284 Mädchen und 1.063 Jungen zwischen 14 und 18 Jahren wurde bei den Mädchen eine durchschnittliche Körpergröße von 166,3 cm (Standardabweichung 6,39 cm) und bei den Jungen eine durchschnittliche Körpergröße von 176,8 cm (Standardabweichung 7,46 cm) gemessen. ⓘ

Demnach lässt obige Schwankungsbreite erwarten, dass 68,3 % der Mädchen eine Körpergröße im Bereich 166,3 cm ± 6,39 cm und 95,4 % im Bereich 166,3 cm ± 12,8 cm haben,

16 % [≈ (100 % − 68,3 %)/2] der Mädchen kleiner als 160 cm (und 16 % entsprechend größer als 173 cm) sind und
2,5 % [≈ (100 % − 95,4 %)/2] der Mädchen kleiner als 154 cm (und 2,5 % entsprechend größer als 179 cm) sind. ⓘ

Für die Jungen lässt sich erwarten, dass 68 % eine Körpergröße im Bereich 176,8 cm ± 7,46 cm und 95 % im Bereich 176,8 cm ± 14,92 cm haben,

16 % der Jungen kleiner als 169 cm (und 16 % größer als 184 cm) und
2,5 % der Jungen kleiner als 162 cm (und 2,5 % größer als 192 cm) sind. ⓘ

Variationskoeffizient

Aus Erwartungswert $\mu$ und Standardabweichung $\sigma$ der ${\mathcal {N}}(\mu ,\sigma ^{2})$ -Verteilung erhält man unmittelbar den Variationskoeffizienten

\operatorname {VarK} ={\frac {\sigma }{\mu }}.

ⓘ

Schiefe

Die Schiefe besitzt unabhängig von den Parametern $\mu$ und $\sigma$ immer den Wert $0$ . ⓘ

Wölbung

Die Wölbung ist ebenfalls von $\mu$ und $\sigma$ unabhängig und ist gleich $3$ . Um die Wölbungen anderer Verteilungen besser einschätzen zu können, werden sie oft mit der Wölbung der Normalverteilung verglichen. Dabei wird die Wölbung der Normalverteilung auf $0$ normiert (Subtraktion von 3); diese Größe wird als Exzess bezeichnet. ⓘ

Charakteristische Funktion

Die charakteristische Funktion für eine standardnormalverteilte Zufallsvariable $Z\sim {\mathcal {N}}(0,1)$ ist

\varphi _{Z}(t)=e^{-{\frac {1}{2}}t^{2}}

. ⓘ

Für eine Zufallsvariable $X\sim {\mathcal {N}}(\mu ,\sigma ^{2})$ erhält man daraus mit $X=\sigma Z+\mu$ :

\varphi _{X}(t)=\operatorname {E} (e^{it(\sigma Z+\mu )})=\operatorname {E} (e^{it\sigma Z}e^{it\mu })=e^{it\mu }\operatorname {E} (e^{it\sigma Z})=e^{it\mu }\varphi _{Z}(\sigma t)=\exp \left(it\mu -{\tfrac {1}{2}}\sigma ^{2}t^{2}\right)

. ⓘ

Statistische Inferenz

Schätzung von Parametern

Häufig sind die Parameter der Normalverteilung nicht bekannt, so dass man sie schätzen muss. Das heißt, wenn man eine Stichprobe $(x_{1},\ldots ,x_{n})$ aus einer Normal $N(\mu ,\sigma ^{2})$ Grundgesamtheit möchte man die Näherungswerte der Parameter erfahren $\mu$ und $\sigma ^{2}$ . Der Standardansatz für dieses Problem ist die Maximum-Likelihood-Methode, die eine Maximierung der Log-Likelihood-Funktion erfordert:

\ln {\mathcal {L}}(\mu ,\sigma ^{2})=\sum _{i=1}^{n}\ln f(x_{i}\mid \mu ,\sigma ^{2})=-{\frac {n}{2}}\ln(2\pi )-{\frac {n}{2}}\ln \sigma ^{2}-{\frac {1}{2\sigma ^{2}}}\sum _{i=1}^{n}(x_{i}-\mu )^{2}.

Man nimmt die Ableitungen nach $\mu$ und $\sigma ^{2}$ und das Lösen des sich daraus ergebenden Systems von Bedingungen erster Ordnung ergibt die Maximum-Likelihood-Schätzungen:

{\hat {\mu }}={\overline {x}}\equiv {\frac {1}{n}}\sum _{i=1}^{n}x_{i},\qquad {\hat {\sigma }}^{2}={\frac {1}{n}}\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}.

ⓘ

Stichprobenmittelwert

Schätzer $\textstyle {\hat {\mu }}$ wird als Stichprobenmittelwert bezeichnet, da er das arithmetische Mittel aller Beobachtungen ist. Die Statistik $\textstyle {\overline {x}}$ ist vollständig und ausreichend für $\mu$ und daher nach dem Lehmann-Scheffé-Theorem, $\textstyle {\hat {\mu }}$ der einheitlich minimale unvoreingenommene Varianzschätzer (UMVU) ist. In endlichen Stichproben ist sie normalverteilt:

{\hat {\mu }}\sim {\mathcal {N}}(\mu ,\sigma ^{2}/n).

Die Varianz dieses Schätzers ist gleich dem μμ-Element der inversen Fisher-Informationsmatrix $\textstyle {\mathcal {I}}^{-1}$ . Dies impliziert, dass der Schätzer für endliche Stichproben effizient ist. Von praktischer Bedeutung ist die Tatsache, dass der Standardfehler von $\textstyle {\hat {\mu }}$ proportional ist zu $\textstyle 1/{\sqrt {n}}$ ist, d. h. wenn man den Standardfehler um den Faktor 10 verringern will, muss man die Anzahl der Punkte in der Stichprobe um den Faktor 100 erhöhen. Diese Tatsache wird häufig bei der Bestimmung des Stichprobenumfangs für Meinungsumfragen und der Anzahl der Versuche bei Monte-Carlo-Simulationen verwendet. ⓘ

Vom Standpunkt der asymptotischen Theorie aus gesehen, $\textstyle {\hat {\mu }}$ konsistent, d. h. es konvergiert mit der Wahrscheinlichkeit zu $\mu$ als $n\rightarrow \infty$ . Der Schätzer ist auch asymptotisch normal, was eine einfache Folge der Tatsache ist, dass er bei endlichen Stichproben normal ist:

{\sqrt {n}}({\hat {\mu }}-\mu )\,{\xrightarrow {d}}\,{\mathcal {N}}(0,\sigma ^{2}).

ⓘ

Varianz der Stichprobe

Der Schätzer $\textstyle {\hat {\sigma }}^{2}$ wird als Stichprobenvarianz bezeichnet, da er die Varianz der Stichprobe ist ( $(x_{1},\ldots ,x_{n})$ ). In der Praxis wird häufig ein anderer Schätzer anstelle des $\textstyle {\hat {\sigma }}^{2}$ . Dieser andere Schätzer hat die Bezeichnung $s^{2}$ bezeichnet und wird auch als Stichprobenvarianz bezeichnet, was eine gewisse terminologische Zweideutigkeit darstellt; seine Quadratwurzel $s$ wird als Stichprobenstandardabweichung bezeichnet. Der Schätzer $s^{2}$ unterscheidet sich von $\textstyle {\hat {\sigma }}^{2}$ dadurch, dass (n - 1) anstelle von n im Nenner steht (die so genannte Bessel-Korrektur):

s^{2}={\frac {n}{n-1}}{\hat {\sigma }}^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}(x_{i}-{\overline {x}})^{2}.

Der Unterschied zwischen $s^{2}$ und $\textstyle {\hat {\sigma }}^{2}$ wird für große n vernachlässigbar klein. Bei endlichen Stichproben ist die Motivation für die Verwendung von $s^{2}$ ist, dass es sich um einen unverzerrten Schätzer des zugrunde liegenden Parameters $\sigma ^{2}$ ist, während $\textstyle {\hat {\sigma }}^{2}$ verzerrt ist. Außerdem ist der Schätzer nach dem Lehmann-Scheffé-Theorem $s^{2}$ einheitlich minimal variance unbiased (UMVU), was ihn zum "besten" Schätzer unter allen unbiased Schätzern macht. Es kann jedoch gezeigt werden, dass der verzerrte Schätzer $\textstyle {\hat {\sigma }}^{2}$ "besser" ist als der $s^{2}$ im Hinblick auf das Kriterium des mittleren quadratischen Fehlers (MSE). Bei endlichen Stichproben haben beide $s^{2}$ und $\textstyle {\hat {\sigma }}^{2}$ eine skalierte Chi-Quadrat-Verteilung mit (n - 1) Freiheitsgraden:

s^{2}\sim {\frac {\sigma ^{2}}{n-1}}\cdot \chi _{n-1}^{2},\qquad {\hat {\sigma }}^{2}\sim {\frac {\sigma ^{2}}{n}}\cdot \chi _{n-1}^{2}.

Der erste dieser Ausdrücke zeigt, dass die Varianz von $s^{2}$ gleich ist zu $2\sigma ^{4}/(n-1)$ was etwas größer ist als das σσ-Element der inversen Fisher-Informationsmatrix $\textstyle {\mathcal {I}}^{-1}$ . Daher $s^{2}$ kein effizienter Schätzer für $\sigma ^{2}$ , und da darüber hinaus $s^{2}$ UMVU ist, können wir schlussfolgern, dass der effiziente Finite-Stichproben-Schätzer für $\sigma ^{2}$ nicht existiert. ⓘ

Unter Anwendung der asymptotischen Theorie sind beide Schätzer $s^{2}$ und $\textstyle {\hat {\sigma }}^{2}$ konsistent, d. h. sie konvergieren mit einer bestimmten Wahrscheinlichkeit zu $\sigma ^{2}$ wenn der Stichprobenumfang $n\rightarrow \infty$ . Die beiden Schätzer sind auch beide asymptotisch normal:

{\sqrt {n}}({\hat {\sigma }}^{2}-\sigma ^{2})\simeq {\sqrt {n}}(s^{2}-\sigma ^{2})\,{\xrightarrow {d}}\,{\mathcal {N}}(0,2\sigma ^{4}).

Insbesondere sind beide Schätzer asymptotisch effizient für $\sigma ^{2}$ . ⓘ

Konfidenzintervalle

Nach dem Theorem von Cochran sind bei Normalverteilungen der Stichprobenmittelwert $\textstyle {\hat {\mu }}$ und die Stichprobenvarianz s² unabhängig, was bedeutet, dass es keinen Gewinn bringt, ihre gemeinsame Verteilung zu betrachten. Es gibt auch ein umgekehrtes Theorem: Wenn in einer Stichprobe der Stichprobenmittelwert und die Stichprobenvarianz unabhängig sind, dann muss die Stichprobe aus der Normalverteilung stammen. Die Unabhängigkeit zwischen $\textstyle {\hat {\mu }}$ und s kann verwendet werden, um die sogenannte t-Statistik zu konstruieren:

t={\frac {{\hat {\mu }}-\mu }{s/{\sqrt {n}}}}={\frac {{\overline {x}}-\mu }{\sqrt {{\frac {1}{n(n-1)}}\sum (x_{i}-{\overline {x}})^{2}}}}\sim t_{n-1}

Diese Größe t hat die Student's t-Verteilung mit (n - 1) Freiheitsgraden und ist eine Hilfsstatistik (unabhängig vom Wert der Parameter). Die Umkehrung der Verteilung dieser t-Statistik ermöglicht es, das Konfidenzintervall für μ zu konstruieren; in ähnlicher Weise erhält man durch die Umkehrung der χ²-Verteilung der Statistik s² das Konfidenzintervall für σ²:

\mu \in \left[{\hat {\mu }}-t_{n-1,1-\alpha /2}{\frac {1}{\sqrt {n}}}s,{\hat {\mu }}+t_{n-1,1-\alpha /2}{\frac {1}{\sqrt {n}}}s\right],

\sigma ^{2}\in \left[{\frac {(n-1)s^{2}}{\chi _{n-1,1-\alpha /2}^{2}}},{\frac {(n-1)s^{2}}{\chi _{n-1,\alpha /2}^{2}}}\right],

wobei t_k,p und χ 2
k,p die p-ten Quantile der t- bzw. χ²-Verteilung sind. Diese Konfidenzintervalle haben das Konfidenzniveau 1 - α, was bedeutet, dass die wahren Werte μ und σ² mit der Wahrscheinlichkeit (oder dem Signifikanzniveau) α außerhalb dieser Intervalle liegen. In der Praxis nimmt man gewöhnlich α = 5 % an, was zu Konfidenzintervallen von 95 % führt. ⓘ

Näherungsformeln lassen sich aus den asymptotischen Verteilungen von $\textstyle {\hat {\mu }}$ und s² ableiten:

\mu \in \left[{\hat {\mu }}-|z_{\alpha /2}|{\frac {1}{\sqrt {n}}}s,{\hat {\mu }}+|z_{\alpha /2}|{\frac {1}{\sqrt {n}}}s\right],

\sigma ^{2}\in \left[s^{2}-|z_{\alpha /2}|{\frac {\sqrt {2}}{\sqrt {n}}}s^{2},s^{2}+|z_{\alpha /2}|{\frac {\sqrt {2}}{\sqrt {n}}}s^{2}\right],

Die Näherungsformeln werden für große Werte von n gültig und sind für die manuelle Berechnung bequemer, da die Standard-Normalquantile z_α/2 nicht von n abhängen. Insbesondere der am häufigsten verwendete Wert von α = 5 % führt zu |z0,025| = 1,96. ⓘ

Normalitätstests

Normalitätstests bewerten die Wahrscheinlichkeit, dass der gegebene Datensatz {x₁, ..., xn} aus einer Normalverteilung stammt. Üblicherweise lautet die Nullhypothese H₀, dass die Beobachtungen normalverteilt sind mit einem nicht spezifizierten Mittelwert μ und einer Varianz σ², während die Alternative Ha lautet, dass die Verteilung willkürlich ist. Viele Tests (über 40) wurden für dieses Problem entwickelt. Die wichtigsten davon werden im Folgenden beschrieben: Diagnostische Diagramme sind intuitiv ansprechender, aber gleichzeitig subjektiv, da sie auf einer informellen menschlichen Beurteilung beruhen, um die Nullhypothese zu akzeptieren oder zu verwerfen.

Q-Q-Diagramm, auch bekannt als Normalwahrscheinlichkeitsdiagramm oder Rankit-Diagramm, ist ein Diagramm der sortierten Werte des Datensatzes gegen die erwarteten Werte der entsprechenden Quantile der Standardnormalverteilung. Das heißt, es handelt sich um eine Darstellung von Punkten der Form (Φ-1(pk), x_(k)), wobei die gezeichneten Punkte pk gleich pk = (k - α)/(n + 1 - 2α) sind und α eine Anpassungskonstante ist, die zwischen 0 und 1 liegen kann. Wenn die Nullhypothese wahr ist, sollten die gezeichneten Punkte ungefähr auf einer Geraden liegen.
P-P-Diagramm - ähnelt dem Q-Q-Diagramm, wird aber viel seltener verwendet. Bei dieser Methode werden die Punkte (Φ(z_(k)), pk) geplottet, wobei $\textstyle z_{(k)}=(x_{(k)}-{\hat {\mu }})/{\hat {\sigma }}$ . Bei normalverteilten Daten sollte diese Darstellung auf einer 45°-Linie zwischen (0, 0) und (1, 1) liegen.

Anpassungsgütetests: Momentenbasierte Tests:

D'Agostino's K-Quadrat-Test
Jarque-Bera-Test
Shapiro-Wilk-Test: Dieser basiert auf der Tatsache, dass die Linie im Q-Q-Diagramm die Steigung σ hat. Der Test vergleicht die Schätzung der kleinsten Quadrate dieser Steigung mit dem Wert der Stichprobenvarianz und lehnt die Nullhypothese ab, wenn sich diese beiden Größen signifikant unterscheiden.

Tests auf der Grundlage der empirischen Verteilungsfunktion:

Anderson-Darling-Test
Lilliefors-Test (eine Anpassung des Kolmogorov-Smirnov-Tests) ⓘ

Quantile einer Normalverteilung und einer Chi-Quadrat-Verteilung ⓘ

Eine χ²-verteilte Zufallsvariable mit 5 Freiheitsgraden wird auf Normalverteilung getestet. Für jeden Stichprobenumfang werden 10.000 Stichproben simuliert und anschließend jeweils 5 Anpassungstests zu einem Niveau von 5 % durchgeführt. ⓘ

Mit Hilfe von Quantil-Quantil-Diagrammen bzw. Normal-Quantil-Diagrammen ist eine einfache grafische Überprüfung auf Normalverteilung möglich.
Mit der Maximum-Likelihood-Methode können die Parameter $\mu$ und $\sigma$ der Normalverteilung geschätzt und die empirischen Daten mit der angepassten Normalverteilung grafisch verglichen werden. ⓘ

Bayes'sche Analyse der Normalverteilung

Die Bayes'sche Analyse normalverteilter Daten wird durch die vielen verschiedenen Möglichkeiten erschwert, die in Betracht gezogen werden können:

Entweder der Mittelwert oder die Varianz oder keines von beiden kann als feste Größe betrachtet werden.
Wenn die Varianz nicht bekannt ist, kann die Analyse direkt in Form der Varianz oder in Form der Präzision, dem Kehrwert der Varianz, durchgeführt werden. Der Grund dafür, die Formeln in Form der Präzision auszudrücken, ist, dass die Analyse der meisten Fälle vereinfacht wird.
Es müssen sowohl univariate als auch multivariate Fälle berücksichtigt werden.
Den unbekannten Variablen können entweder konjugierte oder unzulässige Prioritätsverteilungen zugewiesen werden.
Eine zusätzliche Gruppe von Fällen tritt bei der linearen Bayes'schen Regression auf, bei der im Basismodell von normalverteilten Daten ausgegangen wird und den Regressionskoeffizienten Normalprioritäten zugewiesen werden. Die sich daraus ergebende Analyse ähnelt den Grundfällen unabhängiger, identisch verteilter Daten. ⓘ

Die Formeln für die nichtlinearen Regressionsfälle sind in dem Artikel über konjugierte Prioren zusammengefasst. ⓘ

Summe von zwei quadratischen Gleichungen

Skalare Form

Die folgende Hilfsformel ist nützlich zur Vereinfachung der Gleichungen zur Aktualisierung der Posteriorwerte, die sonst ziemlich mühsam werden. ⓘ

a(x-y)^{2}+b(x-z)^{2}=(a+b)\left(x-{\frac {ay+bz}{a+b}}\right)^{2}+{\frac {ab}{a+b}}(y-z)^{2}

ⓘ

Diese Gleichung schreibt die Summe von zwei quadratischen Gleichungen in x um, indem sie die Quadrate erweitert, die Terme in x gruppiert und das Quadrat vervollständigt. Beachten Sie die folgenden Hinweise zu den komplexen konstanten Faktoren, die an einige der Terme angehängt sind:

Der Faktor ${\frac {ay+bz}{a+b}}$ hat die Form eines gewichteten Durchschnitts von y und z.
${\frac {ab}{a+b}}={\frac {1}{{\frac {1}{a}}+{\frac {1}{b}}}}=(a^{-1}+b^{-1})^{-1}.$ Dies zeigt, dass dieser Faktor aus einer Situation resultiert, in der sich die Kehrwerte der Mengen a und b direkt addieren. Um also a und b selbst zu kombinieren, muss man das Ergebnis reziprokieren, addieren und wieder reziprokieren, um wieder zu den ursprünglichen Einheiten zu gelangen. Dies ist genau die Art von Operation, die der harmonische Mittelwert durchführt, daher ist es nicht überraschend, dass ${\frac {ab}{a+b}}$ die Hälfte des harmonischen Mittels von a und b ist. ⓘ

Vektorielle Form

Eine ähnliche Formel lässt sich für die Summe von zwei Vektorquadraten aufstellen: Wenn x, y, z Vektoren der Länge k sind, und A und B symmetrische, invertierbare Matrizen der Größe $k\times k$ , dann ⓘ

{\begin{aligned}&(\mathbf {y} -\mathbf {x} )'\mathbf {A} (\mathbf {y} -\mathbf {x} )+(\mathbf {x} -\mathbf {z} )'\mathbf {B} (\mathbf {x} -\mathbf {z} )\\={}&(\mathbf {x} -\mathbf {c} )'(\mathbf {A} +\mathbf {B} )(\mathbf {x} -\mathbf {c} )+(\mathbf {y} -\mathbf {z} )'(\mathbf {A} ^{-1}+\mathbf {B} ^{-1})^{-1}(\mathbf {y} -\mathbf {z} )\end{aligned}}

ⓘ

wobei ⓘ

\mathbf {c} =(\mathbf {A} +\mathbf {B} )^{-1}(\mathbf {A} \mathbf {y} +\mathbf {B} \mathbf {z} )

ⓘ

Man beachte, dass die Form x′ A x als quadratische Form bezeichnet wird und ein Skalar ist:

\mathbf {x} '\mathbf {A} \mathbf {x} =\sum _{i,j}a_{ij}x_{i}x_{j}

Mit anderen Worten, sie summiert alle möglichen Kombinationen von Produkten von Paaren von Elementen aus x, mit einem separaten Koeffizienten für jedes. Darüber hinaus, da $x_{i}x_{j}=x_{j}x_{i}$ nur die Summe $a_{ij}+a_{ji}$ für alle Elemente außerhalb der Diagonalen von A von Bedeutung, und es bedeutet keinen Verlust an Allgemeinheit, wenn man annimmt, dass A symmetrisch ist. Wenn A symmetrisch ist, dann ist die Form $\mathbf {x} '\mathbf {A} \mathbf {y} =\mathbf {y} '\mathbf {A} \mathbf {x} .$ ⓘ

Summe der Differenzen vom Mittelwert

Eine weitere nützliche Formel lautet wie folgt:

\sum _{i=1}^{n}(x_{i}-\mu )^{2}=\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}

wobei

{\textstyle {\bar {x}}={\frac {1}{n}}\sum _{i=1}^{n}x_{i}.}

ⓘ

Bei bekannter Varianz

Für eine Menge von i.i.d. normalverteilten Datenpunkten X der Größe n, bei der jeder einzelne Punkt x $x\sim {\mathcal {N}}(\mu ,\sigma ^{2})$ mit bekannter Varianz σ² folgt, ist die konjugierte Prioritätsverteilung ebenfalls normalverteilt. ⓘ

Dies lässt sich einfacher zeigen, indem man die Varianz als Genauigkeit umschreibt, d. h. τ = 1/σ² verwendet. Wenn dann $x\sim {\mathcal {N}}(\mu ,1/\tau )$ und $\mu \sim {\mathcal {N}}(\mu _{0},1/\tau _{0}),$ gehen wir wie folgt vor. ⓘ

Zunächst ist die Wahrscheinlichkeitsfunktion (unter Verwendung der obigen Formel für die Summe der Differenzen zum Mittelwert):

{\begin{aligned}p(\mathbf {X} \mid \mu ,\tau )&=\prod _{i=1}^{n}{\sqrt {\frac {\tau }{2\pi }}}\exp \left(-{\frac {1}{2}}\tau (x_{i}-\mu )^{2}\right)\\&=\left({\frac {\tau }{2\pi }}\right)^{n/2}\exp \left(-{\frac {1}{2}}\tau \sum _{i=1}^{n}(x_{i}-\mu )^{2}\right)\\&=\left({\frac {\tau }{2\pi }}\right)^{n/2}\exp \left[-{\frac {1}{2}}\tau \left(\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}\right)\right].\end{aligned}}

ⓘ

Dann gehen wir wie folgt vor:

{\begin{aligned}p(\mu \mid \mathbf {X} )&\propto p(\mathbf {X} \mid \mu )p(\mu )\\&=\left({\frac {\tau }{2\pi }}\right)^{n/2}\exp \left[-{\frac {1}{2}}\tau \left(\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}\right)\right]{\sqrt {\frac {\tau _{0}}{2\pi }}}\exp \left(-{\frac {1}{2}}\tau _{0}(\mu -\mu _{0})^{2}\right)\\&\propto \exp \left(-{\frac {1}{2}}\left(\tau \left(\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}\right)+\tau _{0}(\mu -\mu _{0})^{2}\right)\right)\\&\propto \exp \left(-{\frac {1}{2}}\left(n\tau ({\bar {x}}-\mu )^{2}+\tau _{0}(\mu -\mu _{0})^{2}\right)\right)\\&=\exp \left(-{\frac {1}{2}}(n\tau +\tau _{0})\left(\mu -{\dfrac {n\tau {\bar {x}}+\tau _{0}\mu _{0}}{n\tau +\tau _{0}}}\right)^{2}+{\frac {n\tau \tau _{0}}{n\tau +\tau _{0}}}({\bar {x}}-\mu _{0})^{2}\right)\\&\propto \exp \left(-{\frac {1}{2}}(n\tau +\tau _{0})\left(\mu -{\dfrac {n\tau {\bar {x}}+\tau _{0}\mu _{0}}{n\tau +\tau _{0}}}\right)^{2}\right)\end{aligned}}

ⓘ

In der obigen Herleitung haben wir die obige Formel für die Summe zweier Quadratzahlen verwendet und alle konstanten Faktoren eliminiert, die nicht zu μ gehören. Das Ergebnis ist der Kern einer Normalverteilung, mit Mittelwert ${\frac {n\tau {\bar {x}}+\tau _{0}\mu _{0}}{n\tau +\tau _{0}}}$ und Genauigkeit $n\tau +\tau _{0}$ d.h. ⓘ

p(\mu \mid \mathbf {X} )\sim {\mathcal {N}}\left({\frac {n\tau {\bar {x}}+\tau _{0}\mu _{0}}{n\tau +\tau _{0}}},{\frac {1}{n\tau +\tau _{0}}}\right)

ⓘ

Dies kann als eine Reihe von Bayes'schen Aktualisierungsgleichungen für die Posterior-Parameter in Bezug auf die Prior-Parameter geschrieben werden:

{\begin{aligned}\tau _{0}'&=\tau _{0}+n\tau \\[5pt]\mu _{0}'&={\frac {n\tau {\bar {x}}+\tau _{0}\mu _{0}}{n\tau +\tau _{0}}}\\[5pt]{\bar {x}}&={\frac {1}{n}}\sum _{i=1}^{n}x_{i}\end{aligned}}

ⓘ

Das heißt, um n Datenpunkte mit einer Gesamtpräzision von nτ (oder äquivalent dazu einer Gesamtvarianz von n/σ²) und einem Mittelwert von Werten zu kombinieren ${\bar {x}}$ eine neue Gesamtpräzision ableiten, indem man einfach die Gesamtpräzision der Daten zur vorherigen Gesamtpräzision addiert, und einen neuen Mittelwert durch einen präzisionsgewichteten Mittelwert bilden, d. h. einen gewichteten Mittelwert aus dem Datenmittelwert und dem vorherigen Mittelwert, jeweils gewichtet mit der zugehörigen Gesamtpräzision. Dies ist logisch, wenn man sich die Präzision als Indikator für die Sicherheit der Beobachtungen vorstellt: In der Verteilung des posterioren Mittelwerts wird jede der Eingabekomponenten mit ihrer Gewissheit gewichtet, und die Gewissheit dieser Verteilung ist die Summe der einzelnen Gewissheiten. (Zur Veranschaulichung vergleiche man den Ausdruck "das Ganze ist (oder ist nicht) größer als die Summe seiner Teile". Außerdem ist zu bedenken, dass das Wissen über das Posterior aus einer Kombination des Wissens über das Prior und die Wahrscheinlichkeit resultiert, so dass es sinnvoll ist, dass wir uns dessen sicherer sind als einer seiner Komponenten). ⓘ

Die obige Formel verdeutlicht, warum es bequemer ist, die Bayes'sche Analyse konjugierter Prioren für die Normalverteilung in Bezug auf die Präzision durchzuführen. Die Posterior-Präzision ist einfach die Summe der Prior- und Likelihood-Präzisionen, und der Posterior-Mittelwert wird, wie oben beschrieben, durch einen präzisionsgewichteten Durchschnitt berechnet. Die gleichen Formeln lassen sich auch als Varianzformeln schreiben, indem man alle Präzisionswerte reziprokiert, was zu den folgenden unschönen Formeln führt ⓘ

{\begin{aligned}{\sigma _{0}^{2}}'&={\frac {1}{{\frac {n}{\sigma ^{2}}}+{\frac {1}{\sigma _{0}^{2}}}}}\\[5pt]\mu _{0}'&={\frac {{\frac {n{\bar {x}}}{\sigma ^{2}}}+{\frac {\mu _{0}}{\sigma _{0}^{2}}}}{{\frac {n}{\sigma ^{2}}}+{\frac {1}{\sigma _{0}^{2}}}}}\\[5pt]{\bar {x}}&={\frac {1}{n}}\sum _{i=1}^{n}x_{i}\end{aligned}}

ⓘ

Bei bekanntem Mittelwert

Für eine Menge von i.i.d. normalverteilten Datenpunkten X der Größe n, bei der jeder einzelne Punkt x $x\sim {\mathcal {N}}(\mu ,\sigma ^{2})$ mit bekanntem Mittelwert μ hat der konjugierte Prior der Varianz eine inverse Gammaverteilung oder eine skalierte inverse Chi-Quadrat-Verteilung. Die beiden sind gleichwertig, haben aber unterschiedliche Parametrisierungen. Obwohl die inverse Gamma-Verteilung häufiger verwendet wird, verwenden wir der Einfachheit halber die skalierte inverse Chi-Quadrat-Verteilung. Der Prior für σ² lautet wie folgt:

p(\sigma ^{2}\mid \nu _{0},\sigma _{0}^{2})={\frac {(\sigma _{0}^{2}{\frac {\nu _{0}}{2}})^{\nu _{0}/2}}{\Gamma \left({\frac {\nu _{0}}{2}}\right)}}~{\frac {\exp \left[{\frac {-\nu _{0}\sigma _{0}^{2}}{2\sigma ^{2}}}\right]}{(\sigma ^{2})^{1+{\frac {\nu _{0}}{2}}}}}\propto {\frac {\exp \left[{\frac {-\nu _{0}\sigma _{0}^{2}}{2\sigma ^{2}}}\right]}{(\sigma ^{2})^{1+{\frac {\nu _{0}}{2}}}}}

ⓘ

Die Likelihood-Funktion von oben, geschrieben in Form der Varianz, ist:

{\begin{aligned}p(\mathbf {X} \mid \mu ,\sigma ^{2})&=\left({\frac {1}{2\pi \sigma ^{2}}}\right)^{n/2}\exp \left[-{\frac {1}{2\sigma ^{2}}}\sum _{i=1}^{n}(x_{i}-\mu )^{2}\right]\\&=\left({\frac {1}{2\pi \sigma ^{2}}}\right)^{n/2}\exp \left[-{\frac {S}{2\sigma ^{2}}}\right]\end{aligned}}

ⓘ

wobei ⓘ

S=\sum _{i=1}^{n}(x_{i}-\mu )^{2}.

ⓘ

Dann:

{\begin{aligned}p(\sigma ^{2}\mid \mathbf {X} )&\propto p(\mathbf {X} \mid \sigma ^{2})p(\sigma ^{2})\\&=\left({\frac {1}{2\pi \sigma ^{2}}}\right)^{n/2}\exp \left[-{\frac {S}{2\sigma ^{2}}}\right]{\frac {(\sigma _{0}^{2}{\frac {\nu _{0}}{2}})^{\frac {\nu _{0}}{2}}}{\Gamma \left({\frac {\nu _{0}}{2}}\right)}}~{\frac {\exp \left[{\frac {-\nu _{0}\sigma _{0}^{2}}{2\sigma ^{2}}}\right]}{(\sigma ^{2})^{1+{\frac {\nu _{0}}{2}}}}}\\&\propto \left({\frac {1}{\sigma ^{2}}}\right)^{n/2}{\frac {1}{(\sigma ^{2})^{1+{\frac {\nu _{0}}{2}}}}}\exp \left[-{\frac {S}{2\sigma ^{2}}}+{\frac {-\nu _{0}\sigma _{0}^{2}}{2\sigma ^{2}}}\right]\\&={\frac {1}{(\sigma ^{2})^{1+{\frac {\nu _{0}+n}{2}}}}}\exp \left[-{\frac {\nu _{0}\sigma _{0}^{2}+S}{2\sigma ^{2}}}\right]\end{aligned}}

ⓘ

Das obige ist auch eine skalierte inverse Chi-Quadrat-Verteilung, wobei ⓘ

{\begin{aligned}\nu _{0}'&=\nu _{0}+n\\\nu _{0}'{\sigma _{0}^{2}}'&=\nu _{0}\sigma _{0}^{2}+\sum _{i=1}^{n}(x_{i}-\mu )^{2}\end{aligned}}

ⓘ

oder äquivalent ⓘ

{\begin{aligned}\nu _{0}'&=\nu _{0}+n\\{\sigma _{0}^{2}}'&={\frac {\nu _{0}\sigma _{0}^{2}+\sum _{i=1}^{n}(x_{i}-\mu )^{2}}{\nu _{0}+n}}\end{aligned}}

ⓘ

Durch Reparametrisierung im Sinne einer inversen Gamma-Verteilung ergibt sich folgendes Ergebnis:

{\begin{aligned}\alpha '&=\alpha +{\frac {n}{2}}\\\beta '&=\beta +{\frac {\sum _{i=1}^{n}(x_{i}-\mu )^{2}}{2}}\end{aligned}}

ⓘ

Mit unbekanntem Mittelwert und unbekannter Varianz

Für eine Menge von i.i.d. normalverteilten Datenpunkten X der Größe n, bei der jeder einzelne Punkt x $x\sim {\mathcal {N}}(\mu ,\sigma ^{2})$ mit unbekanntem Mittelwert μ und unbekannter Varianz σ² wird ein kombinierter (multivariater) konjugierter Prior über den Mittelwert und die Varianz gelegt, der aus einer Normal-Invers-Gamma-Verteilung besteht. Logischerweise ergibt sich dies wie folgt:

Aus der Analyse des Falles mit unbekanntem Mittelwert, aber bekannter Varianz geht hervor, dass die Aktualisierungsgleichungen hinreichende Statistiken beinhalten, die aus den Daten berechnet werden und aus dem Mittelwert der Datenpunkte und der Gesamtvarianz der Datenpunkte bestehen, die wiederum aus der bekannten Varianz geteilt durch die Anzahl der Datenpunkte berechnet wird.
Aus der Analyse des Falles mit unbekannter Varianz aber bekanntem Mittelwert geht hervor, dass die Aktualisierungsgleichungen ausreichende Statistiken über die Daten beinhalten, die aus der Anzahl der Datenpunkte und der Summe der quadrierten Abweichungen bestehen.
Denken Sie daran, dass die posterioren Aktualisierungswerte bei der Verarbeitung weiterer Daten als Prioritätsverteilung dienen. Daher sollten wir unsere Prioritäten logischerweise in Form der soeben beschriebenen hinreichenden Statistiken betrachten, wobei die gleiche Semantik so weit wie möglich beibehalten werden sollte.
Um den Fall zu behandeln, dass sowohl Mittelwert als auch Varianz unbekannt sind, könnten wir unabhängige Prioritäten über den Mittelwert und die Varianz setzen, mit festen Schätzungen des durchschnittlichen Mittelwerts, der Gesamtvarianz, der Anzahl der Datenpunkte, die zur Berechnung des Varianzpriors verwendet werden, und der Summe der quadrierten Abweichungen. Beachten Sie jedoch, dass in der Realität die Gesamtvarianz des Mittelwerts von der unbekannten Varianz abhängt und die Summe der quadrierten Abweichungen, die in den Varianzprior eingeht, (scheinbar) vom unbekannten Mittelwert abhängt. In der Praxis ist die letztgenannte Abhängigkeit relativ unwichtig: Durch die Verschiebung des tatsächlichen Mittelwerts verschieben sich die erzeugten Punkte um den gleichen Betrag, und die quadrierten Abweichungen bleiben im Durchschnitt gleich. Bei der Gesamtvarianz des Mittelwerts ist dies jedoch nicht der Fall: Wenn die unbekannte Varianz zunimmt, nimmt die Gesamtvarianz des Mittelwerts proportional zu, und wir möchten diese Abhängigkeit erfassen.
Dies legt nahe, einen bedingten Prior des Mittelwerts auf der unbekannten Varianz zu erstellen, mit einem Hyperparameter, der den Mittelwert der mit dem Prior verbundenen Pseudobeobachtungen angibt, und einem weiteren Parameter, der die Anzahl der Pseudobeobachtungen angibt. Diese Anzahl dient als Skalierungsparameter für die Varianz und ermöglicht es, die Gesamtvarianz des Mittelwerts im Verhältnis zum tatsächlichen Varianzparameter zu steuern. Der Prior für die Varianz hat ebenfalls zwei Hyperparameter, von denen einer die Summe der quadrierten Abweichungen der Pseudobeobachtungen angibt, die mit dem Prior verbunden sind, und ein anderer wiederum die Anzahl der Pseudobeobachtungen spezifiziert. Man beachte, dass jeder der Prioren einen Hyperparameter hat, der die Anzahl der Pseudobeobachtungen angibt, und in jedem Fall steuert dieser die relative Varianz dieses Priors. Diese werden als zwei separate Hyperparameter angegeben, so dass die Varianz (auch Konfidenz genannt) der beiden Prioren getrennt gesteuert werden kann.
Dies führt unmittelbar zur Normal-Inverse-Gamma-Verteilung, die das Produkt der beiden soeben definierten Verteilungen ist, wobei konjugierte Prioren verwendet werden (eine Inverse-Gamma-Verteilung über die Varianz und eine Normalverteilung über den Mittelwert, bedingt durch die Varianz) und mit denselben vier Parametern wie eben definiert. ⓘ

Die Prioritäten sind normalerweise wie folgt definiert:

{\begin{aligned}p(\mu \mid \sigma ^{2};\mu _{0},n_{0})&\sim {\mathcal {N}}(\mu _{0},\sigma ^{2}/n_{0})\\p(\sigma ^{2};\nu _{0},\sigma _{0}^{2})&\sim I\chi ^{2}(\nu _{0},\sigma _{0}^{2})=IG(\nu _{0}/2,\nu _{0}\sigma _{0}^{2}/2)\end{aligned}}

ⓘ

Die Aktualisierungsgleichungen können abgeleitet werden und sehen wie folgt aus:

{\begin{aligned}{\bar {x}}&={\frac {1}{n}}\sum _{i=1}^{n}x_{i}\\\mu _{0}'&={\frac {n_{0}\mu _{0}+n{\bar {x}}}{n_{0}+n}}\\n_{0}'&=n_{0}+n\\\nu _{0}'&=\nu _{0}+n\\\nu _{0}'{\sigma _{0}^{2}}'&=\nu _{0}\sigma _{0}^{2}+\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+{\frac {n_{0}n}{n_{0}+n}}(\mu _{0}-{\bar {x}})^{2}\end{aligned}}

ⓘ

Zu der jeweiligen Anzahl der Pseudobeobachtungen wird die Anzahl der tatsächlichen Beobachtungen addiert. Der neue mittlere Hyperparameter ist wiederum ein gewichteter Durchschnitt, diesmal gewichtet nach der relativen Anzahl der Beobachtungen. Schließlich ist die Aktualisierung für $\nu _{0}'{\sigma _{0}^{2}}'$ ähnelt dem Fall mit bekanntem Mittelwert, aber in diesem Fall wird die Summe der quadrierten Abweichungen in Bezug auf den beobachteten Datenmittelwert und nicht auf den wahren Mittelwert genommen, und folglich muss ein neuer "Interaktionsterm" hinzugefügt werden, um die zusätzliche Fehlerquelle zu berücksichtigen, die sich aus der Abweichung zwischen Prior und Datenmittelwert ergibt. ⓘ

Beweis

Die Priorverteilungen sind

{\begin{aligned}p(\mu \mid \sigma ^{2};\mu _{0},n_{0})&\sim {\mathcal {N}}(\mu _{0},\sigma ^{2}/n_{0})={\frac {1}{\sqrt {2\pi {\frac {\sigma ^{2}}{n_{0}}}}}}\exp \left(-{\frac {n_{0}}{2\sigma ^{2}}}(\mu -\mu _{0})^{2}\right)\\&\propto (\sigma ^{2})^{-1/2}\exp \left(-{\frac {n_{0}}{2\sigma ^{2}}}(\mu -\mu _{0})^{2}\right)\\p(\sigma ^{2};\nu _{0},\sigma _{0}^{2})&\sim I\chi ^{2}(\nu _{0},\sigma _{0}^{2})=IG(\nu _{0}/2,\nu _{0}\sigma _{0}^{2}/2)\\&={\frac {(\sigma _{0}^{2}\nu _{0}/2)^{\nu _{0}/2}}{\Gamma (\nu _{0}/2)}}~{\frac {\exp \left[{\frac {-\nu _{0}\sigma _{0}^{2}}{2\sigma ^{2}}}\right]}{(\sigma ^{2})^{1+\nu _{0}/2}}}\\&\propto {(\sigma ^{2})^{-(1+\nu _{0}/2)}}\exp \left[{\frac {-\nu _{0}\sigma _{0}^{2}}{2\sigma ^{2}}}\right].\end{aligned}}

Daher ist der gemeinsame Prior

{\begin{aligned}p(\mu ,\sigma ^{2};\mu _{0},n_{0},\nu _{0},\sigma _{0}^{2})&=p(\mu \mid \sigma ^{2};\mu _{0},n_{0})\,p(\sigma ^{2};\nu _{0},\sigma _{0}^{2})\\&\propto (\sigma ^{2})^{-(\nu _{0}+3)/2}\exp \left[-{\frac {1}{2\sigma ^{2}}}\left(\nu _{0}\sigma _{0}^{2}+n_{0}(\mu -\mu _{0})^{2}\right)\right].\end{aligned}}

Die Likelihood-Funktion aus dem obigen Abschnitt mit bekannter Varianz ist:

{\begin{aligned}p(\mathbf {X} \mid \mu ,\sigma ^{2})&=\left({\frac {1}{2\pi \sigma ^{2}}}\right)^{n/2}\exp \left[-{\frac {1}{2\sigma ^{2}}}\left(\sum _{i=1}^{n}(x_{i}-\mu )^{2}\right)\right]\end{aligned}}

Wenn man sie in Form der Varianz und nicht der Genauigkeit schreibt, erhält man:

{\begin{aligned}p(\mathbf {X} \mid \mu ,\sigma ^{2})&=\left({\frac {1}{2\pi \sigma ^{2}}}\right)^{n/2}\exp \left[-{\frac {1}{2\sigma ^{2}}}\left(\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}+n({\bar {x}}-\mu )^{2}\right)\right]\\&\propto {\sigma ^{2}}^{-n/2}\exp \left[-{\frac {1}{2\sigma ^{2}}}\left(S+n({\bar {x}}-\mu )^{2}\right)\right]\end{aligned}}

wobei ${\textstyle S=\sum _{i=1}^{n}(x_{i}-{\bar {x}})^{2}.}$

Das Posterior ist also (ohne Berücksichtigung der Hyperparameter als Konditionierungsfaktoren):

{\begin{aligned}p(\mu ,\sigma ^{2}\mid \mathbf {X} )&\propto p(\mu ,\sigma ^{2})\,p(\mathbf {X} \mid \mu ,\sigma ^{2})\\&\propto (\sigma ^{2})^{-(\nu _{0}+3)/2}\exp \left[-{\frac {1}{2\sigma ^{2}}}\left(\nu _{0}\sigma _{0}^{2}+n_{0}(\mu -\mu _{0})^{2}\right)\right]{\sigma ^{2}}^{-n/2}\exp \left[-{\frac {1}{2\sigma ^{2}}}\left(S+n({\bar {x}}-\mu )^{2}\right)\right]\\&=(\sigma ^{2})^{-(\nu _{0}+n+3)/2}\exp \left[-{\frac {1}{2\sigma ^{2}}}\left(\nu _{0}\sigma _{0}^{2}+S+n_{0}(\mu -\mu _{0})^{2}+n({\bar {x}}-\mu )^{2}\right)\right]\\&=(\sigma ^{2})^{-(\nu _{0}+n+3)/2}\exp \left[-{\frac {1}{2\sigma ^{2}}}\left(\nu _{0}\sigma _{0}^{2}+S+{\frac {n_{0}n}{n_{0}+n}}(\mu _{0}-{\bar {x}})^{2}+(n_{0}+n)\left(\mu -{\frac {n_{0}\mu _{0}+n{\bar {x}}}{n_{0}+n}}\right)^{2}\right)\right]\\&\propto (\sigma ^{2})^{-1/2}\exp \left[-{\frac {n_{0}+n}{2\sigma ^{2}}}\left(\mu -{\frac {n_{0}\mu _{0}+n{\bar {x}}}{n_{0}+n}}\right)^{2}\right]\\&\quad \times (\sigma ^{2})^{-(\nu _{0}/2+n/2+1)}\exp \left[-{\frac {1}{2\sigma ^{2}}}\left(\nu _{0}\sigma _{0}^{2}+S+{\frac {n_{0}n}{n_{0}+n}}(\mu _{0}-{\bar {x}})^{2}\right)\right]\\&={\mathcal {N}}_{\mu \mid \sigma ^{2}}\left({\frac {n_{0}\mu _{0}+n{\bar {x}}}{n_{0}+n}},{\frac {\sigma ^{2}}{n_{0}+n}}\right)\cdot {\rm {IG}}_{\sigma ^{2}}\left({\frac {1}{2}}(\nu _{0}+n),{\frac {1}{2}}\left(\nu _{0}\sigma _{0}^{2}+S+{\frac {n_{0}n}{n_{0}+n}}(\mu _{0}-{\bar {x}})^{2}\right)\right).\end{aligned}}

Mit anderen Worten, die Posterior-Verteilung hat die Form eines Produkts aus einer Normalverteilung über p(μ | σ²) mal einer inversen Gamma-Verteilung über p(σ²), mit Parametern, die die gleichen sind wie die obigen Aktualisierungsgleichungen. ⓘ

Vorkommen und Anwendungen

Das Auftreten von Normalverteilungen in praktischen Problemen lässt sich grob in vier Kategorien einteilen:

Genaue Normalverteilungen;
Näherungsweise Normalgesetze, z. B. wenn eine solche Näherung durch den zentralen Grenzwertsatz gerechtfertigt ist; und
Verteilungen, die als normal modelliert werden - die Normalverteilung ist die Verteilung mit der maximalen Entropie für einen bestimmten Mittelwert und eine bestimmte Varianz.
Regressionsprobleme - die Normalverteilung wird gefunden, nachdem systematische Effekte ausreichend gut modelliert worden sind. ⓘ

Exakte Normalität

Der Grundzustand eines harmonischen Quantenoszillators hat die Gaußsche Verteilung. ⓘ

Bestimmte Größen in der Physik sind normalverteilt, wie erstmals von James Clerk Maxwell nachgewiesen wurde. Beispiele für solche Größen sind:

Wahrscheinlichkeitsdichtefunktion eines Grundzustands in einem harmonischen Quantenoszillator.
Die Position eines Teilchens, das eine Diffusion erfährt. Befindet sich das Teilchen zu Beginn an einem bestimmten Punkt (d. h. seine Wahrscheinlichkeitsverteilung ist die Dirac-Delta-Funktion), so wird sein Ort nach der Zeit t durch eine Normalverteilung mit der Varianz t beschrieben, die die Diffusionsgleichung erfüllt ${\frac {\partial }{\partial t}}f(x,t)={\frac {1}{2}}{\frac {\partial ^{2}}{\partial x^{2}}}f(x,t)$ . Wenn der Anfangsort durch eine bestimmte Dichtefunktion gegeben ist $g(x)$ gegeben ist, dann ist die Dichte zum Zeitpunkt t die Faltung von g und der normalen PDF. ⓘ

Annähernde Normalität

Näherungsweise Normalverteilungen treten in vielen Situationen auf, wie im zentralen Grenzwertsatz erklärt wird. Wenn das Ergebnis durch viele kleine Effekte hervorgerufen wird, die additiv und unabhängig voneinander wirken, ist die Verteilung annähernd normal. Die Annäherung an die Normalverteilung ist nicht gültig, wenn die Effekte multiplikativ (statt additiv) wirken oder wenn es einen einzigen externen Einfluss gibt, der wesentlich größer ist als die übrigen Effekte.

Bei Zählproblemen, bei denen der zentrale Grenzwertsatz eine diskret-kontinuierliche Annäherung beinhaltet und bei denen unendlich teilbare und zerlegbare Verteilungen beteiligt sind, wie z. B.
- Binomiale Zufallsvariablen, die mit binären Antwortvariablen verbunden sind;
- Poisson-Zufallsvariablen, die mit seltenen Ereignissen verbunden sind;
Wärmestrahlung hat auf sehr kurzen Zeitskalen eine Bose-Einstein-Verteilung und auf längeren Zeitskalen aufgrund des zentralen Grenzwertsatzes eine Normalverteilung. ⓘ

Angenommene Normalität

Histogramm der Kelchblattbreiten für Iris versicolor aus Fishers Irisblumen-Datensatz, mit überlagerter bestangepasster Normalverteilung. ⓘ

Das Auftreten der Normalkurve - der Laplacian-Kurve der Fehler - kann ich nur als ein sehr anormales Phänomen erkennen. Sie wird in bestimmten Verteilungen grob angenähert; aus diesem Grund und wegen ihrer schönen Einfachheit können wir sie vielleicht als erste Annäherung verwenden, insbesondere bei theoretischen Untersuchungen.
- Pearson (1901)

Es gibt statistische Methoden, um diese Annahme empirisch zu testen; siehe den obigen Abschnitt Normalitätstests.

In der Biologie neigen die Logarithmen verschiedener Variablen dazu, eine Normalverteilung zu haben, d. h. sie neigen dazu, eine Log-Normalverteilung zu haben (nach der Trennung in männliche/weibliche Teilpopulationen), mit Beispielen wie:
- Größenmaße von lebendem Gewebe (Länge, Größe, Hautfläche, Gewicht);
- Die Länge von trägen Anhängseln (Haare, Krallen, Nägel, Zähne) biologischer Exemplare in Wachstumsrichtung; vermutlich fällt auch die Dicke von Baumrinde in diese Kategorie;
- Bestimmte physiologische Messungen, wie der Blutdruck eines erwachsenen Menschen.
Im Finanzwesen, insbesondere im Black-Scholes-Modell, werden Veränderungen des Logarithmus von Wechselkursen, Preisindizes und Börsenindizes als normal angenommen (diese Variablen verhalten sich wie Zinseszinsen, nicht wie einfache Zinsen, und sind daher multiplikativ). Einige Mathematiker wie Benoit Mandelbrot haben argumentiert, dass die Log-Levy-Verteilung, die schwere Schwänze aufweist, ein geeigneteres Modell wäre, insbesondere für die Analyse von Börsencrashs. Nassim Nicholas Taleb hat in seinen Werken die Verwendung der Normalverteilung in Finanzmodellen kritisiert.
Messfehler in physikalischen Experimenten werden oft durch eine Normalverteilung modelliert. Die Verwendung einer Normalverteilung bedeutet nicht, dass man davon ausgeht, dass die Messfehler normalverteilt sind, vielmehr führt die Verwendung der Normalverteilung zu möglichst konservativen Vorhersagen, wenn man nur den Mittelwert und die Varianz der Fehler kennt.
Bei standardisierten Tests können die Ergebnisse normalverteilt werden, indem man entweder die Anzahl und den Schwierigkeitsgrad der Fragen auswählt (wie beim IQ-Test) oder die rohen Testergebnisse durch Anpassung an die Normalverteilung in "Output"-Werte umwandelt. Der traditionelle Bereich des SAT von 200-800 basiert beispielsweise auf einer Normalverteilung mit einem Mittelwert von 500 und einer Standardabweichung von 100. ⓘ

Anpassung der kumulativen Normalverteilung an die Regenfälle im Oktober, siehe Verteilungsanpassung ⓘ

Viele Werte werden von der Normalverteilung abgeleitet, darunter Perzentilränge ("Perzentile" oder "Quantile"), Normalkurvenäquivalente, Stanine, z-Scores und T-Scores. Darüber hinaus wird bei einigen verhaltensstatistischen Verfahren davon ausgegangen, dass die Ergebnisse normalverteilt sind, z. B. bei t-Tests und ANOVAs. Bei der Benotung nach der Glockenkurve werden relative Noten auf der Grundlage einer Normalverteilung der Noten vergeben.
In der Hydrologie wird die Verteilung von lang anhaltenden Flussabflüssen oder Niederschlägen, z. B. Monats- und Jahressummen, gemäß dem zentralen Grenzwertsatz häufig als praktisch normal verteilt angesehen. Das blaue Bild, das mit CumFreq erstellt wurde, zeigt ein Beispiel für die Anpassung der Normalverteilung an die geordneten Oktober-Regenfälle, wobei der 90%ige Vertrauensbereich auf der Grundlage der Binomialverteilung dargestellt ist. Die Niederschlagsdaten werden als Teil der kumulativen Häufigkeitsanalyse durch das Einzeichnen von Positionen dargestellt. ⓘ

Methodische Probleme und Peer-Review

John Ioannidis argumentiert, dass die Verwendung normalverteilter Standardabweichungen als Maßstab für die Validierung von Forschungsergebnissen falsifizierbare Vorhersagen über nicht normalverteilte Phänomene ungetestet lässt. Dazu gehören beispielsweise Phänomene, die nur auftreten, wenn alle notwendigen Bedingungen gegeben sind, und von denen eines ein anderes nicht auf additive Weise ersetzen kann, sowie Phänomene, die nicht zufällig verteilt sind. Ioannidis argumentiert, dass die standardabweichungszentrierte Validierung Hypothesen und Theorien, bei denen einige, aber nicht alle falsifizierbaren Vorhersagen normalverteilt sind, einen falschen Anschein von Gültigkeit verleiht, da der Teil der falsifizierbaren Vorhersagen, gegen den es Beweise gibt, in den nicht normalverteilten Teilen des Bereichs der falsifizierbaren Vorhersagen liegen kann und in einigen Fällen auch liegt, sowie Hypothesen, für die keine der falsifizierbaren Vorhersagen normalverteilt sind, grundlos als unfalsifizierbar abtut, obwohl sie tatsächlich falsifizierbare Vorhersagen machen. Ioannidis argumentiert, dass viele Fälle, in denen sich gegenseitig ausschließende Theorien von Forschungszeitschriften als "bestätigt" akzeptiert werden, darauf zurückzuführen sind, dass die Zeitschriften empirische Falsifikationen von nicht normalverteilten Vorhersagen nicht berücksichtigen, und nicht darauf, dass sich gegenseitig ausschließende Theorien wahr sind, was sie nicht sein können, obwohl zwei sich gegenseitig ausschließende Theorien beide falsch und eine dritte richtig sein kann. ⓘ

Berechnungsmethoden

Generierung von Werten aus der Normalverteilung

Die Bohnenmaschine, ein von Francis Galton erfundenes Gerät, kann als der erste Generator von normalverteilten Zufallsvariablen bezeichnet werden. Diese Maschine besteht aus einem vertikalen Brett mit ineinander verschachtelten Reihen von Stiften. Kleine Kugeln werden von oben fallen gelassen und hüpfen dann zufällig nach links oder rechts, wenn sie auf die Stifte treffen. Die Kugeln werden unten in Fächern gesammelt und setzen sich in einem Muster ab, das der Gaußschen Kurve ähnelt. ⓘ

Bei Computersimulationen, insbesondere bei Anwendungen der Monte-Carlo-Methode, ist es oft wünschenswert, normalverteilte Werte zu erzeugen. Die unten aufgeführten Algorithmen erzeugen alle die Standardnormalabweichungen, da ein $N (μ, σ 2)$ als $X = μ + σZ$ erzeugt werden kann, wobei Z standardnormal ist. Alle diese Algorithmen setzen voraus, dass ein Zufallszahlengenerator U zur Verfügung steht, der in der Lage ist, gleichmäßige Zufallsvariablen zu erzeugen.

Die einfachste Methode basiert auf der Eigenschaft der Wahrscheinlichkeitsintegraltransformation: Wenn U gleichmäßig auf (0,1) verteilt ist, dann hat Φ-1(U) die Standardnormalverteilung. Der Nachteil dieser Methode ist, dass sie auf der Berechnung der Probit-Funktion Φ-1 beruht, die nicht analytisch durchgeführt werden kann. Einige Näherungsmethoden sind in Hart (1968) und in dem erf-Artikel beschrieben. Wichura gibt einen schnellen Algorithmus zur Berechnung dieser Funktion mit 16 Dezimalstellen an, der von R zur Berechnung von Zufallsvariablen der Normalverteilung verwendet wird.
Ein einfach zu programmierender Näherungsansatz, der sich auf den zentralen Grenzwertsatz stützt, lautet wie folgt: Erzeugen Sie 12 gleichmäßige U(0,1)-Abweichungen, addieren Sie sie alle und ziehen Sie 6 ab - die resultierende Zufallsvariable hat annähernd die Standardnormalverteilung. In Wahrheit handelt es sich um eine Irwin-Hall-Verteilung, die eine 12-teilige polynomiale Annäherung an die Normalverteilung elfter Ordnung ist. Diese Zufallsabweichung hat einen begrenzten Bereich von (-6, 6). Beachten Sie, dass bei einer echten Normalverteilung nur 0,00034 % aller Stichproben außerhalb von ±6σ liegen.
Bei der Box-Muller-Methode werden zwei unabhängige Zufallszahlen U und V verwendet, die gleichmäßig auf (0,1) verteilt sind. Dann haben die beiden Zufallsvariablen X und Y $X={\sqrt {-2\ln U}}\,\cos(2\pi V),\qquad Y={\sqrt {-2\ln U}}\,\sin(2\pi V).$ beide die Standardnormalverteilung und sind unabhängig. Diese Formulierung ergibt sich daraus, dass für einen bivariaten normalen Zufallsvektor (X, Y) die quadrierte Norm $X 2 + Y 2$ die Chi-Quadrat-Verteilung mit zwei Freiheitsgraden hat, was eine leicht zu erzeugende exponentielle Zufallsvariable ist, die der Größe -2ln(U) in diesen Gleichungen entspricht; und der Winkel ist gleichmäßig um den Kreis verteilt, der durch die Zufallsvariable V gewählt wird.
Die Marsaglia-Polar-Methode ist eine Abwandlung der Box-Muller-Methode, die keine Berechnung der Sinus- und Kosinusfunktionen erfordert. Bei dieser Methode werden U und V aus der Gleichverteilung (-1,1) gezogen und anschließend wird $S = U 2 + V 2$ berechnet. Wenn S größer oder gleich 1 ist, beginnt die Methode von vorne, andernfalls werden die beiden Größen $X=U{\sqrt {\frac {-2\ln S}{S}}},\qquad Y=V{\sqrt {\frac {-2\ln S}{S}}}$ zurückgegeben. Auch hier sind X und Y unabhängige, standardnormale Zufallsvariablen.
Die Ratio-Methode ist eine Ablehnungsmethode. Der Algorithmus geht wie folgt vor:
- Erzeugen Sie zwei unabhängige gleichmäßige Abweichungen U und V;
- Berechne X = √8/e (V - 0,5)/U;
- Optional: wenn X² ≤ 5 - 4e^1/4U, dann akzeptiere X und beende den Algorithmus;
- Fakultativ: wenn X² ≥ 4e-1,35/U + 1,4, dann wird X zurückgewiesen und der Algorithmus beginnt wieder bei Schritt 1;
- Wenn X² ≤ -4 lnU, dann wird X akzeptiert, andernfalls beginnt der Algorithmus von vorne.
Durch die beiden optionalen Schritte kann die Auswertung des Logarithmus im letzten Schritt in den meisten Fällen vermieden werden. Diese Schritte können stark verbessert werden, so dass der Logarithmus nur noch selten ausgewertet wird.
Der Ziggurat-Algorithmus ist schneller als die Box-Muller-Transformation und dennoch exakt. In etwa 97% aller Fälle benötigt er nur zwei Zufallszahlen, eine zufällige ganze Zahl und eine zufällige Uniform, eine Multiplikation und einen if-Test. Nur in 3 % der Fälle, in denen die Kombination dieser beiden außerhalb des "Kerns der Zikkurat" liegt (eine Art Ablehnungsstichprobe mit Logarithmen), müssen Exponentiale und einheitlichere Zufallszahlen verwendet werden.
Mit Hilfe der ganzzahligen Arithmetik kann eine Stichprobe aus der Standardnormalverteilung gezogen werden. Diese Methode ist genau in dem Sinne, dass sie die Bedingungen der idealen Annäherung erfüllt, d. h. sie ist gleichbedeutend mit der Stichprobenziehung einer reellen Zahl aus der Standardnormalverteilung und der Rundung dieser Zahl auf die nächste darstellbare Gleitkommazahl.
Es gibt auch einige Untersuchungen zum Zusammenhang zwischen der schnellen Hadamard-Transformation und der Normalverteilung, da die Transformation nur Addition und Subtraktion erfordert und durch den zentralen Grenzwertsatz Zufallszahlen aus fast jeder Verteilung in die Normalverteilung transformiert werden. In diesem Zusammenhang kann eine Reihe von Hadamard-Transformationen mit zufälligen Permutationen kombiniert werden, um beliebige Datensätze in normalverteilte Daten zu verwandeln. ⓘ

Numerische Näherungen für die Normal-CDF und die Normal-Quantil-Funktion

Die Standard-Normal-CDF wird in wissenschaftlichen und statistischen Berechnungen häufig verwendet. ⓘ

Die Werte Φ(x) können durch eine Vielzahl von Methoden, wie numerische Integration, Taylor-Reihen, asymptotische Reihen und Kettenbrüche, sehr genau angenähert werden. Je nach gewünschtem Genauigkeitsgrad werden unterschiedliche Näherungen verwendet. ⓘ

Zelen & Severo (1964) geben die Approximation für Φ(x) für x > 0 mit dem absoluten Fehler |ε(x)| < 7,5-10-8 an (Algorithmus 26.2.17): $\Phi (x)=1-\varphi (x)\left(b_{1}t+b_{2}t^{2}+b_{3}t^{3}+b_{4}t^{4}+b_{5}t^{5}\right)+\varepsilon (x),\qquad t={\frac {1}{1+b_{0}x}},$ wobei ϕ(x) die Standard-Normal-PDF ist, und b₀ = 0,2316419, b₁ = 0,319381530, b₂ = -0,356563782, b₃ = 1,781477937, b₄ = -1,821255978, b₅ = 1,330274429.
Hart (1968) listet einige Dutzend Approximationen - mittels rationaler Funktionen, mit oder ohne Exponentiale - für die Funktion erfc() auf. Seine Algorithmen variieren im Grad der Komplexität und der resultierenden Genauigkeit, wobei die absolute Genauigkeit maximal 24 Stellen beträgt. Ein Algorithmus von West (2009) kombiniert Harts Algorithmus 5666 mit einer Annäherung an einen Kettenbruch im hinteren Teil, um einen schnellen Berechnungsalgorithmus mit einer Genauigkeit von 16 Stellen zu erhalten.
Cody (1969) weist darauf hin, dass die Hart68-Lösung nicht für erf geeignet ist, und gibt eine Lösung für erf und erfc mit maximaler relativer Fehlergrenze mittels rationaler Tschebyscheff-Approximation.
Marsaglia (2004) schlug einen einfachen Algorithmus auf der Grundlage der Taylorreihenentwicklung $\Phi (x)={\frac {1}{2}}+\varphi (x)\left(x+{\frac {x^{3}}{3}}+{\frac {x^{5}}{3\cdot 5}}+{\frac {x^{7}}{3\cdot 5\cdot 7}}+{\frac {x^{9}}{3\cdot 5\cdot 7\cdot 9}}+\cdots \right)$ zur Berechnung von $Φ(x)$ mit beliebiger Genauigkeit. Der Nachteil dieses Algorithmus ist die vergleichsweise langsame Berechnungszeit (zum Beispiel dauert es über 300 Iterationen, um die Funktion mit 16 Stellen Genauigkeit zu berechnen, wenn $x = 10$ ist).
Die GNU Scientific Library berechnet die Werte der Standard-Normal-CDF unter Verwendung von Harts Algorithmen und Näherungen mit Tschebyscheff-Polynomen. ⓘ

Shore (1982) führte einfache Approximationen ein, die in stochastischen Optimierungsmodellen des Ingenieurwesens und des Operations Research, wie z.B. der Zuverlässigkeitstechnik und der Bestandsanalyse, eingesetzt werden können. Mit $p = Φ(z)$ ist die einfachste Approximation für die Quantilsfunktion:

z=\Phi ^{-1}(p)=5.5556\left[1-\left({\frac {1-p}{p}}\right)^{0.1186}\right],\qquad p\geq 1/2

ⓘ

Diese Approximation liefert für z einen maximalen absoluten Fehler von 0,026 (für 0,5 ≤ p ≤ 0,9999, entsprechend 0 ≤ z ≤ 3,719). Für $p < 1/2$ ist p durch 1 - p zu ersetzen und das Vorzeichen zu ändern. Eine andere Annäherung, die etwas weniger genau ist, ist die Ein-Parameter-Näherung:

z=-0.4115\left\{{\frac {1-p}{p}}+\log \left[{\frac {1-p}{p}}\right]-1\right\},\qquad p\geq 1/2

ⓘ

Letztere diente zur Ableitung einer einfachen Näherung für das Verlustintegral der Normalverteilung, definiert durch

{\begin{aligned}L(z)&=\int _{z}^{\infty }(u-z)\varphi (u)\,du=\int _{z}^{\infty }[1-\Phi (u)]\,du\\[5pt]L(z)&\approx {\begin{cases}0.4115\left({\dfrac {p}{1-p}}\right)-z,&p<1/2,\\\\0.4115\left({\dfrac {1-p}{p}}\right),&p\geq 1/2.\end{cases}}\\[5pt]{\text{or, equivalently,}}\\L(z)&\approx {\begin{cases}0.4115\left\{1-\log \left[{\frac {p}{1-p}}\right]\right\},&p<1/2,\\\\0.4115{\dfrac {1-p}{p}},&p\geq 1/2.\end{cases}}\end{aligned}}

ⓘ

Diese Näherung ist besonders genau für den rechten Ausläufer (maximaler Fehler von 10-3 für z≥1,4). Sehr genaue Näherungen für die CDF, die auf der Response Modeling Methodology (RMM, Shore, 2011, 2012) basieren, sind in Shore (2005) dargestellt. ⓘ

Einige weitere Näherungen finden Sie unter: Error function#Approximation with elementary functions. Insbesondere ist ein kleiner relativer Fehler auf dem gesamten Gebiet für die CDF $\Phi$ und die Quantilsfunktion $\Phi ^{-1}$ wird durch eine explizit invertierbare Formel von Sergei Winitzki (2008) erreicht. ⓘ

Geschichte

Entwicklung

Einige Autoren schreiben das Verdienst für die Entdeckung der Normalverteilung de Moivre zu, der 1738 in der zweiten Auflage seiner "Doctrine of Chances" die Untersuchung der Koeffizienten in der Binomialentwicklung von $(a + b)n$ veröffentlichte. De Moivre wies nach, dass der mittlere Term in dieser Entwicklung die ungefähre Größenordnung von ${\textstyle 2^{n}/{\sqrt {2\pi n}}}$ Wenn m oder 1/2n eine unendlich große Menge ist, dann ist der Logarithmus des Verhältnisses, das ein Term, der durch das Intervall ℓ von der Mitte entfernt ist, zum mittleren Term hat, ${\textstyle -{\frac {2\ell \ell }{n}}}$ ." Obwohl dieses Theorem als der erste obskure Ausdruck für das Normalwahrscheinlichkeitsgesetz interpretiert werden kann, weist Stigler darauf hin, dass de Moivre selbst seine Ergebnisse nur als Näherungsregel für die Binomialkoeffizienten interpretierte, und insbesondere fehlte de Moivre das Konzept der Wahrscheinlichkeitsdichtefunktion. ⓘ

Carl Friedrich Gauß entdeckte 1809 die Normalverteilung als eine Möglichkeit, die Methode der kleinsten Quadrate zu rationalisieren. ⓘ

1823 veröffentlichte Gauß seine Monographie "Theoria combinationis observationum erroribus minimis obnoxiae", in der er unter anderem mehrere wichtige statistische Konzepte vorstellte, wie die Methode der kleinsten Quadrate, die Methode der maximalen Wahrscheinlichkeit und die Normalverteilung. Gauß benutzte M, M′, M′′, ..., um die Messungen einer unbekannten Größe V zu bezeichnen, und suchte den "wahrscheinlichsten" Schätzer dieser Größe: denjenigen, der die Wahrscheinlichkeit φ(M - V) - φ(M′ - V) - φ(M′′ - V) - ... des Erhalts der beobachteten experimentellen Ergebnisse maximiert. In seiner Notation ist φΔ die Wahrscheinlichkeitsdichtefunktion der Messfehler der Größe Δ. Da Gauß nicht weiß, was die Funktion φ ist, verlangt er, dass sich seine Methode auf die bekannte Antwort reduziert: das arithmetische Mittel der Messwerte. Ausgehend von diesen Grundsätzen zeigt Gauß, dass das einzige Gesetz, das die Wahl des arithmetischen Mittels als Schätzer des Ortsparameters rationalisiert, das Normalgesetz der Fehler ist:

\varphi {\mathit {\Delta }}={\frac {h}{\surd \pi }}\,e^{-\mathrm {hh} \Delta \Delta },

wobei h "das Maß für die Genauigkeit der Beobachtungen" ist. Unter Verwendung dieses Normalgesetzes als allgemeines Modell für Fehler in den Experimenten formuliert Gauß das, was heute als die nichtlineare gewichtete Methode der kleinsten Quadrate bekannt ist. ⓘ

Pierre-Simon Laplace bewies 1810 den zentralen Grenzwertsatz und festigte damit die Bedeutung der Normalverteilung in der Statistik. ⓘ

Obwohl Gauß als Erster das Gesetz der Normalverteilung vorschlug, leistete Laplace bedeutende Beiträge. Laplace war es, der 1774 erstmals das Problem der Aggregation mehrerer Beobachtungen stellte, wobei seine eigene Lösung zur Laplaceschen Verteilung führte. Laplace berechnete 178² erstmals den Wert des Integrals ∫ e-t2 dt = √ $π$ und lieferte damit die Normalisierungskonstante für die Normalverteilung. Schließlich war es Laplace, der 1810 den grundlegenden zentralen Grenzwertsatz bewies und der Akademie vorstellte, der die theoretische Bedeutung der Normalverteilung unterstrich. ⓘ

Interessanterweise veröffentlichte der irisch-amerikanische Mathematiker Robert Adrain 1809 gleichzeitig und unabhängig von Gauß zwei aufschlussreiche, aber mangelhafte Ableitungen des Normalwahrscheinlichkeitsgesetzes. Seine Arbeiten blieben von der wissenschaftlichen Gemeinschaft weitgehend unbemerkt, bis sie 1871 von Abbe wieder hervorgeholt wurden. ⓘ

Mitte des 19. Jahrhunderts zeigte Maxwell, dass die Normalverteilung nicht nur ein praktisches mathematisches Hilfsmittel ist, sondern auch in natürlichen Phänomenen vorkommen kann: "Die Anzahl der Teilchen, deren Geschwindigkeit, aufgelöst in einer bestimmten Richtung, zwischen x und x + dx liegt, ist

\operatorname {N} {\frac {1}{\alpha \;{\sqrt {\pi }}}}\;e^{-{\frac {x^{2}}{\alpha ^{2}}}}\,dx

ⓘ

Benennung

Seit ihrer Einführung ist die Normalverteilung unter vielen verschiedenen Namen bekannt: Fehlergesetz, Gesetz der Fehlerfreundlichkeit, zweites Laplace'sches Gesetz, Gaußsches Gesetz usw. Gauß selbst hat den Begriff anscheinend in Bezug auf die "Normalgleichungen" geprägt, die bei seinen Anwendungen eine Rolle spielen, wobei "normal" eher die technische Bedeutung von "orthogonal" als von "gewöhnlich" hat. Gegen Ende des 19. Jahrhunderts begannen jedoch einige Autoren, den Namen Normalverteilung zu verwenden, wobei das Wort "normal" als Adjektiv verwendet wurde - der Begriff wurde nun als Ausdruck dafür gesehen, dass diese Verteilung als typisch, üblich - und somit "normal" - angesehen wurde. Peirce (einer dieser Autoren) definierte "normal" einst wie folgt: "...das 'Normale' ist nicht der Durchschnitt (oder irgendeine andere Art von Mittelwert) dessen, was tatsächlich eintritt, sondern dessen, was auf lange Sicht unter bestimmten Umständen eintreten würde." Um die Wende zum 20. Jahrhundert machte Pearson den Begriff Normal als Bezeichnung für diese Verteilung populär.

Vor vielen Jahren habe ich die Laplace-Gaußsche Kurve als Normalkurve bezeichnet, eine Bezeichnung, die zwar eine internationale Frage der Priorität vermeidet, aber den Nachteil hat, dass sie zu der Annahme verleitet, dass alle anderen Häufigkeitsverteilungen in der einen oder anderen Weise "abnormal" sind.
- Pearson (1920) ⓘ

Pearson war es auch, der die Verteilung zum ersten Mal in Form der Standardabweichung σ in der modernen Schreibweise beschrieb. Bald darauf, im Jahr 1915, fügte Fisher der Formel für die Normalverteilung den Ortsparameter hinzu und drückte sie so aus, wie sie heute geschrieben wird:

df={\frac {1}{\sqrt {2\sigma ^{2}\pi }}}e^{-(x-m)^{2}/(2\sigma ^{2})}\,dx.

ⓘ

Der Begriff "Standardnormalverteilung", der die Normalverteilung mit Mittelwert Null und Einheitsvarianz bezeichnet, wurde in den 1950er Jahren in den populären Lehrbüchern von P. G. Hoel (1947) "Introduction to mathematical statistics" und A. M. Mood (1950) "Introduction to the theory of statistics" allgemein verwendet. ⓘ

Beziehungen zu anderen Verteilungsfunktionen

Transformation zur Standardnormalverteilung

Eine Normalverteilung mit beliebigen $\mu$ und $\sigma$ und der Verteilungsfunktion $F$ hat, wie oben erwähnt, die nachfolgende Beziehung zur ${\mathcal {N}}(0,1)$ -Verteilung:

F(x)=\Phi \left({\tfrac {x-\mu }{\sigma }}\right)

. ⓘ

Darin ist $\Phi$ die Verteilungsfunktion der Standardnormalverteilung. ⓘ

Wenn $X\sim {\mathcal {N}}(\mu ,\sigma ^{2})$ , dann führt die Standardisierung ⓘ

Z={\frac {X-\mu }{\sigma }}

ⓘ

zu einer standardnormalverteilten Zufallsvariablen $Z$ , denn ⓘ

P(Z\leq z)=P\left({\tfrac {X-\mu }{\sigma }}\leq z\right)=P\left(X\leq \sigma z+\mu \right)=F(\sigma z+\mu )=\Phi (z)

. ⓘ

Geometrisch betrachtet entspricht die durchgeführte Substitution einer flächentreuen Transformation der Glockenkurve von ${\mathcal {N}}(\mu ,\sigma ^{2})$ zur Glockenkurve von ${\mathcal {N}}(0,1)$ . ⓘ

Beziehung zur Cauchy-Verteilung

Der Quotient von zwei stochastisch unabhängigen ${\mathcal {N}}(0,1)$ -standardnormalverteilten Zufallsvariablen ist Cauchy-verteilt. ⓘ

Beziehung zur logarithmischen Normalverteilung

Ist die Zufallsvariable $X$ normalverteilt mit ${\mathcal {N}}(\mu ,\sigma ^{2})$ , dann ist die Zufallsvariable $Y=e^{X}$ logarithmisch-normalverteilt, also $Y\sim {\mathcal {LN}}(\mu ,\sigma ^{2})$ . ⓘ

Die Entstehung einer logarithmischen Normalverteilung ist auf multiplikatives, die einer Normalverteilung auf additives Zusammenwirken vieler Zufallsvariablen zurückführen. ⓘ

Beziehung zur F-Verteilung

Wenn die stochastisch unabhängigen und identisch-normalverteilten Zufallsvariablen $X_{1}^{(1)},X_{2}^{(1)},\dotsc ,X_{n}^{(1)}$ und $X_{1}^{(2)},X_{2}^{(2)},\dotsc ,X_{n}^{(2)}$ die Parameter

\operatorname {E} (X_{i}^{(1)})=\mu _{1},{\sqrt {\operatorname {Var} (X_{i}^{(1)})}}=\sigma _{1}

\operatorname {E} (X_{i}^{(2)})=\mu _{2},{\sqrt {\operatorname {Var} (X_{i}^{(2)})}}=\sigma _{2}

besitzen, dann unterliegt die Zufallsvariable

Y_{n_{1}-1,n_{2}-1}:={\frac {\sigma _{2}(n_{2}-1)\sum \limits _{i=1}^{n_{1}}(X_{i}^{(1)}-{\overline {X}}^{(1)})^{2}}{\sigma _{1}(n_{1}-1)\sum \limits _{j=1}^{n_{2}}(X_{i}^{(2)}-{\overline {X}}^{(2)})^{2}}}

einer F-Verteilung mit $((n_{1}-1,n_{2}-1))$ Freiheitsgraden. Dabei sind

{\overline {X}}^{(1)}={\frac {1}{n_{1}}}\sum _{i=1}^{n_{1}}X_{i}^{(1)},\quad {\overline {X}}^{(2)}={\frac {1}{n_{2}}}\sum _{i=1}^{n_{2}}X_{i}^{(2)}

. ⓘ

Beziehung zur studentschen t-Verteilung

Wenn die unabhängigen Zufallsvariablen $X_{1},X_{2},\dotsc ,X_{n}$ identisch normalverteilt sind mit den Parametern $\mu$ und $\sigma$ , dann unterliegt die stetige Zufallsvariable

Y_{n-1}={\frac {{\overline {X}}-\mu }{S/{\sqrt {n}}}}

mit dem Stichprobenmittel ${\overline {X}}={\frac {1}{n}}\sum _{i=1}^{n}X_{i}$ und der Stichprobenvarianz $S^{2}={\frac {1}{n-1}}\sum _{i=1}^{n}(X_{i}-{\overline {X}})^{2}$ einer studentschen t-Verteilung mit $(n-1)$ Freiheitsgraden. ⓘ

Für eine zunehmende Anzahl an Freiheitsgraden nähert sich die studentsche t-Verteilung der Normalverteilung immer näher an. Als Faustregel gilt, dass man ab ca. $df>30$ die studentsche t-Verteilung bei Bedarf durch die Normalverteilung approximieren kann. ⓘ

Die studentsche t-Verteilung wird zur Konfidenzschätzung für den Erwartungswert einer normalverteilten Zufallsvariable bei unbekannter Varianz verwendet. ⓘ

Rechnen mit der Standardnormalverteilung

Bei Aufgabenstellungen, bei denen die Wahrscheinlichkeit für $\mu$ - ${\sigma }^{2}$ -normalverteilte Zufallsvariablen durch die Standardnormalverteilung ermittelt werden soll, ist es nicht nötig, die oben angegebene Transformation jedes Mal durchzurechnen. Stattdessen wird einfach die Transformation ⓘ

Z={\frac {X-\mu }{\sigma }}

ⓘ

verwendet, um eine ${\mathcal {N}}(0,1)$ -verteilte Zufallsvariable $Z$ zu erzeugen. ⓘ

Die Wahrscheinlichkeit für das Ereignis, dass z. B. $X$ im Intervall $[x,y]$ liegt, ist durch folgende Umrechnung gleich einer Wahrscheinlichkeit der Standardnormalverteilung:

{\begin{aligned}P(x\leq X\leq y)&=P\left({\frac {x-\mu }{\sigma }}\leq {\frac {X-\mu }{\sigma }}\leq {\frac {y-\mu }{\sigma }}\right)\\&=P\left({\frac {x-\mu }{\sigma }}\leq Z\leq {\frac {y-\mu }{\sigma }}\right)\\&=\Phi \left({\frac {y-\mu }{\sigma }}\right)-\Phi \left({\frac {x-\mu }{\sigma }}\right)\end{aligned}}

. ⓘ

Grundlegende Fragestellungen

Allgemein gibt die Verteilungsfunktion die Fläche unter der Glockenkurve bis zum Wert $x$ an, d. h., es wird das bestimmte Integral von $-\infty$ bis $x$ berechnet. ⓘ

Dies entspricht in Aufgabenstellungen einer gesuchten Wahrscheinlichkeit, bei der die Zufallsvariable $X$ kleiner oder nicht größer als eine bestimmte Zahl $x$ ist. Wegen der Stetigkeit der Normalverteilung macht es keinen Unterschied, ob nun $<$ oder $\leq$ verlangt ist, weil z. B.

P(X=3)=\int _{3}^{3}f(x)\mathrm {d} x=0

und somit

P(X<3)=P(X\leq 3)

.

Analoges gilt für „größer“ und „nicht kleiner“. ⓘ

Dadurch, dass $X$ nur kleiner oder größer als eine Grenze sein (oder innerhalb oder außerhalb zweier Grenzen liegen) kann, ergeben sich für Aufgaben bei Wahrscheinlichkeitsberechnungen zu Normalverteilungen zwei grundlegende Fragestellungen:

Wie groß ist die Wahrscheinlichkeit, dass bei einem Zufallsexperiment die standardnormalverteilte Zufallsvariable $Z$ höchstens den Wert $z$ annimmt?
$P(Z\leq z)=\Phi (z)$

In der Schulmathematik wird für diese Aussage gelegentlich auch die Bezeichnung linker Spitz verwendet, da die Fläche unter der Gaußkurve von links bis zur Grenze verläuft. Für

z

sind auch negative Werte erlaubt. Allerdings haben viele Tabellen der Standardnormalverteilung nur positive Einträge – wegen der Symmetrie der Kurve und der Negativitätsregel

\Phi (-z)\ =\ 1-\Phi (z)

des „linken Spitzes“ stellt dies aber keine Einschränkung dar.

Wie groß ist die Wahrscheinlichkeit, dass bei einem Zufallsexperiment die standardnormalverteilte Zufallsvariable $Z$ mindestens den Wert $z$ annimmt?

P(Z\geq z)=1-\Phi (z)

Hier wird gelegentlich die Bezeichnung rechter Spitz verwendet, mit

P(Z\geq -z)=1-\Phi (-z)=1-(1-\Phi (z))=\Phi (z)

gibt es auch hier eine Negativitätsregel. ⓘ

Da jede Zufallsvariable $X$ mit der allgemeinen Normalverteilung sich in die Zufallsvariable $Z={\frac {X-\mu }{\sigma }}$ mit der Standardnormalverteilung umwandeln lässt, gelten die Fragestellungen für beide Größen gleichbedeutend. ⓘ

Streubereich und Antistreubereich

Häufig ist die Wahrscheinlichkeit für einen Streubereich von Interesse, d. h. die Wahrscheinlichkeit, dass die standardnormalverteilte Zufallsvariable $Z$ Werte zwischen $z_{1}$ und $z_{2}$ annimmt:

P(z_{1}\leq Z\leq z_{2})=\Phi (z_{2})-\Phi (z_{1})

ⓘ

Beim Sonderfall des symmetrischen Streubereiches ( $z_{1}=-z_{2}$ , mit $z_{2}>0$ ) gilt

{\begin{aligned}P(-z\leq Z\leq z)&=P(|Z|\leq z)\\&=\Phi (z)-\Phi (-z)\\&=\Phi (z)-(1-\Phi (z))\\&=2\Phi (z)-1.\end{aligned}}

ⓘ

Für den entsprechenden Antistreubereich ergibt sich die Wahrscheinlichkeit, dass die standardnormalverteilte Zufallsvariable $Z$ Werte außerhalb des Bereichs zwischen $z_{1}$ und $z_{2}$ annimmt, zu:

P(Z\leq z_{1}{\text{ oder }}Z\geq z_{2})=\Phi (z_{1})+(1-\Phi (z_{2})).

ⓘ

Somit folgt bei einem symmetrischen Antistreubereich

{\begin{aligned}P(Z\leq -z{\text{ oder }}Z\geq z)&=P(|Z|\geq z)\\&=\Phi (-z)+1-\Phi (z)\\&=1-\Phi (z)+1-\Phi (z)\\&=2-2\Phi (z).\end{aligned}}

ⓘ

Streubereiche am Beispiel der Qualitätssicherung

Besondere Bedeutung haben beide Streubereiche z. B. bei der Qualitätssicherung von technischen oder wirtschaftlichen Produktionsprozessen. Hier gibt es einzuhaltende Toleranzgrenzen $x_{1}$ und $x_{2}$ , wobei es meist einen größten noch akzeptablen Abstand $\epsilon$ vom Erwartungswert $\mu$ (= dem optimalen Sollwert) gibt. Die Standardabweichung $\sigma$ kann hingegen empirisch aus dem Produktionsprozess gewonnen werden. ⓘ

Wurde $[x_{1};x_{2}]=[\mu -\epsilon ;\mu +\epsilon ]$ als einzuhaltendes Toleranzintervall angegeben, so liegt (je nach Fragestellung) ein symmetrischer Streu- oder Antistreubereich vor. ⓘ

Im Falle des Streubereiches gilt:

{\begin{aligned}P(x_{1}\leq X\leq x_{2})&=P(|X-\mu |\leq \epsilon )\\&=P(\mu -\epsilon \leq X\leq \mu +\epsilon )\\&=P\left({\frac {-\epsilon }{\sigma }}\leq Z\leq {\frac {\epsilon }{\sigma }}\right)\\&=\Phi \left({\frac {\epsilon }{\sigma }}\right)-\Phi \left({\frac {-\epsilon }{\sigma }}\right)\\&=2\Phi \left({\frac {\epsilon }{\sigma }}\right)-1\\&=\gamma \end{aligned}}

. ⓘ

Der Antistreubereich ergibt sich dann aus

P(|X-\mu |\geq \epsilon )=1-\gamma

oder wenn kein Streubereich berechnet wurde durch

P(|X-\mu |\geq \epsilon )=2\cdot \left(1-\Phi \left({\frac {\epsilon }{\sigma }}\right)\right)=\alpha .

ⓘ

Das Ergebnis $\gamma$ ist also die Wahrscheinlichkeit für verkaufbare Produkte, während $\alpha$ die Wahrscheinlichkeit für Ausschuss bedeutet, wobei beides von den Vorgaben von $\mu$ , $\sigma$ und $\epsilon$ abhängig ist. ⓘ

Ist bekannt, dass die maximale Abweichung $\epsilon$ symmetrisch um den Erwartungswert liegt, so sind auch Fragestellungen möglich, bei denen die Wahrscheinlichkeit vorgegeben und eine der anderen Größen zu berechnen ist. ⓘ

Erzeugung normalverteilter Zufallszahlen

Zwölferregel

Der zentrale Grenzwertsatz besagt, dass sich unter bestimmten Voraussetzungen die Verteilung der Summe unabhängig und identisch verteilter Zufallszahlen einer Normalverteilung nähert. ⓘ

Ein Spezialfall ist die Zwölferregel, die sich auf die Summe von zwölf Zufallszahlen aus einer Gleichverteilung auf dem Intervall [0,1] beschränkt und bereits zu passablen Verteilungen führt. ⓘ

Allerdings ist die geforderte Unabhängigkeit der zwölf Zufallsvariablen $X_{i}$ bei den immer noch häufig verwendeten Linearen Kongruenzgeneratoren (LKG) nicht garantiert. Im Gegenteil wird vom Spektraltest für LKG meist nur die Unabhängigkeit von maximal vier bis sieben der $X_{i}$ garantiert. Für numerische Simulationen ist die Zwölferregel daher sehr bedenklich und sollte, wenn überhaupt, dann ausschließlich mit aufwändigeren, aber besseren Pseudo-Zufallsgeneratoren wie z. B. dem Mersenne-Twister (Standard in Python, GNU R) oder WELL genutzt werden. Andere, sogar leichter zu programmierende Verfahren, sind daher i. d. R. der Zwölferregel vorzuziehen. ⓘ

Verwerfungsmethode

Normalverteilungen lassen sich mit der Verwerfungsmethode (siehe dort) simulieren. ⓘ

Inversionsmethode

Die Normalverteilung lässt sich auch mit der Inversionsmethode berechnen. ⓘ

Da das Fehlerintegral nicht explizit mit elementaren Funktionen integrierbar ist, kann man auf Reihenentwicklungen der inversen Funktion für einen Startwert und anschließende Korrektur mit dem Newtonverfahren zurückgreifen. Dazu werden $\operatorname {erf} (x)$ und $\operatorname {erfc} (x)$ benötigt, die ihrerseits mit Reihenentwicklungen und Kettenbruchentwicklungen berechnet werden können – insgesamt ein relativ hoher Aufwand. Die notwendigen Entwicklungen sind in der Literatur zu finden. ⓘ

Entwicklung des inversen Fehlerintegrals (wegen des Pols nur als Startwert für das Newtonverfahren verwendbar):

\operatorname {erf} ^{-1}\left({\frac {2}{\sqrt {\pi }}}x\right)=x{\Bigl (}a_{1}+x^{2}{\bigl (}a_{2}+x^{2}(\dotsb ){\bigr )}{\Bigr )}

ⓘ

mit den Koeffizienten

{\begin{aligned}a_{i}&=1,{\tfrac {1}{3}},{\tfrac {7}{30}},{\tfrac {127}{630}},{\tfrac {4369}{22680}},{\tfrac {34807}{178200}},\dotsc \end{aligned}}

ⓘ

Anwendungen außerhalb der Wahrscheinlichkeitsrechnung

Die Normalverteilung lässt sich auch zur Beschreibung nicht direkt stochastischer Sachverhalte verwenden, etwa in der Physik für das Amplitudenprofil der Gauß-Strahlen und andere Verteilungsprofile. ⓘ

Zudem findet sie Verwendung in der Gabor-Transformation. ⓘ

Wahrscheinlichkeitsdichtefunktion Die rote Kurve ist die Standardnormalverteilung
Kumulative Verteilungsfunktion
Notation	${\mathcal {N}}(\mu ,\sigma ^{2})$
Parameter	$\mu \in \mathbb {R}$ = Mittelwert (Ort) $\sigma ^{2}\in \mathbb {R} _{>0}$ = Varianz (Skalenquadrat)
Unterstützung	$x\in \mathbb {R}$
PDF	${\frac {1}{\sigma {\sqrt {2\pi }}}}e^{-{\frac {1}{2}}\left({\frac {x-\mu }{\sigma }}\right)^{2}}$
CDF	${\frac {1}{2}}\left[1+\operatorname {erf} \left({\frac {x-\mu }{\sigma {\sqrt {2}}}}\right)\right]$
Quantil	$\mu +\sigma {\sqrt {2}}\operatorname {erf} ^{-1}(2p-1)$
Mittelwert	$\mu$
Median	$\mu$
Modus	$\mu$
Varianz	$\sigma ^{2}$
MAD	$\sigma {\sqrt {2/\pi }}$
Schrägheit	$0$
Bsp. Kurtosis	$0$
Entropie	${\frac {1}{2}}\log(2\pi \sigma ^{2})+{\frac {1}{2}}$
MGF	$\exp(\mu t+\sigma ^{2}t^{2}/2)$
CF	$\exp(i\mu t-\sigma ^{2}t^{2}/2)$
Fisher-Information	${\mathcal {I}}(\mu ,\sigma )={\begin{pmatrix}1/\sigma ^{2}&0\\0&2/\sigma ^{2}\end{pmatrix}}$ ${\mathcal {I}}(\mu ,\sigma ^{2})={\begin{pmatrix}1/\sigma ^{2}&0\\0&1/(2\sigma ^{4})\end{pmatrix}}$
Kullback-Leibler-Divergenz	${1 \over 2}\left\{\left({\frac {\sigma _{0}}{\sigma _{1}}}\right)^{2}+{\frac {(\mu _{1}-\mu _{0})^{2}}{\sigma _{1}^{2}}}-1+\ln {\sigma _{1}^{2} \over \sigma _{0}^{2}}\right\}$

Wahrscheinlichkeitsrechnung
Teil einer Serie über Statistik ⓘ

Wahrscheinlichkeit Axiome Determinismus System Indeterminismus Zufälligkeit
Wahrscheinlichkeitsraum Stichprobenraum Ereignis Kollektiv erschöpfende Ereignisse Elementares Ereignis Gegenseitige Ausschließlichkeit Ergebnis Singleton Versuch Bernoulli-Versuch Wahrscheinlichkeitsverteilung Bernoulli-Verteilung Binomialverteilung Normalverteilung Wahrscheinlichkeitsmaß Zufallsvariable Bernoulli-Prozess Kontinuierlich oder diskret Erwarteter Wert Markov-Kette Beobachteter Wert Zufallsbewegung Stochastischer Prozess
Komplementäres Ereignis Gemeinsame Wahrscheinlichkeit Marginalwahrscheinlichkeit Bedingte Wahrscheinlichkeit
Unabhängigkeit Bedingte Unabhängigkeit Gesetz der Gesamtwahrscheinlichkeit Gesetz der großen Zahlen Bayes-Theorem Boole'sche Ungleichung
Venn-Diagramm Baumdiagramm
v t e