Normalverteilung – Wikipedia

before-content-x4

Wahrscheinlichkeitsverteilung

In der Wahrscheinlichkeitstheorie a normal (oder Gaußsch oder Gauß oder Laplace-Gauß) Verteilung ist eine Art kontinuierliche Wahrscheinlichkeitsverteilung für eine reelle Zufallsvariable. Die allgemeine Form seiner Wahrscheinlichkeitsdichtefunktion ist

Der Parameter

μ{ displaystyle mu}

ist der Mittelwert oder die Erwartung der Verteilung (sowie deren Median und Modus), während der Parameter

σ{ displaystyle sigma}

ist seine Standardabweichung.[1] Die Varianz der Verteilung ist

σ2{ displaystyle sigma ^ {2}}

.[2] Eine Zufallsvariable mit einer Gaußschen Verteilung soll sein normal verteiltund heißt a normal abweichen.

Normalverteilungen sind in der Statistik wichtig und werden in den Natur- und Sozialwissenschaften häufig verwendet, um reelle Zufallsvariablen darzustellen, deren Verteilungen nicht bekannt sind.[3][4] Ihre Bedeutung ist teilweise auf den zentralen Grenzwertsatz zurückzuführen. Es heißt, dass unter bestimmten Bedingungen der Durchschnitt vieler Stichproben (Beobachtungen) einer Zufallsvariablen mit endlichem Mittelwert und Varianz selbst eine Zufallsvariable ist – deren Verteilung mit zunehmender Anzahl von Stichproben zu einer Normalverteilung konvergiert. Daher weisen physikalische Größen, von denen erwartet wird, dass sie die Summe vieler unabhängiger Prozesse sind, wie z. B. Messfehler, häufig nahezu normale Verteilungen auf.[5]

Darüber hinaus haben Gaußsche Verteilungen einige einzigartige Eigenschaften, die für analytische Studien wertvoll sind. Beispielsweise ist jede lineare Kombination einer festen Sammlung normaler Abweichungen eine normale Abweichung. Viele Ergebnisse und Methoden, wie die Ausbreitung der Unsicherheit und die Anpassung der Parameter der kleinsten Quadrate, können in expliziter Form analytisch abgeleitet werden, wenn die relevanten Variablen normal verteilt sind.

Eine Normalverteilung wird manchmal informell als a bezeichnet Glockenkurve.[6] Viele andere Distributionen sind jedoch glockenförmig (wie das Cauchy, Student’s tund logistische Verteilungen).

Table of Contents

Definitionen[edit]

Standardnormalverteilung[edit]

Der einfachste Fall einer Normalverteilung ist als bekannt Standardnormalverteilung. Dies ist ein Sonderfall, wenn

μ=0{ displaystyle mu = 0}

und

σ=1{ displaystyle sigma = 1}

und es wird durch diese Wahrscheinlichkeitsdichtefunktion beschrieben:[1]

Hier der Faktor

1/.2π{ displaystyle 1 / { sqrt {2 pi}}}

stellt sicher, dass die Gesamtfläche unter der Kurve

φ(x){ displaystyle varphi (x)}

ist gleich eins.[note 1] Der Faktor

1/.2{ displaystyle 1/2}

im Exponenten stellt sicher, dass die Verteilung eine Einheitsvarianz (dh eine Varianz von eins) und damit auch eine Einheitsstandardabweichung aufweist. Diese Funktion ist symmetrisch

x=0{ displaystyle x = 0}

, wo es seinen Maximalwert erreicht

1/.2π{ displaystyle 1 / { sqrt {2 pi}}}

und hat Wendepunkte bei

x=+1{ displaystyle x = + 1}

und

x=– –1{ displaystyle x = -1}

.

Die Autoren unterscheiden sich darin, welche Normalverteilung als die bezeichnet werden soll “Standard” einer. Carl Friedrich Gauss beispielsweise definierte die Standardnormalen mit einer Varianz von

σ2=1/.2{ displaystyle sigma ^ {2} = 1/2}

. Das ist:

Auf der anderen Seite Stephen Stigler[7] geht noch weiter und definiert die Standardnormalen mit einer Varianz von

σ2=1/.(2π){ displaystyle sigma ^ {2} = 1 / (2 pi)}

::

Allgemeine Normalverteilung[edit]

Jede Normalverteilung ist eine Version der Standardnormalverteilung, deren Domäne um einen Faktor erweitert wurde

σ{ displaystyle sigma}

(die Standardabweichung) und dann übersetzt von

μ{ displaystyle mu}

(der Mittelwert):

Die Wahrscheinlichkeitsdichte muss mit skaliert werden

1/.σ{ displaystyle 1 / sigma}

so dass das Integral noch 1 ist.

Wenn

Z.{ displaystyle Z}

ist also eine normale Standardabweichung

X.=σZ.+μ{ displaystyle X = sigma Z + mu}

wird eine Normalverteilung mit dem erwarteten Wert haben

μ{ displaystyle mu}

und Standardabweichung

σ{ displaystyle sigma}

. Umgekehrt, wenn

X.{ displaystyle X}

ist eine normale Abweichung mit Parametern

μ{ displaystyle mu}

und

σ2{ displaystyle sigma ^ {2}}

, dann die Verteilung

Z.=(X.– –μ)/.σ{ displaystyle Z = (X- mu) / sigma}

wird eine Standardnormalverteilung haben. Diese Variable wird auch als standardisierte Form von bezeichnet

X.{ displaystyle X}

.

Notation[edit]

Die Wahrscheinlichkeitsdichte der Standard-Gauß-Verteilung (Standardnormalverteilung mit Mittelwert Null und Einheitsvarianz) wird häufig mit dem griechischen Buchstaben bezeichnet

ϕ{ displaystyle phi}

(Phi).[8] Die alternative Form des griechischen Buchstabens phi,

φ{ displaystyle varphi}

wird auch ziemlich oft verwendet.[1]

Die Normalverteilung wird oft als bezeichnet

N.(μ,σ2){ displaystyle N ( mu, sigma ^ {2})}

oder

N.(μ,σ2){ displaystyle { mathcal {N}} ( mu, sigma ^ {2})}

.[1][9] Also wenn eine Zufallsvariable

X.{ displaystyle X}

wird normalerweise mit Mittelwert verteilt

μ{ displaystyle mu}

und Standardabweichung

σ{ displaystyle sigma}

kann man schreiben

Alternative Parametrisierungen[edit]

Einige Autoren befürworten die Verwendung der Präzision

τ{ displaystyle tau}

als Parameter, der die Breite der Verteilung anstelle der Abweichung definiert

σ{ displaystyle sigma}

oder die Varianz

σ2{ displaystyle sigma ^ {2}}

. Die Genauigkeit wird normalerweise als Kehrwert der Varianz definiert.

1/.σ2{ displaystyle 1 / sigma ^ {2}}

.[10] Die Formel für die Verteilung lautet dann

Diese Wahl soll Vorteile bei numerischen Berechnungen haben, wenn

σ{ displaystyle sigma}

liegt sehr nahe bei Null und vereinfacht Formeln in einigen Kontexten, z. B. bei der Bayes’schen Inferenz von Variablen mit multivariater Normalverteilung.

Alternativ der Kehrwert der Standardabweichung

τ=1/.σ{ displaystyle tau ^ { prime} = 1 / sigma}

könnte als definiert werden PräzisionIn diesem Fall wird der Ausdruck der Normalverteilung

Laut Stigler ist diese Formulierung aufgrund einer viel einfacheren und leichter zu merkenden Formel und einfacher Näherungsformeln für die Quantile der Verteilung vorteilhaft.

Normalverteilungen bilden eine exponentielle Familie mit natürlichen Parametern

θ1=μσ2{ displaystyle textstyle theta _ {1} = { frac { mu} { sigma ^ {2}}}}

und

θ2=– –12σ2{ displaystyle textstyle theta _ {2} = { frac {-1} {2 sigma ^ {2}}}}

und natürliche Statistiken x und x2. Die doppelten Erwartungsparameter für die Normalverteilung sind η1 = μ und η2 = μ2 + σ2.

Verteilungsfunktion[edit]

Die kumulative Verteilungsfunktion (CDF) der Standardnormalverteilung, die normalerweise mit dem griechischen Großbuchstaben bezeichnet wird

Φ{ displaystyle Phi}

(phi),[1] ist das Integral

Die zugehörige Fehlerfunktion

erf(x){ displaystyle operatorname {erf} (x)}

gibt die Wahrscheinlichkeit einer Zufallsvariablen an, wobei die Normalverteilung von Mittelwert 0 und Varianz 1/2 in den Bereich fällt

[x,x]{ displaystyle [-x,x]}}

. Das ist:[1]

Diese Integrale können nicht als Elementarfunktionen ausgedrückt werden und werden oft als Sonderfunktionen bezeichnet. Es sind jedoch viele numerische Näherungen bekannt; siehe unten für mehr.

Die beiden Funktionen sind nämlich eng miteinander verbunden

Für eine generische Normalverteilung mit Dichte

f{ displaystyle f}

, bedeuten

μ{ displaystyle mu}

und Abweichung

σ{ displaystyle sigma}

ist die kumulative Verteilungsfunktion

Das Komplement der normalen Standard-CDF,

Q.(x)=1– –Φ(x){ displaystyle Q (x) = 1- Phi (x)}

wird oft als Q-Funktion bezeichnet, insbesondere in technischen Texten.[11][12] Es gibt die Wahrscheinlichkeit, dass der Wert einer normalen Standard-Zufallsvariablen

X.{ displaystyle X}

wird überschreiten

x{ displaystyle x}

::

P.(X.>x){ displaystyle P (X> x)}

Q.{ displaystyle Q}

-Funktion, die alle einfache Transformationen von sind

Φ{ displaystyle Phi}

werden auch gelegentlich verwendet.[13]

Das Diagramm der normalen Standard-CDF

Φ{ displaystyle Phi}

hat eine zweifache Rotationssymmetrie um den Punkt (0,1 / 2); das ist,

Φ(– –x)=1– –Φ(x){ displaystyle Phi (-x) = 1- Phi (x)}

. Sein Antiderivativ (unbestimmtes Integral) kann wie folgt ausgedrückt werden:

Die CDF der Standardnormalverteilung kann durch Integration von Teilen in eine Reihe erweitert werden:

wo

!!{ displaystyle !!}

bezeichnet die doppelte Fakultät.

Eine asymptotische Erweiterung des CDF für große x kann auch durch Integration von Teilen abgeleitet werden. Weitere Informationen finden Sie unter Fehlerfunktion # Asymptotische Erweiterung.[14]

Standardabweichung und Abdeckung[edit]

Für die Normalverteilung machen die Werte von weniger als einer Standardabweichung vom Mittelwert 68,27% des Satzes aus; während zwei Standardabweichungen vom Mittelwert 95,45% ausmachen; und drei Standardabweichungen machen 99,73% aus.

Etwa 68% der aus einer Normalverteilung gezogenen Werte liegen innerhalb einer Standardabweichung σ weg vom Mittelwert; etwa 95% der Werte liegen innerhalb von zwei Standardabweichungen; und ungefähr 99,7% liegen innerhalb von drei Standardabweichungen.[6] Diese Tatsache ist als die 68-95-99.7 (empirische) Regel oder die 3-Sigma-Regel.

Genauer gesagt liegt die Wahrscheinlichkeit, dass eine normale Abweichung auftritt, im Bereich zwischen

μ– –nσ{ displaystyle mu -n sigma}

und

μ+nσ{ displaystyle mu + n sigma}

ist gegeben durch

Auf 12 signifikante Zahlen sind die Werte für

n=1,2,,6{ displaystyle n = 1,2, ldots, 6}

sind:[15]

OEIS
1 0,682689492137 0,317310507863 OEIS: A178647
2 0,954499736104 0,045500263896 OEIS: A110894
3 0,997300203937 0,002699796063 OEIS: A270712
4 0,999936657516 0,000063342484
5 0,999999426697 0,000000573303
6 0,999999998027 0,000000001973

Für große

n{ displaystyle n}

kann man die Näherung verwenden

1– –pe– –n2/.2nπ/.2{ displaystyle 1-p approx { frac {e ^ {- n ^ {2} / 2}} {n { sqrt { pi / 2}}}}

.

Quantilfunktion[edit]

Die Quantilfunktion einer Verteilung ist die Umkehrung der kumulativen Verteilungsfunktion. Die Quantilfunktion der Standardnormalverteilung wird als Probit-Funktion bezeichnet und kann als inverse Fehlerfunktion ausgedrückt werden:

Für eine normale Zufallsvariable mit Mittelwert

μ{ displaystyle mu}

und Varianz

σ2{ displaystyle sigma ^ {2}}

ist die Quantilfunktion

Das Quantil

Φ– –1(p){ displaystyle Phi ^ {- 1} (p)}

der Standardnormalverteilung wird üblicherweise als bezeichnet

zp{ displaystyle z_ {p}}

. Diese Werte werden beim Testen von Hypothesen, beim Erstellen von Konfidenzintervallen und bei QQ-Plots verwendet. Eine normale Zufallsvariable

X.{ displaystyle X}

wird überschreiten

μ+zpσ{ displaystyle mu + z_ {p} sigma}

mit Wahrscheinlichkeit

1– –p{ displaystyle 1-p}

und liegt außerhalb des Intervalls

μ±zpσ{ displaystyle mu pm z_ {p} sigma}

mit Wahrscheinlichkeit

2(1– –p){ displaystyle 2 (1-p)}

. Insbesondere das Quantil

z0,975{ displaystyle z_ {0.975}}

ist 1,96; Daher liegt eine normale Zufallsvariable außerhalb des Intervalls

μ±1,96σ{ displaystyle mu pm 1.96 sigma}

in nur 5% der Fälle.

Die folgende Tabelle gibt das Quantil an

zp{ displaystyle z_ {p}}

so dass

X.{ displaystyle X}

wird im Bereich liegen

μ±zpσ{ displaystyle mu pm z_ {p} sigma}

mit einer bestimmten Wahrscheinlichkeit

p{ displaystyle p}

. Diese Werte sind nützlich, um das Toleranzintervall für Stichprobenmittelwerte und andere statistische Schätzer mit normalen (oder asymptotisch normalen) Verteilungen zu bestimmen:[16][17] HINWEIS: Die folgende Tabelle zeigt

2erf– –1(p)=Φ– –1(p+12){ displaystyle { sqrt {2}} operatorname {erf} ^ {- 1} (p) = Phi ^ {- 1} left ({ frac {p + 1} {2}} right)}

nicht

Φ– –1(p){ displaystyle Phi ^ {- 1} (p)}

wie oben definiert.

0,80 1,281551565545 0,999 3,290526731492
0,90 1,644853626951 0,9999 3,890591886413
0,95 1,959963984540 0,99999 4.417173413469
0,98 2.326347874041 0,999999 4.891638475699
0,99 2,575829303549 0,9999999 5.326723886384
0,995 2,807033768344 0,99999999 5.730728868236
0,998 3,090232306168 0,999999999 6.109410204869

Für kleine

p{ displaystyle p}

hat die Quantilfunktion die nützliche asymptotische Expansion

Φ– –1(p)=– –ln1p2– –lnln1p2– –ln(2π)+Ö(1).{ displaystyle Phi ^ {- 1} (p) = – { sqrt { ln { frac {1} {p ^ {2}}} – ln ln { frac {1} {p ^ { 2}}} – ln (2 pi)}} + { mathcal {o}} (1).}

Eigenschaften[edit]

Die Normalverteilung ist die einzige Verteilung, deren Kumulanten jenseits der ersten beiden (dh außer dem Mittelwert und der Varianz) Null sind. Es ist auch die kontinuierliche Verteilung mit der maximalen Entropie für einen bestimmten Mittelwert und eine bestimmte Varianz.[18][19] Geary hat unter der Annahme, dass der Mittelwert und die Varianz endlich sind, gezeigt, dass die Normalverteilung die einzige Verteilung ist, bei der der Mittelwert und die Varianz, die aus einer Reihe unabhängiger Ziehungen berechnet wurden, unabhängig voneinander sind.[20][21]

Die Normalverteilung ist eine Unterklasse der elliptischen Verteilungen. Die Normalverteilung ist symmetrisch zu ihrem Mittelwert und über die gesamte reelle Linie ungleich Null. Als solches ist es möglicherweise kein geeignetes Modell für Variablen, die von Natur aus positiv oder stark verzerrt sind, wie das Gewicht einer Person oder der Preis einer Aktie. Solche Variablen können besser durch andere Verteilungen beschrieben werden, wie beispielsweise die logarithmische Normalverteilung oder die Pareto-Verteilung.

Der Wert der Normalverteilung ist praktisch Null, wenn der Wert

x{ displaystyle x}

liegt mehr als ein paar Standardabweichungen vom Mittelwert entfernt (z. B. deckt eine Streuung von drei Standardabweichungen alle bis auf 0,27% der Gesamtverteilung ab). Daher ist es möglicherweise kein geeignetes Modell, wenn man einen signifikanten Anteil von Ausreißern erwartet – Werte, die viele Standardabweichungen vom Mittelwert entfernt liegen – und kleinste Quadrate und andere statistische Inferenzmethoden, die für normalverteilte Variablen optimal sind, bei Anwendung häufig sehr unzuverlässig werden zu solchen Daten. In diesen Fällen sollte eine stärkere Verteilung angenommen und die geeigneten robusten statistischen Inferenzmethoden angewendet werden.

Die Gaußsche Verteilung gehört zur Familie der stabilen Verteilungen, die die Summen unabhängiger, identisch verteilter Verteilungen anziehen, unabhängig davon, ob der Mittelwert oder die Varianz endlich ist oder nicht. Mit Ausnahme des Gaußschen, der ein Grenzfall ist, haben alle stabilen Verteilungen schwere Schwänze und eine unendliche Varianz. Es ist eine der wenigen Verteilungen, die stabil sind und Wahrscheinlichkeitsdichtefunktionen haben, die analytisch ausgedrückt werden können. Die anderen sind die Cauchy-Verteilung und die Lévy-Verteilung.

Symmetrien und Ableitungen[edit]

Die Normalverteilung mit Dichte

f(x){ displaystyle f (x)}

(bedeuten

μ{ displaystyle mu}

und Standardabweichung

σ>0{ displaystyle sigma> 0}

Dies ist gleichzeitig der Modus, der Median und der Mittelwert der Verteilung.[22]

  • Es ist unimodal: seine erste Ableitung ist positiv für
  • Der Bereich unter der Kurve und über dem
  • Seine erste Ableitung ist
  • Seine Dichte hat zwei Wendepunkte (wobei die zweite Ableitung von
  • Seine Dichte ist logarithmisch konkav.[22]
  • Seine Dichte ist unendlich differenzierbar, in der Tat sehr glatt von Ordnung 2.[23]
  • Weiterhin ist die Dichte

    φ{ displaystyle varphi}

    der Standardnormalverteilung (dh

    μ=0{ displaystyle mu = 0}

    und

    σ=1{ displaystyle sigma = 1}

    ) hat auch folgende Eigenschaften:

    Momente[edit]

    Die einfachen und absoluten Momente einer Variablen

    X.{ displaystyle X}

    sind die erwarteten Werte von

    X.p{ displaystyle X ^ {p}}

    und

    |X.|p{ displaystyle | X | ^ {p}}

    , beziehungsweise. Wenn der erwartete Wert

    μ{ displaystyle mu}

    von

    X.{ displaystyle X}

    ist Null, werden diese Parameter aufgerufen zentrale Momente. Normalerweise interessieren uns nur Momente mit ganzzahliger Reihenfolge

    p{ displaystyle p}

    .

    Wenn

    X.{ displaystyle X}

    hat eine Normalverteilung, diese Momente existieren und sind für jeden endlich

    p{ displaystyle p}

    dessen Realteil größer als -1 ist. Für jede nicht negative ganze Zahl

    p{ displaystyle p}

    Die einfachen zentralen Momente sind:[25]

    Hier

    n!!{ displaystyle n !!}

    bezeichnet die doppelte Fakultät, dh das Produkt aller Zahlen aus

    n{ displaystyle n}

    zu 1, die die gleiche Parität haben wie

    n.{ displaystyle n.}

    Die zentralen absoluten Momente fallen bei allen geraden Aufträgen mit einfachen Momenten zusammen, sind jedoch bei ungeraden Aufträgen ungleich Null. Für jede nicht negative ganze Zahl

    p,{ displaystyle p,}

    Die letzte Formel gilt auch für Nicht-Ganzzahlen

    p>– –1.{ displaystyle p> -1.}

    μ0,{ displaystyle mu neq 0,}

    Die einfachen und absoluten Momente können als konfluente hypergeometrische Funktionen ausgedrückt werden

    1F.1{ displaystyle {} _ {1} F_ {1}}

    und

    U..{ displaystyle U.}

    [citation needed]

    Diese Ausdrücke bleiben auch dann gültig

    p{ displaystyle p}

    ist keine ganze Zahl. Siehe auch verallgemeinerte Hermite-Polynome.

    Die Erwartung von

    X.{ displaystyle X}

    bedingt durch den Fall, dass

    X.{ displaystyle X}

    liegt in einem Intervall

    [a,b]{ displaystyle [a,b]}}

    ist gegeben durch

    wo

    f{ displaystyle f}

    und

    F.{ displaystyle F}

    jeweils sind die Dichte und die kumulative Verteilungsfunktion von

    X.{ displaystyle X}

    . Zum

    b={ displaystyle b = infty}

    Dies ist als inverses Mills-Verhältnis bekannt. Beachten Sie, dass oben Dichte

    f{ displaystyle f}

    von

    X.{ displaystyle X}

    wird anstelle der normalen Standarddichte wie im inversen Mills-Verhältnis verwendet, also haben wir hier

    σ2{ displaystyle sigma ^ {2}}

    Anstatt von

    σ{ displaystyle sigma}

    .

    Fourier-Transformation und charakteristische Funktion[edit]

    Die Fourier-Transformation einer normalen Dichte

    f{ displaystyle f}

    mit gemein

    μ{ displaystyle mu}

    und Standardabweichung

    σ{ displaystyle sigma}

    ist[26]

    Verwandte Distributionen[edit]

    Zentraler Grenzwertsatz[edit]

    Wenn die Anzahl der diskreten Ereignisse zunimmt, ähnelt die Funktion einer Normalverteilung

    Vergleich der Wahrscheinlichkeitsdichtefunktionen,

    Der zentrale Grenzwertsatz besagt, dass unter bestimmten (ziemlich häufigen) Bedingungen die Summe vieler Zufallsvariablen eine annähernd normale Verteilung aufweist. Genauer gesagt, wo

    X.1,,X.n{ displaystyle X_ {1}, ldots, X_ {n}}

    sind unabhängige und identisch verteilte Zufallsvariablen mit derselben willkürlichen Verteilung, demselben Mittelwert von Null und derselben Varianz

    σ2{ displaystyle sigma ^ {2}}

    und

    Z.{ displaystyle Z}

    ist ihr Mittelwert skaliert durch

    n{ displaystyle { sqrt {n}}}

    Dann als

    n{ displaystyle n}

    erhöht sich die Wahrscheinlichkeitsverteilung von

    Z.{ displaystyle Z}

    tendiert zur Normalverteilung mit Mittelwert und Varianz Null

    σ2{ displaystyle sigma ^ {2}}

    .

    Der Satz kann auf Variablen erweitert werden

    (X.ich){ displaystyle (X_ {i})}

    die nicht unabhängig und / oder nicht identisch verteilt sind, wenn bestimmte Einschränkungen für den Grad der Abhängigkeit und die Momente der Verteilungen gelten.

    Viele in der Praxis angetroffene Teststatistiken, Scores und Schätzer enthalten Summen bestimmter Zufallsvariablen, und noch mehr Schätzer können mithilfe von Einflussfunktionen als Summen von Zufallsvariablen dargestellt werden. Der zentrale Grenzwertsatz impliziert, dass diese statistischen Parameter asymptotisch Normalverteilungen aufweisen.

    Der zentrale Grenzwertsatz impliziert auch, dass bestimmte Verteilungen durch die Normalverteilung angenähert werden können, zum Beispiel:

    Ob diese Näherungen ausreichend genau sind, hängt von dem Zweck ab, für den sie benötigt werden, und von der Konvergenzrate zur Normalverteilung. Es ist typischerweise der Fall, dass solche Annäherungen in den Schwänzen der Verteilung weniger genau sind.

    Eine allgemeine Obergrenze für den Approximationsfehler im zentralen Grenzwertsatz ist der Berry-Esseen-Satz, Verbesserungen der Approximation sind die Edgeworth-Erweiterungen.

    Operationen an einer einzelnen Zufallsvariablen[edit]

    Wenn X. wird normal mit Mittelwert verteilt μ und Varianz σ2, dann

    Kombination zweier unabhängiger Zufallsvariablen[edit]

    Wenn

    X.1{ displaystyle X_ {1}}

    und

    X.2{ displaystyle X_ {2}}

    sind dann zwei unabhängige normale Standard-Zufallsvariablen mit Mittelwert 0 und Varianz 1

    Kombination von zwei oder mehr unabhängigen Zufallsvariablen[edit]

    • Wenn
    • Wenn
    • Wenn

    Operationen an der Dichtefunktion[edit]

    Die geteilte Normalverteilung wird am direktesten definiert, indem skalierte Abschnitte der Dichtefunktionen verschiedener Normalverteilungen zusammengefügt und die Dichte neu skaliert werden, um sie zu einer zu integrieren. Die abgeschnittene Normalverteilung ergibt sich aus der Neuskalierung eines Abschnitts einer einzelnen Dichtefunktion.

    Erweiterungen[edit]

    Der Begriff der Normalverteilung als eine der wichtigsten Verteilungen in der Wahrscheinlichkeitstheorie wurde weit über den Standardrahmen des univariaten (dh eindimensionalen) Falls hinaus erweitert (Fall 1). Alle diese Erweiterungen werden auch genannt normal oder Gaußsch Gesetze, so dass eine gewisse Mehrdeutigkeit in Namen besteht.

    • Die multivariate Normalverteilung beschreibt das Gaußsche Gesetz in der k-dimensionaler euklidischer Raum. Ein Vektor X.R.k ist multivariat normalverteilt, wenn eine lineare Kombination seiner Komponenten vorliegt k
      j= 1
      einj X.j
      hat eine (univariate) Normalverteilung. Die Varianz von X. ist ein k × k symmetrische positiv-definitive Matrix V.. Die multivariate Normalverteilung ist ein Sonderfall der elliptischen Verteilungen. Als solches sind seine Isodichtestellen in der k = 2 Fall sind Ellipsen und im Fall von willkürlich k sind Ellipsoide.
    • Gleichgerichtete Gaußsche Verteilung Eine gleichgerichtete Version der Normalverteilung, bei der alle negativen Elemente auf 0 zurückgesetzt werden
    • Die komplexe Normalverteilung befasst sich mit den komplexen Normalenvektoren. Ein komplexer Vektor X.C.k wird als normal bezeichnet, wenn sowohl seine realen als auch seine imaginären Komponenten gemeinsam eine 2 besitzenk-dimensionale multivariate Normalverteilung. Die Varianz-Kovarianz-Struktur von X. wird durch zwei Matrizen beschrieben: die Varianz Matrix Γ und die Beziehung Matrix C..
    • Die Matrixnormalverteilung beschreibt den Fall normalverteilter Matrizen.
    • Gaußsche Prozesse sind die normalverteilten stochastischen Prozesse. Diese können als Elemente eines unendlich dimensionalen Hilbert-Raums angesehen werden H.und sind somit die Analoga multivariater Normalvektoren für den Fall k = ∞. Ein zufälliges Element hH. wird als normal bezeichnet, wenn für eine Konstante einH. das skalare Produkt (ein, h) hat eine (univariate) Normalverteilung. Die Varianzstruktur eines solchen Gaußschen Zufallselements kann linear beschrieben werden Kovarianz Operator K: H → H.. Mehrere Gaußsche Prozesse wurden populär genug, um ihre eigenen Namen zu haben:
    • Die Gaußsche q-Verteilung ist eine abstrakte mathematische Konstruktion, die a darstellt “q-analog” der Normalverteilung.
    • Der q-Gaußsche ist ein Analogon der Gaußschen Verteilung in dem Sinne, dass er die Tsallis-Entropie maximiert und eine Art der Tsallis-Verteilung ist. Beachten Sie, dass sich diese Verteilung von der obigen Gaußschen q-Verteilung unterscheidet.

    Eine Zufallsvariable X. hat eine zweiteilige Normalverteilung, wenn es eine Verteilung hat

    wo μ ist der Mittelwert und σ1 und σ2 sind die Standardabweichungen der Verteilung links und rechts vom Mittelwert.

    Der Mittelwert, die Varianz und das dritte zentrale Moment dieser Verteilung wurden bestimmt[48]

    wo E (X.), V (X.) und T(X.) sind der Mittelwert, die Varianz und das dritte zentrale Moment.

    Eine der wichtigsten praktischen Anwendungen des Gaußschen Gesetzes besteht darin, die empirischen Verteilungen vieler verschiedener Zufallsvariablen zu modellieren, die in der Praxis auftreten. In einem solchen Fall wäre eine mögliche Erweiterung eine reichhaltigere Verteilungsfamilie mit mehr als zwei Parametern und daher in der Lage, die empirische Verteilung genauer anzupassen. Die Beispiele für solche Erweiterungen sind:

    • Pearson-Verteilung – eine Vier-Parameter-Familie von Wahrscheinlichkeitsverteilungen, die das Normalgesetz um unterschiedliche Skewness- und Kurtosis-Werte erweitern.
    • Die verallgemeinerte Normalverteilung, auch als exponentielle Leistungsverteilung bekannt, ermöglicht Verteilungsschwänze mit dickerem oder dünnerem asymptotischem Verhalten.

    Statistische Inferenz[edit]

    Schätzung von Parametern[edit]

    Es ist häufig der Fall, dass wir die Parameter der Normalverteilung nicht kennen, sondern sie schätzen wollen. Das heißt, eine Probe haben

    (x1,,xn){ displaystyle (x_ {1}, ldots, x_ {n})}

    von einem normalen

    N.(μ,σ2){ displaystyle N ( mu, sigma ^ {2})}

    Bevölkerung möchten wir die ungefähren Werte der Parameter lernen

    μ{ displaystyle mu}

    und

    σ2{ displaystyle sigma ^ {2}}

    . Der Standardansatz für dieses Problem ist die Maximum-Likelihood-Methode, die eine Maximierung der Log-Likelihood-Funktion::

    Derivate in Bezug auf nehmen

    μ{ displaystyle mu}

    und

    σ2{ displaystyle sigma ^ {2}}

    und das Lösen des resultierenden Systems von Bedingungen erster Ordnung ergibt die Schätzungen der maximalen Wahrscheinlichkeit::

    Stichprobenmittelwert[edit]

    Schätzer

    μ^{ displaystyle textstyle { hat { mu}}}

    heißt das Stichprobenmittelwert, da es das arithmetische Mittel aller Beobachtungen ist. Die Statistik

    x¯{ displaystyle textstyle { overline {x}}}

    ist vollständig und ausreichend für

    μ{ displaystyle mu}

    und daher nach dem Lehmann-Scheffé-Theorem,

    μ^{ displaystyle textstyle { hat { mu}}}

    ist der UMVU-Schätzer (Uniformly Minimum Varianz Unvoreingenommen).[49] In endlichen Stichproben ist es normal verteilt:

    Die Varianz dieses Schätzers ist gleich der μμ-Element der inversen Fisher-Informationsmatrix

    ich– –1{ displaystyle textstyle { mathcal {I}} ^ {- 1}}

    . Dies impliziert, dass der Schätzer eine endliche Stichprobeneffizienz aufweist. Von praktischer Bedeutung ist die Tatsache, dass der Standardfehler von

    μ^{ displaystyle textstyle { hat { mu}}}

    ist proportional zu

    1/.n{ displaystyle textstyle 1 / { sqrt {n}}}

    Das heißt, wenn man den Standardfehler um den Faktor 10 verringern möchte, muss man die Anzahl der Punkte in der Stichprobe um den Faktor 100 erhöhen. Diese Tatsache wird häufig bei der Bestimmung der Stichprobengröße für Meinungsumfragen und der Anzahl der Punkte verwendet Versuche in Monte-Carlo-Simulationen.

    Vom Standpunkt der asymptotischen Theorie aus

    μ^{ displaystyle textstyle { hat { mu}}}

    ist konsistent, das heißt, es konvergiert in der Wahrscheinlichkeit zu

    μ{ displaystyle mu}

    wie

    n{ displaystyle n rightarrow infty}

    . Der Schätzer ist auch asymptotisch normal, was eine einfache Folge der Tatsache ist, dass er in endlichen Stichproben normal ist:

    Stichprobenvarianz[edit]

    Der Schätzer

    σ^2{ displaystyle textstyle { hat { sigma}} ^ {2}}

    heißt das Stichprobenvarianz, da es sich um die Varianz der Stichprobe handelt (

    (x1,,xn){ displaystyle (x_ {1}, ldots, x_ {n})}

    ). In der Praxis wird häufig ein anderer Schätzer anstelle des verwendet

    σ^2{ displaystyle textstyle { hat { sigma}} ^ {2}}

    . Dieser andere Schätzer wird bezeichnet

    s2{ displaystyle s ^ {2}}

    und wird auch als bezeichnet Stichprobenvarianz, was eine gewisse Mehrdeutigkeit in der Terminologie darstellt; seine Quadratwurzel

    s{ displaystyle s}

    heißt das Standardabweichung der Probe. Der Schätzer

    s2{ displaystyle s ^ {2}}

    unterscheidet sich von

    σ^2{ displaystyle textstyle { hat { sigma}} ^ {2}}

    indem (n – 1) Anstatt von n im Nenner (die sogenannte Besselsche Korrektur):

    Der Unterschied zwischen

    s2{ displaystyle s ^ {2}}

    und

    σ^2{ displaystyle textstyle { hat { sigma}} ^ {2}}

    wird für große vernachlässigbar klein ns. In endlichen Stichproben ist jedoch die Motivation hinter der Verwendung von

    s2{ displaystyle s ^ {2}}

    ist, dass es ein unvoreingenommener Schätzer des zugrunde liegenden Parameters ist

    σ2{ displaystyle sigma ^ {2}}

    , wohingegen

    σ^2{ displaystyle textstyle { hat { sigma}} ^ {2}}

    ist voreingenommen. Auch nach dem Lehmann-Scheffé-Theorem der Schätzer

    s2{ displaystyle s ^ {2}}

    ist einheitlich minimale Varianz unverzerrt (UMVU),[49] was macht es die “Beste” Schätzer unter allen unvoreingenommenen. Es kann jedoch gezeigt werden, dass der Schätzer vorgespannt ist

    σ^2{ displaystyle textstyle { hat { sigma}} ^ {2}}

    ist “besser” als das

    s2{ displaystyle s ^ {2}}

    in Bezug auf das Kriterium des mittleren quadratischen Fehlers (MSE). In endlichen Stichproben beides

    s2{ displaystyle s ^ {2}}

    und

    σ^2{ displaystyle textstyle { hat { sigma}} ^ {2}}

    haben die Chi-Quadrat-Verteilung mit skaliert (n – 1) Freiheitsgrade:

    Der erste dieser Ausdrücke zeigt, dass die Varianz von

    s2{ displaystyle s ^ {2}}

    entspricht

    2σ4/.(n– –1){ displaystyle 2 sigma ^ {4} / (n-1)}

    , die etwas größer ist als die σσ-Element der inversen Fisher-Informationsmatrix

    ich– –1{ displaystyle textstyle { mathcal {I}} ^ {- 1}}

    . So,

    s2{ displaystyle s ^ {2}}

    ist kein effizienter Schätzer für

    σ2{ displaystyle sigma ^ {2}}

    und darüber hinaus seit

    s2{ displaystyle s ^ {2}}

    Ist UMVU, können wir daraus schließen, dass der Finite-Sample-Effiziente Schätzer für

    σ2{ displaystyle sigma ^ {2}}

    ist nicht vorhanden.

    Anwendung der asymptotischen Theorie, beide Schätzer

    s2{ displaystyle s ^ {2}}

    und

    σ^2{ displaystyle textstyle { hat { sigma}} ^ {2}}

    sind konsistent, dh sie konvergieren in der Wahrscheinlichkeit zu

    σ2{ displaystyle sigma ^ {2}}

    als Stichprobengröße

    n{ displaystyle n rightarrow infty}

    . Die beiden Schätzer sind auch beide asymptotisch normal:

    Insbesondere sind beide Schätzer für asymptotisch effizient

    σ2{ displaystyle sigma ^ {2}}

    .

    Vertrauensintervalle[edit]

    Nach dem Satz von Cochran bedeutet die Stichprobe für Normalverteilungen

    μ^{ displaystyle textstyle { hat { mu}}}

    und die Stichprobenvarianz s2 sind unabhängig, was bedeutet, dass es keinen Gewinn bringen kann, ihre gemeinsame Verteilung zu berücksichtigen. Es gibt auch einen umgekehrten Satz: Wenn in einer Stichprobe der Stichprobenmittelwert und die Stichprobenvarianz unabhängig sind, muss die Stichprobe aus der Normalverteilung stammen. Die Unabhängigkeit zwischen

    μ^{ displaystyle textstyle { hat { mu}}}

    und s kann verwendet werden, um das sogenannte zu konstruieren T-Statistik::

    Diese Menge t hat die t-Verteilung des Schülers mit (n – 1) Freiheitsgrade, und es ist eine Zusatzstatistik (unabhängig vom Wert der Parameter). Umkehrung der Verteilung davon t-Statistiken ermöglichen es uns, das Konfidenzintervall für zu konstruieren μ;;[50] in ähnlicher Weise invertieren die χ2 Verteilung der Statistik s2 gibt uns das Konfidenzintervall für σ2::[51]

    wo tk, p und χ 2
    k, p
    sind die pth Quantile der t– und χ2-Verteilungen jeweils. Diese Konfidenzintervalle sind von der Vertrauensniveau 1 – αwas bedeutet, dass die wahren Werte μ und σ2 außerhalb dieser Intervalle mit Wahrscheinlichkeit (oder Signifikanzniveau) liegen α. In der Praxis nehmen die Leute normalerweise α = 5%, was zu den 95% -Konfidenzintervallen führt. Die ungefähren Formeln in der obigen Anzeige wurden aus den asymptotischen Verteilungen von abgeleitet

    μ^{ displaystyle textstyle { hat { mu}}}

    und s2. Die ungefähren Formeln gelten für große Werte von nund sind bequemer für die manuelle Berechnung als die normalen Standardquantile zα/ 2 nicht abhängig von n. Insbesondere der beliebteste Wert von α = 5%führt zu |z0,025| = 1,96.

    Normalitätstests[edit]

    Normalitätstests bewerten die Wahrscheinlichkeit, dass der angegebene Datensatz {x1, …, xn} stammt aus einer Normalverteilung. Typischerweise die Nullhypothese H.0 ist, dass die Beobachtungen normal mit nicht spezifiziertem Mittelwert verteilt sind μ und Varianz σ2im Vergleich zur Alternative H.ein dass die Verteilung willkürlich ist. Für dieses Problem wurden viele Tests (über 40) entwickelt, von denen die wichtigsten im Folgenden aufgeführt sind:

    Diagnoseplots sind intuitiver ansprechend, aber gleichzeitig subjektiv, da sie sich auf informelles menschliches Urteilsvermögen stützen, um die Nullhypothese zu akzeptieren oder abzulehnen.

    • Das QQ-Diagramm, auch als Normalwahrscheinlichkeitsdiagramm oder Rankit-Diagramm bezeichnet, ist ein Diagramm der sortierten Werte aus dem Datensatz gegen die erwarteten Werte der entsprechenden Quantile aus der Standardnormalverteilung. Das heißt, es ist eine Darstellung des Punktes der Form (Φ−1(pk), x(k)), wo Punkte gezeichnet werden pk sind gleich pk = (k – – α) / (n + 1 – 2α) und α ist eine Anpassungskonstante, die zwischen 0 und 1 liegen kann. Wenn die Nullhypothese wahr ist, sollten die eingezeichneten Punkte ungefähr auf einer geraden Linie liegen.
    • PP-Plot – ähnlich dem QQ-Plot, wird jedoch viel seltener verwendet. Diese Methode besteht aus dem Zeichnen der Punkte (Φ (z(k)), pk), wo

    Passgenauigkeitstests::

    Momentbasierte Tests::

    • D’Agostinos K-Quadrat-Test
    • Jarque-Bera-Test
    • Shapiro-Wilk-Test: Dies basiert auf der Tatsache, dass die Linie im QQ-Diagramm die Steigung von hat σ. Der Test vergleicht die Schätzung der kleinsten Quadrate dieser Steigung mit dem Wert der Stichprobenvarianz und lehnt die Nullhypothese ab, wenn sich diese beiden Größen signifikant unterscheiden.

    Tests basierend auf der empirischen Verteilungsfunktion::

    Bayesianische Analyse der Normalverteilung[edit]

    Die Bayes’sche Analyse normalverteilter Daten wird durch die vielen verschiedenen Möglichkeiten erschwert, die in Betracht gezogen werden können:

    • Entweder der Mittelwert oder die Varianz oder keine kann als feste Größe betrachtet werden.
    • Wenn die Varianz unbekannt ist, kann die Analyse direkt in Bezug auf die Varianz oder in Bezug auf die Genauigkeit, den Kehrwert der Varianz, durchgeführt werden. Der Grund für die präzise Darstellung der Formeln besteht darin, dass die Analyse der meisten Fälle vereinfacht wird.
    • Sowohl univariate als auch multivariate Fälle müssen berücksichtigt werden.
    • Den unbekannten Variablen können entweder konjugierte oder falsche vorherige Verteilungen zugewiesen werden.
    • Ein zusätzlicher Satz von Fällen tritt bei der Bayes’schen linearen Regression auf, bei der im Grundmodell angenommen wird, dass die Daten normal verteilt sind und normale Prioritäten auf die Regressionskoeffizienten gelegt werden. Die resultierende Analyse ähnelt den Grundfällen unabhängiger identisch verteilter Daten.

    Die Formeln für die nichtlinearen Regressionsfälle sind im konjugierten vorherigen Artikel zusammengefasst.

    Summe zweier Quadrate[edit]

    Skalare Form[edit]

    Die folgende Hilfsformel ist nützlich, um die hinteren Aktualisierungsgleichungen zu vereinfachen, die ansonsten ziemlich langwierig werden.

    Diese Gleichung schreibt die Summe zweier Quadrate in neu x durch Erweitern der Quadrate, Gruppieren der Begriffe in xund das Quadrat vervollständigen. Beachten Sie Folgendes zu den komplexen konstanten Faktoren, die mit einigen Begriffen verbunden sind:

    1. Der Faktor
    Vektorform[edit]

    Eine ähnliche Formel kann für die Summe zweier Vektorquadrate geschrieben werden: If x, y, z sind Vektoren der Länge k, und EIN und B. sind symmetrische, invertierbare Matrizen der Größe

    k×k{ displaystyle k times k}

    , dann

    wo

    Beachten Sie, dass das Formular xEIN x heißt quadratische Form und ist ein Skalar:

    Mit anderen Worten, es fasst alle möglichen Produktkombinationen von Elementpaaren aus zusammen xmit jeweils einem eigenen Koeffizienten. Außerdem seit

    xichxj=xjxich{ displaystyle x_ {i} x_ {j} = x_ {j} x_ {i}}

    , nur die Summe

    einichj+einjich{ displaystyle a_ {ij} + a_ {ji}}

    ist wichtig für alle nicht diagonalen Elemente von EINund es gibt keinen Verlust an Allgemeinheit, wenn man das annimmt EIN ist symmetrisch. Darüber hinaus, wenn EIN ist symmetrisch, dann die Form

    xEINy=yEINx.{ displaystyle mathbf {x} ‘ mathbf {A} mathbf {y} = mathbf {y}’ mathbf {A} mathbf {x}.}

    Summe der Unterschiede zum Mittelwert[edit]

    Eine andere nützliche Formel lautet wie folgt:

    wo

    x¯=1nich=1nxich.{ displaystyle { bar {x}} = { frac {1} {n}} sum _ {i = 1} ^ {n} x_ {i}.}

    Mit bekannter Varianz[edit]

    Für eine Reihe von normalverteilten Datenpunkten X. von Größe n wo jeder einzelne Punkt x folgt

    xN.(μ,σ2){ displaystyle x sim { mathcal {N}} ( mu, sigma ^ {2})}

    mit bekannter Varianz σ2ist die konjugierte vorherige Verteilung ebenfalls normal verteilt.

    Dies kann leichter gezeigt werden, indem die Varianz als Genauigkeit umgeschrieben wird, dh unter Verwendung von τ = 1 / σ2. Dann wenn

    xN.(μ,1/.τ){ displaystyle x sim { mathcal {N}} ( mu, 1 / tau)}

    und

    μN.(μ0,1/.τ0),{ displaystyle mu sim { mathcal {N}} ( mu _ {0}, 1 / tau _ {0}),}

    Wir gehen wie folgt vor.

    Erstens ist die Wahrscheinlichkeitsfunktion (unter Verwendung der obigen Formel für die Summe der Differenzen vom Mittelwert):

    Dann gehen wir wie folgt vor:

    In der obigen Ableitung haben wir die obige Formel für die Summe zweier Quadrate verwendet und alle konstanten Faktoren eliminiert, die nicht beteiligt sind μ. Das Ergebnis ist der Kern einer Normalverteilung mit Mittelwert

    nτx¯+τ0μ0nτ+τ0{ displaystyle { frac {n tau { bar {x}} + tau _ {0} mu _ {0}} {n tau + tau _ {0}}}}

    und Präzision

    nτ+τ0{ displaystyle n tau + tau _ {0}}

    dh

    Dies kann als Satz von Bayes’schen Aktualisierungsgleichungen für die hinteren Parameter in Bezug auf die vorherigen Parameter geschrieben werden:

    Das heißt, zu kombinieren n Datenpunkte mit einer Gesamtgenauigkeit von (oder gleichwertig Gesamtvarianz von n/.σ2) und Mittelwert der Werte

    x¯{ displaystyle { bar {x}}}

    , leiten Sie eine neue Gesamtgenauigkeit ab, indem Sie einfach die Gesamtgenauigkeit der Daten zur vorherigen Gesamtgenauigkeit addieren und durch a einen neuen Mittelwert bilden präzisionsgewichteter Durchschnittdh ein gewichteter Durchschnitt des Datenmittelwerts und des vorherigen Mittelwerts, jeweils gewichtet mit der zugehörigen Gesamtgenauigkeit. Dies ist logisch sinnvoll, wenn die Genauigkeit als Hinweis auf die Gewissheit der Beobachtungen angesehen wird: Bei der Verteilung des hinteren Mittelwerts wird jede der Eingabekomponenten mit ihrer Gewissheit gewichtet, und die Gewissheit dieser Verteilung ist die Summe der einzelnen Gewissheiten . (Vergleichen Sie dazu den Ausdruck “Das Ganze ist (oder ist nicht) größer als die Summe seiner Teile”. Bedenken Sie außerdem, dass das Wissen des Seitenzahns aus einer Kombination des Wissens des Prior und der Wahrscheinlichkeit stammt. Daher ist es sinnvoll, dass wir uns dessen sicherer sind als einer seiner Komponenten.)

    Die obige Formel zeigt, warum es zweckmäßiger ist, eine Bayes’sche Analyse von konjugierten Priors für die Normalverteilung hinsichtlich der Präzision durchzuführen. Die hintere Präzision ist einfach die Summe der vorherigen und der Wahrscheinlichkeitsgenauigkeit, und der hintere Mittelwert wird wie oben beschrieben durch einen präzisionsgewichteten Durchschnitt berechnet. Dieselben Formeln können in Bezug auf die Varianz geschrieben werden, indem alle Präzisionen hin- und herbewegt werden, wodurch die hässlicheren Formeln erhalten werden

    Mit bekanntem Mittelwert[edit]

    Für eine Reihe von normalverteilten Datenpunkten X. von Größe n wo jeder einzelne Punkt x folgt

    xN.(μ,σ2){ displaystyle x sim { mathcal {N}} ( mu, sigma ^ {2})}

    mit bekanntem Mittelwert μ hat das Konjugat vor der Varianz eine inverse Gammaverteilung oder eine skalierte inverse Chi-Quadrat-Verteilung. Die beiden sind bis auf unterschiedliche Parametrisierungen gleichwertig. Obwohl das inverse Gamma häufiger verwendet wird, verwenden wir der Einfachheit halber das skalierte inverse Chi-Quadrat. Der Prior für σ2 ist wie folgt:

    Die Wahrscheinlichkeitsfunktion von oben, geschrieben in Bezug auf die Varianz, ist:

    wo

    Dann:

    Das Obige ist auch eine skalierte inverse Chi-Quadrat-Verteilung, bei der

    oder gleichwertig

    Reparametrisierung in Bezug auf eine inverse Gammaverteilung, das Ergebnis ist:

    Mit unbekanntem Mittelwert und unbekannter Varianz[edit]

    Für eine Reihe von normalverteilten Datenpunkten X. von Größe n wo jeder einzelne Punkt x folgt

    xN.(μ,σ2){ displaystyle x sim { mathcal {N}} ( mu, sigma ^ {2})}

    mit unbekanntem Mittelwert μ und unbekannter Varianz σ2wird ein kombinierter (multivariater) Konjugatprior über den Mittelwert und die Varianz gelegt, die aus einer Normal-Inverse-Gamma-Verteilung bestehen. Dies ergibt sich logischerweise wie folgt:

    1. Aus der Analyse des Falls mit unbekanntem Mittelwert, aber bekannter Varianz geht hervor, dass die Aktualisierungsgleichungen ausreichende Statistiken enthalten, die aus den Daten berechnet werden, die aus dem Mittelwert der Datenpunkte und der Gesamtvarianz der Datenpunkte bestehen, die wiederum aus der bekannten Varianz berechnet werden geteilt durch die Anzahl der Datenpunkte.
    2. Aus der Analyse des Falls mit unbekannter Varianz, aber bekanntem Mittelwert geht hervor, dass die Aktualisierungsgleichungen ausreichende Statistiken über die Daten enthalten, die aus der Anzahl der Datenpunkte und der Summe der quadratischen Abweichungen bestehen.
    3. Beachten Sie, dass die hinteren Aktualisierungswerte als vorherige Verteilung dienen, wenn weitere Daten verarbeitet werden. Daher sollten wir logisch an unsere Prioritäten in Bezug auf die gerade beschriebenen ausreichenden Statistiken denken, wobei die gleiche Semantik so weit wie möglich berücksichtigt wird.
    4. Um den Fall zu behandeln, in dem sowohl Mittelwert als auch Varianz unbekannt sind, könnten wir unabhängige Prioritäten über Mittelwert und Varianz setzen, mit festen Schätzungen des Durchschnittsmittelwerts, der Gesamtvarianz, der Anzahl der Datenpunkte, die zur Berechnung der Varianz vor und der Summe der quadratischen Abweichungen verwendet wurden . Es ist jedoch zu beachten, dass in der Realität die Gesamtvarianz des Mittelwerts von der unbekannten Varianz abhängt und die Summe der quadratischen Abweichungen, die vor (scheinbar) in die Varianz eingehen, vom unbekannten Mittelwert abhängt. In der Praxis ist die letztere Abhängigkeit relativ unwichtig: Durch Verschieben des tatsächlichen Mittelwerts werden die erzeugten Punkte um den gleichen Betrag verschoben, und die quadratischen Abweichungen bleiben im Durchschnitt gleich. Dies ist jedoch bei der Gesamtvarianz des Mittelwerts nicht der Fall: Mit zunehmender unbekannter Varianz nimmt die Gesamtvarianz des Mittelwerts proportional zu, und wir möchten diese Abhängigkeit erfassen.
    5. Dies legt nahe, dass wir eine erstellen bedingt vor des Mittelwerts für die unbekannte Varianz, wobei ein Hyperparameter den Mittelwert der mit dem Prior verbundenen Pseudobeobachtungen angibt und ein anderer Parameter die Anzahl der Pseudobeobachtungen angibt. Diese Zahl dient als Skalierungsparameter für die Varianz und ermöglicht die Steuerung der Gesamtvarianz des Mittelwerts relativ zum tatsächlichen Varianzparameter. Der Prior für die Varianz hat auch zwei Hyperparameter, von denen einer die Summe der quadratischen Abweichungen der mit dem Prior verbundenen Pseudobeobachtungen und ein anderer die Anzahl der Pseudobeobachtungen angibt. Es ist zu beachten, dass jeder der Prioritäten einen Hyperparameter hat, der die Anzahl der Pseudobeobachtungen angibt, und dies steuert in jedem Fall die relative Varianz dieses Prior. Diese werden als zwei separate Hyperparameter angegeben, damit die Varianz (auch bekannt als das Vertrauen) der beiden Priors separat gesteuert werden kann.
    6. Dies führt sofort zur Normal-Inverse-Gamma-Verteilung, die das Produkt der beiden gerade definierten Verteilungen ist, wobei konjugierte Prioritäten verwendet werden (eine inverse Gamma-Verteilung über die Varianz und eine Normalverteilung über den Mittelwert). bedingt auf die Varianz) und mit den gleichen vier gerade definierten Parametern.

    Die Prioritäten sind normalerweise wie folgt definiert:

    Die Aktualisierungsgleichungen können abgeleitet werden und sehen wie folgt aus:

    Die jeweilige Anzahl von Pseudobeobachtungen addiert die Anzahl der tatsächlichen Beobachtungen zu ihnen. Der neue mittlere Hyperparameter ist wieder ein gewichteter Durchschnitt, diesmal gewichtet mit der relativen Anzahl von Beobachtungen. Endlich das Update für

    ν0σ02{ displaystyle nu _ {0} ‘{ sigma _ {0} ^ {2}}’}

    ist dem Fall mit bekanntem Mittelwert ähnlich, aber in diesem Fall wird die Summe der quadratischen Abweichungen in Bezug auf den beobachteten Datenmittelwert und nicht auf den wahren Mittelwert genommen, und als Ergebnis wird ein neuer “Interaktionsterm” muss hinzugefügt werden, um die zusätzliche Fehlerquelle zu berücksichtigen, die sich aus der Abweichung zwischen dem vorherigen und dem Datenmittelwert ergibt.

    [Proof]

    Die vorherigen Ausschüttungen sind

    Daher ist der gemeinsame Prior

    Die Wahrscheinlichkeitsfunktion aus dem obigen Abschnitt mit bekannter Varianz ist:

    Wenn wir es eher als Varianz als als Präzision schreiben, erhalten wir:

    wo

    S.=ich=1n(xich– –x¯)2.{ displaystyle S = sum _ {i = 1} ^ {n} (x_ {i} – { bar {x}}) ^ {2}.}

    Daher ist der hintere Teil (Ablegen der Hyperparameter als Konditionierungsfaktoren):

    Mit anderen Worten hat die hintere Verteilung die Form eines Produkts einer Normalverteilung über p(μ | σ2) mal eine inverse Gammaverteilung über p2) mit Parametern, die mit den obigen Aktualisierungsgleichungen übereinstimmen.

    Vorkommen und Anwendungen[edit]

    Das Auftreten einer Normalverteilung bei praktischen Problemen kann lose in vier Kategorien eingeteilt werden:

    1. Genau normale Verteilungen;
    2. Ungefähr normale Gesetze, zum Beispiel wenn eine solche Annäherung durch den zentralen Grenzwertsatz gerechtfertigt ist; und
    3. Als normal modellierte Verteilungen – die Normalverteilung ist die Verteilung mit maximaler Entropie für einen bestimmten Mittelwert und eine bestimmte Varianz.
    4. Regressionsprobleme – Die Normalverteilung wird gefunden, nachdem systematische Effekte ausreichend gut modelliert wurden.

    Genaue Normalität[edit]

    Bestimmte Größen in der Physik sind normal verteilt, wie James Clerk Maxwell erstmals demonstrierte. Beispiele für solche Mengen sind:

    • Wahrscheinlichkeitsdichtefunktion eines Grundzustands in einem Quantenharmonischen Oszillator.
    • Die Position eines Teilchens, das Diffusion erfährt. Befindet sich das Teilchen anfangs an einem bestimmten Punkt (dh seine Wahrscheinlichkeitsverteilung ist die Dirac-Delta-Funktion), dann nach einiger Zeit t Sein Ort wird durch eine Normalverteilung mit Varianz beschrieben t, die die Diffusionsgleichung erfüllt

    Ungefähre Normalität[edit]

    Etwa Normalverteilungen treten in vielen Situationen auf, wie durch den zentralen Grenzwertsatz erklärt. Wenn das Ergebnis durch viele kleine Effekte hervorgerufen wird additiv und unabhängigwird seine Verteilung nahezu normal sein. Die normale Näherung ist nicht gültig, wenn die Effekte multiplikativ (statt additiv) wirken oder wenn es einen einzelnen externen Einfluss gibt, der erheblich größer ist als der Rest der Effekte.

    • Bei Zählproblemen, bei denen der zentrale Grenzwertsatz eine Näherung von Diskret zu Kontinuum enthält und bei denen unendlich teilbare und zerlegbare Verteilungen beteiligt sind, wie z
    • Wärmestrahlung hat eine Bose-Einstein-Verteilung auf sehr kurzen Zeitskalen und eine Normalverteilung auf längeren Zeitskalen aufgrund des zentralen Grenzwertsatzes.

    Angenommene Normalität[edit]

    Histogramm der Kelchblattbreiten für Iris versicolor aus dem Irisblumendatensatz von Fisher mit überlagerter, am besten passender Normalverteilung.

    Ich kann das Auftreten der normalen Kurve – der Laplace-Fehlerkurve – nur als ein sehr abnormales Phänomen erkennen. Es ist in bestimmten Verteilungen ungefähr angenähert; Aus diesem Grund und wegen seiner schönen Einfachheit können wir es vielleicht als erste Annäherung verwenden, insbesondere bei theoretischen Untersuchungen.

    Es gibt statistische Methoden, um diese Annahme empirisch zu testen, siehe den obigen Abschnitt Normalitätstests.

    • In der Biologie ist die Logarithmus von verschiedenen Variablen neigen dazu, eine Normalverteilung zu haben, das heißt, sie neigen dazu, eine logarithmische Normalverteilung zu haben (nach Trennung bei männlichen / weiblichen Subpopulationen), mit Beispielen einschließlich:
      • Maße der Größe des lebenden Gewebes (Länge, Größe, Hautfläche, Gewicht);[52]
      • Das Länge von untätig Anhänge (Haare, Krallen, Nägel, Zähne) von biologischen Proben, in Richtung Wachstum;; vermutlich fällt auch die Dicke der Baumrinde unter diese Kategorie;
      • Bestimmte physiologische Messungen, wie z. B. der Blutdruck erwachsener Menschen.
    • Im Finanzbereich, insbesondere im Black-Scholes-Modell, ändert sich das Logarithmus von Wechselkursen, Preisindizes und Börsenindizes wird als normal angenommen (diese Variablen verhalten sich wie Zinseszinsen, nicht wie einfache Zinsen und sind daher multiplikativ). Einige Mathematiker wie Benoit Mandelbrot haben argumentiert, dass Log-Levy-Verteilungen, die schwere Schwänze besitzen, ein geeigneteres Modell wären, insbesondere für die Analyse von Börsencrashs. Die Verwendung der Annahme der Normalverteilung in Finanzmodellen wurde auch von Nassim Nicholas Taleb in seinen Arbeiten kritisiert.
    • Messfehler in physikalischen Experimenten werden häufig durch eine Normalverteilung modelliert. Diese Verwendung einer Normalverteilung bedeutet nicht, dass man davon ausgeht, dass die Messfehler normalverteilt sind, sondern dass die Verwendung der Normalverteilung die konservativsten Vorhersagen liefert, die nur möglich sind, wenn man nur den Mittelwert und die Varianz der Fehler kennt.[53]
    • Bei standardisierten Tests können die Ergebnisse normalverteilt werden, indem entweder die Anzahl und der Schwierigkeitsgrad der Fragen ausgewählt werden (wie beim IQ-Test) oder die rohen Testergebnisse in umgewandelt werden “Ausgabe” punktet, indem sie an die Normalverteilung angepasst werden. Beispielsweise basiert der traditionelle Bereich des SAT von 200 bis 800 auf einer Normalverteilung mit einem Mittelwert von 500 und einer Standardabweichung von 100.
    • Viele Werte werden aus der Normalverteilung abgeleitet, einschließlich der Perzentil-Ränge (“Perzentile” oder “Quantile”), normale Kurvenäquivalente, Stanine, Z-Scores und T-Scores. Darüber hinaus gehen einige verhaltensstatistische Verfahren davon aus, dass die Bewertungen normal verteilt sind. Zum Beispiel T-Tests und ANOVAs. Die Glockenkurvenbewertung weist relative Noten basierend auf einer Normalverteilung der Bewertungen zu.
    • In der Hydrologie wird die Verteilung der lang anhaltenden Flussabflüsse oder Niederschläge, z. B. monatliche und jährliche Gesamtmengen, nach dem zentralen Grenzwertsatz häufig als praktisch normal angesehen.[54] Das mit CumFreq erstellte blaue Bild zeigt ein Beispiel für die Anpassung der Normalverteilung an eingestufte Oktoberregenfälle und zeigt den 90% -Konfidenzgürtel basierend auf der Binomialverteilung. Die Niederschlagsdaten werden durch Auftragen von Positionen als Teil der kumulativen Frequenzanalyse dargestellt.

    Berechnungsmethoden[edit]

    Generieren von Werten aus der Normalverteilung[edit]

    Die Bohnenmaschine, ein von Francis Galton erfundenes Gerät, kann als erster Generator normaler Zufallsvariablen bezeichnet werden. Diese Maschine besteht aus einer vertikalen Platte mit verschachtelten Stiftreihen. Kleine Bälle werden von oben fallen gelassen und springen dann zufällig nach links oder rechts, wenn sie auf die Stifte treffen. Die Kugeln werden unten in Behältern gesammelt und bilden ein Muster, das der Gaußschen Kurve ähnelt.

    In Computersimulationen, insbesondere in Anwendungen der Monte-Carlo-Methode, ist es häufig wünschenswert, normalverteilte Werte zu generieren. Die unten aufgeführten Algorithmen erzeugen alle die normalen Standardabweichungen, da a N.(μ, σ2
    )
    kann generiert werden als X = μ + σZ, wo Z. ist normal normal. Alle diese Algorithmen beruhen auf der Verfügbarkeit eines Zufallszahlengenerators U. fähig, einheitliche Zufallsvariablen zu erzeugen.

    • Die einfachste Methode basiert auf der Eigenschaft der Wahrscheinlichkeitsintegraltransformation: if U. ist gleichmäßig verteilt auf (0,1), dann Φ−1(U.) hat die Standardnormalverteilung. Der Nachteil dieser Methode besteht darin, dass sie auf der Berechnung der Probit-Funktion Φ beruht−1, was nicht analytisch erfolgen kann. Einige ungefähre Methoden sind in Hart (1968) und im erf-Artikel beschrieben. Wichura bietet einen schnellen Algorithmus zur Berechnung dieser Funktion mit 16 Dezimalstellen.[55] Dies wird von R verwendet, um zufällige Variablen der Normalverteilung zu berechnen.
    • Ein einfach zu programmierender Näherungsansatz, der sich auf den zentralen Grenzwertsatz stützt, lautet wie folgt: 12 Uniform erzeugen U.(0,1) weicht ab, addiert sie alle und subtrahiert 6 – die resultierende Zufallsvariable hat ungefähr die Standardnormalverteilung. In Wahrheit wird die Verteilung Irwin-Hall sein, eine Polynomnäherung elfter Ordnung elfter Ordnung mit 12 Abschnitten an die Normalverteilung. Diese zufällige Abweichung hat einen begrenzten Bereich von (–6, 6).[56]
    • Die Box-Muller-Methode verwendet zwei unabhängige Zufallszahlen U. und V. gleichmäßig verteilt auf (0,1). Dann die beiden Zufallsvariablen X. und Y.
    haben beide die Standardnormalverteilung und sind unabhängig. Diese Formulierung entsteht, weil für einen bivariaten normalen Zufallsvektor (X., Y.) die quadratische Norm X.2 + Y.2 wird die Chi-Quadrat-Verteilung mit zwei Freiheitsgraden haben, was eine leicht zu erzeugende exponentielle Zufallsvariable ist, die der Größe −2ln entspricht (U.) in diesen Gleichungen; und der Winkel ist gleichmäßig um den Kreis verteilt, gewählt durch die Zufallsvariable V..
    • Die Marsaglia-Polarmethode ist eine Modifikation der Box-Muller-Methode, für die keine Berechnung der Sinus- und Cosinusfunktionen erforderlich ist. Bei dieser Methode U. und V. werden aus der gleichmäßigen (−1,1) Verteilung gezogen und dann S. = U.2 + V.2 wird berechnet. Wenn S. größer oder gleich 1 ist, beginnt die Methode von vorne, ansonsten die beiden Größen
    zurückgegeben werden. Nochmal, X. und Y. sind unabhängige, normale Standard-Zufallsvariablen.
    • Die Verhältnismethode[57] ist eine Ablehnungsmethode. Der Algorithmus läuft wie folgt ab:
      • Generieren Sie zwei unabhängige einheitliche Abweichungen U. und V.;;
      • Berechnen X. = 8 /e (V. – 0,5) /U.;;
      • Optional: wenn X.2 ≤ 5 – 4e1/4U. dann akzeptiere X. und Algorithmus beenden;
      • Optional: wenn X.2 ≥ 4e-1,35/.U. + 1.4 dann ablehnen X. und von vorne beginnen von Schritt 1;
      • Wenn X.2 ≤ –4 lnU. dann akzeptiere X.Andernfalls beginnen Sie erneut mit dem Algorithmus.
    Mit den beiden optionalen Schritten kann in den meisten Fällen die Auswertung des Logarithmus im letzten Schritt vermieden werden. Diese Schritte können stark verbessert werden[58] so dass der Logarithmus selten ausgewertet wird.
    • Der Zikkurat-Algorithmus[59] ist schneller als die Box-Muller-Transformation und trotzdem exakt. In etwa 97% aller Fälle werden nur zwei Zufallszahlen, eine zufällige Ganzzahl und eine zufällige Uniform, eine Multiplikation und ein Wenn-Test verwendet. Nur in 3% der Fälle, in denen die Kombination dieser beiden außerhalb der “Kern der Zikkurat” (eine Art Ablehnungsstichprobe unter Verwendung von Logarithmen), müssen Exponentiale und einheitlichere Zufallszahlen verwendet werden.
    • Ganzzahlige Arithmetik kann verwendet werden, um aus der Standardnormalverteilung abzutasten.[60] Diese Methode ist genau in dem Sinne, dass sie die Bedingungen von erfüllt ideale Annäherung;;[61] Das heißt, es entspricht dem Abtasten einer reellen Zahl aus der Standardnormalverteilung und dem Runden auf die nächste darstellbare Gleitkommazahl.
    • Es gibt auch einige Untersuchungen[62] in die Verbindung zwischen der schnellen Hadamard-Transformation und der Normalverteilung, da die Transformation nur Addition und Subtraktion verwendet und durch den zentralen Grenzwertsatz Zufallszahlen aus fast jeder Verteilung in die Normalverteilung transformiert werden. In dieser Hinsicht kann eine Reihe von Hadamard-Transformationen mit zufälligen Permutationen kombiniert werden, um beliebige Datensätze in normalverteilte Daten umzuwandeln.

    Numerische Näherungen für die normale CDF[edit]

    Die normale Standard-CDF wird häufig in wissenschaftlichen und statistischen Berechnungen verwendet.

    Die Werte Φ (x) kann durch eine Vielzahl von Methoden, wie numerische Integration, Taylor-Reihen, asymptotische Reihen und fortgesetzte Fraktionen, sehr genau angenähert werden. Je nach gewünschter Genauigkeit werden unterschiedliche Näherungen verwendet.

    • Zelen & Severo (1964) geben die Näherung für Φ (x) zum x> 0 mit dem absoluten Fehler |ε(x)| <7,5 · 10−8 (Algorithmus 26.2.17):

      wo ϕ(x) ist das normale Standard-PDF und b0 = 0,2316419, b1 = 0,319381530, b2 = –0,356563782, b3 = 1,781477937, b4 = –1,821255978, b5 = 1,330274429.

    • Hart (1968) listet einige Dutzend Näherungen – mittels rationaler Funktionen mit oder ohne Exponentiale – für die erfc () Funktion. Seine Algorithmen unterscheiden sich im Grad der Komplexität und der daraus resultierenden Genauigkeit mit einer maximalen absoluten Genauigkeit von 24 Stellen. Ein Algorithmus von West (2009) kombiniert den Hart-Algorithmus 5666 mit einer fortgesetzten Bruchnäherung im Schwanz, um einen schnellen Berechnungsalgorithmus mit einer 16-stelligen Genauigkeit bereitzustellen.
    • Cody (1969) gibt nach Rückruf der Hart68-Lösung nicht für erf geeignet, sondern gibt eine Lösung für erf und erfc mit maximaler relativer Fehlergrenze über Rational Chebyshev Approximation.
    • Marsaglia (2004) schlug einen einfachen Algorithmus vor[note 2] basierend auf der Erweiterung der Taylor-Serie

      zur Berechnung von Φ (x) mit beliebiger Genauigkeit. Der Nachteil dieses Algorithmus ist die vergleichsweise langsame Berechnungszeit (zum Beispiel werden über 300 Iterationen benötigt, um die Funktion mit 16 Stellen Genauigkeit zu berechnen, wenn x = 10).

    • Die GNU Scientific Library berechnet Werte der normalen Standard-CDF unter Verwendung von Hart-Algorithmen und Approximationen mit Chebyshev-Polynomen.

    Shore (1982) führte einfache Näherungen ein, die in stochastische Optimierungsmodelle der Ingenieur- und Betriebsforschung wie Zuverlässigkeitsentwicklung und Bestandsanalyse integriert werden können. Mit p = Φ (z) ist die einfachste Näherung für die Quantilfunktion:

    Diese Annäherung liefert für z ein maximaler absoluter Fehler von 0,026 (für 0,5 ≤ p ≤ 0,9999, entsprechend 0 ≤ z ≤ 3,719). Zum p <1/2 ersetzen p um 1 – p und Vorzeichen wechseln. Eine andere, etwas weniger genaue Näherung ist die Einzelparameter-Näherung:

    Letzteres hatte dazu gedient, eine einfache Näherung für das Verlustintegral der Normalverteilung abzuleiten, definiert durch

    Diese Annäherung ist besonders genau für den rechten Fernschwanz (maximaler Fehler von 10)−3 für z ≥ 1,4). Hochgenaue Näherungen für die CDF, basierend auf der Response Modeling Methodology (RMM, Shore, 2011, 2012), sind in Shore (2005) dargestellt.

    Weitere Annäherungen finden Sie unter: Fehlerfunktion # Annäherung mit Elementarfunktionen. Insbesondere klein relativ Fehler in der gesamten Domain für die CDF

    Φ{ displaystyle Phi}

    und die Quantilfunktion

    Φ– –1{ displaystyle Phi ^ {- 1}}

    wird auch durch eine explizit invertierbare Formel von Sergei Winitzki im Jahr 2008 erreicht.

    Geschichte[edit]

    Entwicklung[edit]

    Einige Autoren[63][64] schreiben den Kredit für die Entdeckung der Normalverteilung de Moivre zu, der 1738[note 3] veröffentlicht in der zweiten Ausgabe von ihm “Die Lehre von den Chancen” die Untersuchung der Koeffizienten in der Binomialausdehnung von (ein + b)n. De Moivre hat bewiesen, dass die mittlere Laufzeit dieser Erweiterung die ungefähre Größe von hat

    2/.2πn{ displaystyle 2 / { sqrt {2 pi n}}}

    , und das “Wenn m oder ½n Sei eine unendlich große Menge, dann der Logarithmus des Verhältnisses, der durch das Intervall von der Mitte entfernt ist , hat zur mittelfristigen, ist

    – –2n{ displaystyle – { frac {2 ell ell} {n}}}

    .”[65] Obwohl dieser Satz als erster obskurer Ausdruck für das normale Wahrscheinlichkeitsgesetz interpretiert werden kann, weist Stigler darauf hin, dass de Moivre selbst seine Ergebnisse nicht mehr als die ungefähre Regel für die Binomialkoeffizienten interpretierte und insbesondere de Moivre das Konzept von fehlte die Wahrscheinlichkeitsdichtefunktion.[66]

    1809 veröffentlichte Gauß seine Monographie Theoria motus corporum coelestium im Abschnittibus conicis solem ambientium wo er unter anderem einige wichtige statistische Konzepte einführt, wie die Methode der kleinsten Quadrate, die Methode der maximalen Wahrscheinlichkeit und die Normalverteilung. Gauß verwendet M., M., M.”, … um die Messungen einer unbekannten Größe zu bezeichnen V.und suchte die “wahrscheinlichste” Schätzer dieser Größe: derjenige, der die Wahrscheinlichkeit maximiert φ(M. – – V.) · φ(M ‘ – – V.) · φ(M.” – V.) · … die beobachteten experimentellen Ergebnisse zu erhalten. In seiner Notation ist φΔ das Wahrscheinlichkeitsgesetz der Messfehler der Größe Δ. Ich weiß nicht, was die Funktion ist φ Gauß verlangt, dass seine Methode auf die bekannte Antwort reduziert wird: das arithmetische Mittel der gemessenen Werte.[note 4] Ausgehend von diesen Prinzipien zeigt Gauß, dass das einzige Gesetz, das die Wahl des arithmetischen Mittels als Schätzer des Ortsparameters rationalisiert, das normale Fehlergesetz ist:[67]

    wo h ist “das Maß für die Genauigkeit der Beobachtungen”. Unter Verwendung dieses Normalgesetzes als generisches Modell für Fehler in den Experimenten formuliert Gauß die heutige Methode der nichtlinearen gewichteten kleinsten Quadrate (NWLS).[68]

    Obwohl Gauß als erster das Normalverteilungsgesetz vorschlug, leistete Laplace bedeutende Beiträge.[note 5] Es war Laplace, der 1774 erstmals das Problem der Aggregation mehrerer Beobachtungen aufwirft.[69] obwohl seine eigene Lösung zur Laplace-Verteilung führte. Es war Laplace, der zuerst den Wert des Integrals berechnete e– –t2 dt = π 1782, Bereitstellung der Normalisierungskonstante für die Normalverteilung.[70] Schließlich war es Laplace, der 1810 den grundlegenden zentralen Grenzwertsatz bewies und der Akademie vorstellte, der die theoretische Bedeutung der Normalverteilung betonte.[71]

    Es ist interessant festzustellen, dass ein irischer Mathematiker Adrain 1809 zwei Ableitungen des normalen Wahrscheinlichkeitsgesetzes gleichzeitig und unabhängig von Gauß veröffentlichte.[72] Seine Werke blieben von der wissenschaftlichen Gemeinschaft weitgehend unbemerkt, bis sie es 1871 waren “wiederentdeckt” von Abbe.[73]

    Mitte des 19. Jahrhunderts zeigte Maxwell, dass die Normalverteilung nicht nur ein bequemes mathematisches Werkzeug ist, sondern auch in natürlichen Phänomenen auftreten kann:[74] “Die Anzahl der Teilchen, deren Geschwindigkeit in eine bestimmte Richtung aufgelöst ist, liegt dazwischen x und x + dx ist

    Benennung[edit]

    Seit seiner Einführung ist die Normalverteilung unter vielen verschiedenen Namen bekannt: dem Gesetz des Irrtums, dem Gesetz der Fehlermöglichkeit, dem zweiten Laplace-Gesetz, dem Gaußschen Gesetz usw. Gauß selbst hat den Begriff anscheinend mit Bezug auf das geprägt “normale Gleichungen” an seinen Anwendungen beteiligt, wobei normal eher die technische Bedeutung orthogonal als orthogonal hat “üblich”.[75] Bis zum Ende des 19. Jahrhunderts jedoch einige Autoren[note 6] hatte angefangen, den Namen zu verwenden Normalverteilung, wo das Wort “normal” wurde als Adjektiv verwendet – der Begriff wird jetzt als Spiegelbild der Tatsache angesehen, dass diese Verteilung als typisch, allgemein angesehen wurde – und somit “normal”. Peirce (einer dieser Autoren) einmal definiert “normal” so: “… das “Normale” ist nicht der Durchschnitt (oder irgendeine andere Art von Mittelwert) dessen, was tatsächlich auftritt, sondern dessen, was würdeauf lange Sicht unter bestimmten Umständen auftreten.”[76] Um die Wende des 20. Jahrhunderts verbreitete Pearson den Begriff normal als Bezeichnung für diese Distribution.[77]

    Vor vielen Jahren nannte ich die Laplace-Gauß-Kurve die normal Kurve, deren Name zwar eine internationale Prioritätsfrage vermeidet, aber den Nachteil hat, dass die Leute glauben, dass alle anderen Häufigkeitsverteilungen in dem einen oder anderen Sinne „abnormal“ sind.

    Es war auch Pearson, der zuerst die Verteilung in Bezug auf die Standardabweichung schrieb σ wie in der modernen Notation. Bald danach, im Jahr 1915, fügte Fisher der Formel für die Normalverteilung den Standortparameter hinzu und drückte ihn so aus, wie er heutzutage geschrieben ist:

    Der Begriff “Standard normal”, das die Normalverteilung mit dem Mittelwert Null und der Einheitsvarianz bezeichnet, wurde um die 1950er Jahre allgemein verwendet und erschien in den populären Lehrbüchern von PG Hoel (1947). “Einführung in die mathematische Statistik” und AM Mood (1950) “Einführung in die Theorie der Statistik“.[78]

    Siehe auch[edit]

    1. ^ Für den Beweis siehe Gaußsches Integral.
    2. ^ Dieser Algorithmus ist beispielsweise im Artikel Bc Programmiersprache angegeben.
    3. ^ De Moivre veröffentlichte seine Ergebnisse erstmals 1733 in einer Broschüre “Ungefähre Anzeige Summam Terminorum Binomii (ein + b)n in Seriem Expansi” das war nur für den privaten Verkehr bestimmt. Aber erst im Jahr 1738 machte er seine Ergebnisse öffentlich zugänglich. Die Originalbroschüre wurde mehrmals nachgedruckt, siehe zum Beispiel Walker (1985).
    4. ^ “Es war sicherlich üblich, die Hypothese als Axiom zu betrachten, dass, wenn eine Menge durch mehrere direkte Beobachtungen bestimmt wurde, die unter den gleichen Umständen und mit gleicher Sorgfalt durchgeführt wurden, das arithmetische Mittel der beobachteten Werte den wahrscheinlichsten Wert liefert, wenn nicht sogar streng , aber zumindest fast, so dass es immer am sichersten ist, sich daran zu halten.” – Gauß (1809, Abschnitt 177)
    5. ^ “Mein Brauch, die Kurve als Gauß-Laplace oder zu bezeichnen normal Die Kurve erspart uns, das Verdienst der Entdeckung zwischen den beiden großen Astronomen-Mathematikern zu messen.” Zitat aus Pearson (1905, S. 189)
    6. ^ Neben den hier ausdrücklich genannten findet sich eine solche Verwendung in den Werken von Peirce, Galton (Galton (1889, Kapitel V)) und Lexis (Lexis (1878), Rohrbasser & Véron (2003)) c. 1875.[citation needed]

    Verweise[edit]

    Zitate[edit]

    1. ^ ein b c d e f “Liste der Wahrscheinlichkeits- und Statistiksymbole”. Math Vault. 26. April 2020. Abgerufen 15. August, 2020.
    2. ^ Weisstein, Eric W. “Normalverteilung”. mathworld.wolfram.com. Abgerufen 15. August, 2020.
    3. ^ Normalverteilung, Gale Encyclopedia of Psychology
    4. ^ Casella & Berger (2001, S. 102)
    5. ^ Lyon, A. (2014). Warum sind Normalverteilungen normal?, Das britische Journal für Wissenschaftstheorie.
    6. ^ ein b “Normalverteilung”. www.mathsisfun.com. Abgerufen 15. August, 2020.
    7. ^ Stigler (1982)
    8. ^ Halperin, Hartley & Hoel (1965, Punkt 7)
    9. ^ McPherson (1990, S. 110)
    10. ^ Bernardo & Smith (2000, S. 121)
    11. ^ Scott, Clayton; Nowak, Robert (7. August 2003). “Die Q-Funktion”. Verbindungen.
    12. ^ Barak, Ohad (6. April 2006). “Q Funktion und Fehlerfunktion” (PDF). Universität Tel Aviv. Archiviert von das Original (PDF) am 25. März 2009.
    13. ^ Weisstein, Eric W. “Normalverteilungsfunktion”. MathWorld.
    14. ^ Abramowitz, Milton; Stegun, Irene Ann, Hrsg. (1983) [June 1964]. “Kapitel 26, Gleichung 26.2.12”. Handbuch der mathematischen Funktionen mit Formeln, Graphen und mathematischen Tabellen. Angewandte Mathematik. 55 (Neunter Nachdruck mit zusätzlichen Korrekturen des zehnten Originaldrucks mit Korrekturen (Dezember 1972); erste Ausgabe). Washington, D.C; New York: Handelsministerium der Vereinigten Staaten, National Bureau of Standards; Dover-Veröffentlichungen. p. 932. ISBN 978-0-486-61272-0. LCCN 64-60036. HERR 0167642. LCCN 65-12253.
    15. ^ “Wolfram | Alpha: Computational Knowledge Engine”. Wolframalpha.com. Abgerufen 3. März, 2017.
    16. ^ “Wolfram | Alpha: Computational Knowledge Engine”. Wolframalpha.com.
    17. ^ “Wolfram | Alpha: Computational Knowledge Engine”. Wolframalpha.com. Abgerufen 3. März, 2017.
    18. ^ Cover, Thomas M.; Thomas, Joy A. (2006). Elemente der Informationstheorie. John Wiley und Söhne. p. 254.
    19. ^ Park, Sung Y.; Bera, Anil K. (2009). “Autoregressives bedingtes Heteroskedastizitätsmodell mit maximaler Entropie” (PDF). Zeitschrift für Ökonometrie. 150 (2): 219–230. CiteSeerX 10.1.1.511.9750. doi:10.1016 / j.jeconom.2008.12.014. Archiviert von das Original (PDF) am 7. März 2016. Abgerufen 2. Juni, 2011.
    20. ^ Geary RC (1936) Die Verbreitung der “Studenten” Verhältnis für die nicht normalen Proben”. Beilage zum Journal der Royal Statistical Society 3 (2): 178–184
    21. ^ Lukas E (1942) Eine Charakterisierung der Normalverteilung. Annals of Mathematical Statistics 13: 91–93
    22. ^ ein b c Patel & Read (1996, [2.1.4])
    23. ^ Fan (1991, S. 1258)
    24. ^ Patel & Read (1996, [2.1.8])
    25. ^ Papoulis, Athanasios. Wahrscheinlichkeit, Zufallsvariablen und stochastische Prozesse (4. Aufl.). p. 148.
    26. ^ Bryc (1995, S. 23)
    27. ^ Bryc (1995, S. 24)
    28. ^ Cover & Thomas (2006, S. 254)
    29. ^ Williams, David (2001). Abwägen der Chancen: ein Kurs in Wahrscheinlichkeit und Statistik (Nachdruck. Hrsg.). Cambridge [u.a.]: Cambridge Univ. Drücken Sie. pp. 197–199. ISBN 978-0-521-00618-7.
    30. ^ Smith, José M. Bernardo; Adrian FM (2000). Bayesianische Theorie (Nachdruck ed.). Chichester [u.a.]: Wiley. pp. 209366. ISBN 978-0-471-49464-5.
    31. ^ O’Hagan, A. (1994) Kendalls Advanced Theory of Statistics, Band 2B, Bayesian InferenceEdward Arnold. ISBN 0-340-52922-9 (Abschnitt 5.40)
    32. ^ Bryc (1995, S. 27)
    33. ^ Patel & Read (1996, [2.3.6])
    34. ^ Galambos & Simonelli (2004, Satz 3.5)
    35. ^ ein b Bryc (1995, S. 35)
    36. ^ ein b Lukacs & King (1954)
    37. ^ Quine, MP (1993). “Auf drei Charakterisierungen der Normalverteilung”. Wahrscheinlichkeits- und mathematische Statistik. 14 (2): 257–263.
    38. ^ UIUC, Vorlesung 21. Die multivariate Normalverteilung21,6:”Individuell Gauß versus Versus Gauß”.
    39. ^ Edward L. Melnick und Aaron Tenenbein, “Fehlspezifikationen der Normalverteilung”, Der amerikanische StatistikerBand 36, Nummer 4, November 1982, Seiten 372–373
    40. ^ “Kullback Leibler (KL) Abstand zweier normaler (Gaußscher) Wahrscheinlichkeitsverteilungen”. Allisons.org. 5. Dezember 2007. Abgerufen 3. März, 2017.
    41. ^ Jordan, Michael I. (8. Februar 2010). “Stat260: Bayesianische Modellierung und Inferenz: Der Konjugatprior für die Normalverteilung” (PDF).
    42. ^ Amari & Nagaoka (2000)
    43. ^ “Normale Annäherung an die Poisson-Verteilung”. Stat.ucla.edu. Abgerufen 3. März, 2017.
    44. ^ Weisstein, Eric W. “Normale Produktverteilung”. MathWorld. wolfram.com.
    45. ^ Lukacs, Eugene (1942). “Eine Charakterisierung der Normalverteilung”. Die Annalen der mathematischen Statistik. 13 (1): 91–3. doi:10.1214 / aoms / 1177731647. ISSN 0003-4851. JSTOR 2236166.
    46. ^ Basu, D.; Laha, RG (1954). “Zu einigen Charakterisierungen der Normalverteilung”. Sankhyā. 13 (4): 359–62. ISSN 0036-4452. JSTOR 25048183.
    47. ^ Lehmann, EL (1997). Testen statistischer Hypothesen (2. Aufl.). Springer. p. 199. ISBN 978-0-387-94919-2.
    48. ^ John, S. (1982). “Die zweiteilige Normalverteilungsfamilie mit drei Parametern und ihre Anpassung”. Kommunikation in der Statistik – Theorie und Methoden. 11 (8): 879–885. doi:10.1080 / 03610928208828279.
    49. ^ ein b Krishnamoorthy (2006, S. 127)
    50. ^ Krishnamoorthy (2006, S. 130)
    51. ^ Krishnamoorthy (2006, S. 133)
    52. ^ Huxley (1932)
    53. ^ Jaynes, Edwin T. (2003). Wahrscheinlichkeitstheorie: Die Logik der Wissenschaft. Cambridge University Press. S. 592–593. ISBN 9780521592710.
    54. ^ Oosterbaan, Roland J. (1994). “Kapitel 6: Frequenz- und Regressionsanalyse hydrologischer Daten” (PDF). In Ritzema, Henk P. (Hrsg.). Entwässerungsprinzipien und -anwendungen, Publikation 16 (zweite überarbeitete Ausgabe). Wageningen, Niederlande: Internationales Institut für Landgewinnung und -verbesserung (ILRI). S. 175–224. ISBN 978-90-70754-33-4.
    55. ^ Wichura, Michael J. (1988). “Algorithmus AS241: Die Prozentpunkte der Normalverteilung”. Angewendete Statistiken. 37 (3): 477–84. doi:10.2307 / 2347330. JSTOR 2347330.
    56. ^ Johnson, Kotz & Balakrishnan (1995, Gleichung (26,48))
    57. ^ Kinderman & Monahan (1977)
    58. ^ Leva (1992)
    59. ^ Marsaglia & Tsang (2000)
    60. ^ Karney (2016)
    61. ^ Monahan (1985, Abschnitt 2)
    62. ^ Wallace (1996)
    63. ^ Johnson, Kotz & Balakrishnan (1994, S. 85)
    64. ^ Le Cam & Lo Yang (2000, S. 74)
    65. ^ De Moivre, Abraham (1733), Folgerung I – siehe Walker (1985, S. 77)
    66. ^ Stigler (1986, S. 76)
    67. ^ Gauß (1809, Abschnitt 177)
    68. ^ Gauß (1809, Abschnitt 179)
    69. ^ Laplace (1774, Problem III)
    70. ^ Pearson (1905, S. 189)
    71. ^ Stigler (1986, S. 144)
    72. ^ Stigler (1978, S. 243)
    73. ^ Stigler (1978, S. 244)
    74. ^ Maxwell (1860, S. 23)
    75. ^ Jaynes, Edwin J.; Wahrscheinlichkeitstheorie: Die Logik der Wissenschaft, Ch 7
    76. ^ Peirce, Charles S. (ca. 1909 MS), Gesammelte Papiere v. 6, Absatz 327
    77. ^ Kruskal & Stigler (1997)
    78. ^ “Früheste Verwendung … (Eintrag STANDARD NORMAL CURVE)”.

    Quellen[edit]

    Externe Links[edit]


    after-content-x4