Bedingte Wahrscheinlichkeitsverteilung – Wikipedia
In Wahrscheinlichkeitstheorie und Statistik bei zwei gemeinsam verteilten Zufallsvariablen
x{displaystyle X}Ja{displaystyle Y} und
Ja{displaystyle Y} , das bedingte Wahrscheinlichkeitsverteilung von Ja gegeben x ist die Wahrscheinlichkeitsverteilung von
x{displaystyle X} Wenn
x{displaystyle x} ist als besonderer Wert bekannt; in einigen Fällen können die bedingten Wahrscheinlichkeiten als Funktionen ausgedrückt werden, die den nicht spezifizierten Wert enthalten
x{displaystyle X} von
x{displaystyle X} als Parameter. Wenn beide
und
kategoriale Variablen sind, wird normalerweise eine bedingte Wahrscheinlichkeitstabelle verwendet, um die bedingte Wahrscheinlichkeit darzustellen. Die bedingte Verteilung steht im Gegensatz zur Randverteilung einer Zufallsvariablen, also ihrer Verteilung ohne Bezug auf den Wert der anderen Variablen.
Wenn die bedingte Verteilung von
Ja{displaystyle Y}x{displaystyle X} gegeben
eine stetige Verteilung ist, dann ist ihre Wahrscheinlichkeitsdichtefunktion bekannt als bedingte Dichtefunktion.[1] Die Eigenschaften einer bedingten Verteilung, wie beispielsweise die Momente, werden oft mit entsprechenden Namen wie dem bedingten Mittelwert und der bedingten Varianz bezeichnet.
Allgemeiner kann man sich auf die bedingte Verteilung einer Teilmenge einer Menge von mehr als zwei Variablen beziehen; diese bedingte Verteilung hängt von den Werten aller verbleibenden Variablen ab, und wenn mehr als eine Variable in der Teilmenge enthalten ist, dann ist diese bedingte Verteilung die bedingte gemeinsame Verteilung der eingeschlossenen Variablen.
Bedingte diskrete Verteilungen[edit]
Für diskrete Zufallsvariablen ist die bedingte Wahrscheinlichkeits-Massenfunktion von
Ja{displaystyle Y}x=x{displaystyle X=x} gegeben
kann nach seiner Definition geschrieben werden als:
PJa|x(ja|x)≜P(Ja=ja|x=x)=P({x=x}∩{Ja=ja})P(x=x){displaystyle p_{Y|X}(ymid x)triangleq P(Y=ymid X=x)={frac {P({X=x}cap {Y=y })}{P(X=x)}}}
Aufgrund des Auftretens von
P(x=x){displaystyle P(X=x)}P(x=x).{displaystyle P(X=x).} in einem Nenner ist dies nur für Nicht-Null definiert (daher streng positiv)
Der Zusammenhang mit der Wahrscheinlichkeitsverteilung von
x{displaystyle X}Ja{displaystyle Y} gegeben
ist:
- P(Ja=ja|x=x)P(x=x)=P({x=x}∩{Ja=ja})=P(x=x|Ja=ja)P(Ja=ja).{displaystyle P(Y=ymid X=x)P(X=x)=P({X=x}cap {Y=y})=P(X=xmid Y= y)P(Y=y).}
Beispiel[edit]
Betrachten Sie den Wurf eines fairen Würfels und lassen Sie
x=1{displaystyle X=1}x=0{displaystyle X=0} wenn die Zahl gerade ist (dh 2, 4 oder 6) und
Ja=1{displaystyle Y=1} Andernfalls. Lassen Sie außerdem
Ja=0{displaystyle Y=0} wenn die Zahl eine Primzahl ist (dh 2, 3 oder 5) und
Andernfalls.
D | 1 | 2 | 3 | 4 | 5 | 6 |
---|---|---|---|---|---|---|
x | 0 | 1 | 0 | 1 | 0 | 1 |
Ja | 0 | 1 | 1 | 0 | 1 | 0 |
Dann ist die unbedingte Wahrscheinlichkeit, dass
x=1{displaystyle X=1}x=1{displaystyle X=1} ist 3/6 = 1/2 (da es sechs mögliche Würfelwürfe gibt, von denen drei gerade sind), während die Wahrscheinlichkeit, dass
Ja=1{displaystyle Y=1} bedingt auf
ist 1/3 (da es drei mögliche Primzahlenwürfe gibt – 2, 3 und 5 – von denen einer gerade ist).
Bedingte stetige Verteilungen[edit]
Ähnlich ist für stetige Zufallsvariablen die bedingte Wahrscheinlichkeitsdichtefunktion von
Ja{displaystyle Y}x{displaystyle x} gegeben das Auftreten des Wertes
x{displaystyle X} von
: P. 99
kann geschrieben werden als[2]FJa|x(ja|x)=Fx,Ja(x,ja)Fx(x){displaystyle f_{Ymid X}(ymid x)={frac {f_{X,Y}(x,y)}{f_{X}(x)}}}
wo
Fx,Ja(x,ja){displaystyle f_{X,Y}(x,y)}x{displaystyle X} ergibt die Fugendichte von
Ja{displaystyle Y} und
Fx(x){displaystyle f_{X}(x)} , während
x{displaystyle X} gibt die Randdichte für
Fx(x)>0{displaystyle f_{X}(x)>0} . Auch in diesem Fall ist es notwendig, dass
x{displaystyle X}
Ja{displaystyle Y} gegeben
wird gegeben von:
- FJa|x(ja|x)Fx(x)=Fx,Ja(x,ja)=Fx|Ja(x|ja)FJa(ja).{displaystyle f_{Ymid X}(ymid x)f_{X}(x)=f_{X,Y}(x,y)=f_{X|Y}(xmid y)f_{ Y}(y).}
Das Konzept der bedingten Verteilung einer kontinuierlichen Zufallsvariablen ist nicht so intuitiv, wie es scheinen mag: Das Borelsche Paradoxon zeigt, dass bedingte Wahrscheinlichkeitsdichtefunktionen unter Koordinatentransformationen nicht invariant sein müssen.
Beispiel[edit]
Die Grafik zeigt eine bivariate normale Gelenkdichte für Zufallsvariablen
x{displaystyle X}Ja{displaystyle Y} und
Ja{displaystyle Y} . Um die Verteilung von zu sehen
x=70{displaystyle X=70} bedingt auf
x=70{displaystyle X=70} , kann man sich zuerst die Linie vorstellen
x,Ja{displaystyle X,Y} in dem
x,Ja{displaystyle X,Y} Ebene, und visualisieren Sie dann die Ebene, die diese Linie enthält und senkrecht zu der
Ja{displaystyle Y} Flugzeug. Der Schnittpunkt dieser Ebene mit der gemeinsamen Normalendichte ist, sobald er neu skaliert wurde, um eine Einheitsfläche unter dem Schnittpunkt zu ergeben, die relevante bedingte Dichte von
.
Ja|x=70 ~ n(μ1+σ1σ2ρ(70−μ2),(1−ρ2)σ12).{displaystyle Ymid X=70\sim{mathcal{N}}left(mu_{1}+{frac {sigma_{1}}{sigma_{2}}} rho (70-mu_{2}),,(1-rho^{2})sigma_{1}^{2}right).}
Bezug zur Unabhängigkeit[edit]
Zufällige Variablen
x{displaystyle X}Ja{displaystyle Y} ,
Ja{displaystyle Y} sind genau dann unabhängig, wenn die bedingte Verteilung von
x{displaystyle X} gegeben
x{displaystyle X} ist für alle möglichen Realisierungen von
Ja{displaystyle Y} , gleich der unbedingten Verteilung von
P(Ja=ja|x=x)=P(Ja=ja){displaystyle P(Y=y|X=x)=P(Y=y)} . Für diskrete Zufallsvariablen bedeutet dies
ja{displaystyle y} für alles möglich
x{displaystyle x} und
P(x=x)>0{displaystyle P(X=x)>0} mit
x{displaystyle X}
Ja{displaystyle Y} und
FJa(ja|x=x)=FJa(ja){displaystyle f_{Y}(y|X=x)=f_{Y}(y)} , mit einer gemeinsamen Dichtefunktion, bedeutet dies
ja{displaystyle y} für alles möglich
x{displaystyle x} und
Fx(x)>0{displaystyle f_{X}(x)>0} mit
Eigenschaften[edit]
Gesehen als Funktion von
ja{displaystyle y}x{displaystyle x} für gegeben
P(Ja=ja|x=x){displaystyle P(Y=y|X=x)} ,
ja{displaystyle y} ist eine Wahrscheinlichkeits-Massenfunktion und damit die Summe über alle
x{displaystyle x} (oder Integral, wenn es sich um eine bedingte Wahrscheinlichkeitsdichte handelt) ist 1. Gesehen als Funktion von
ja{displaystyle y} für gegeben
x{displaystyle x} , es ist eine Likelihood-Funktion, so dass die Summe über alle
muss nicht 1 sein.
Zusätzlich kann ein Randwert einer gemeinsamen Verteilung als Erwartungswert der entsprechenden bedingten Verteilung ausgedrückt werden. Zum Beispiel,
Px(x)=EJa[pX|Y(X | Y)]{displaystyle p_{X}(x)=E_{Y}[p_{X|Y}(X | Y)]}.
Maßtheoretische Formulierung[edit]
Lassen
(Ω,F,P){displaystyle (Omega ,{mathcal{F}},P)}g⊆F{displaystyle {mathcal {G}}subseteq {mathcal {F}}} sei ein Wahrscheinlichkeitsraum,
σ{displaystyle sigma} ein
F{displaystyle {mathcal{F}}} -Feld in
EIN∈F{displaystyle Ain {mathcal{F}}} . Gegeben
g{displaystyle {mathcal {G}}} , impliziert der Satz von Radon-Nikodym, dass es[3] ein
P(EIN|g):Ω→R{displaystyle P(Amid {mathcal{G}}):Omegatomathbb{R}} -messbare Zufallsvariable
, genannt die bedingte Wahrscheinlichkeit, so dass
für jeden
g∈g{displaystyle Gin {mathcal {G}}}P(⋅|B)(ω){displaystyle operatorname {P} (cdot mid {mathcal {B}})(omega)} , und eine solche Zufallsvariable ist bis auf Mengen der Wahrscheinlichkeit Null eindeutig definiert. Eine bedingte Wahrscheinlichkeit heißt regulär wenn
(Ω,F){displaystyle (Omega,{mathcal{F}})} ist ein Wahrscheinlichkeitsmaß für
ω∈Ω{displaystyle omegainOmega} für alle
ae
Sonderfälle:
- Für die triviale Sigma-Algebra
g={∅,Ω}{displaystyle {mathcal {G}}={emptyset ,Omega}} , die bedingte Wahrscheinlichkeit ist die konstante Funktion P(EIN|{∅,Ω})=P(EIN).{displaystyle operatorname {P} !left(Amid {emptyset ,Omega }right)=operatorname {P} (A).} - Wenn
EIN∈g{displaystyle Ain {mathcal {G}}} , dann P(EIN|g)=1EIN{displaystyle operatorname {P} (Amid {mathcal {G}})=1_{A}} , die Indikatorfunktion (unten definiert).
Lassen
x:Ω→E{displaystyle X:Omegato E}(E,E){displaystyle (E,{mathcal{E}})} sei ein
B∈E{displaystyle Bin {mathcal {E}}} -bewertete Zufallsvariable. Für jeden
, definieren
Für alle
ω∈Ω{displaystyle omegainOmega}μx|g(⋅|g)(ω):E→R{displaystyle mu_{X,|{mathcal{G}}}(cdot,|{mathcal{G}})(omega):{mathcal{E}}to mathbb{ R} } , die Funktion
x{displaystyle X} heißt der bedingte Wahrscheinlichkeitsverteilung von
g{displaystyle {mathcal {G}}} gegeben
(E,E){displaystyle (E,{mathcal{E}})} . Wenn es ein Wahrscheinlichkeitsmaß für ist
, dann heißt es regulär.
Für eine reellwertige Zufallsvariable (bezüglich der Borel
σ{displaystyle sigma}R1{displaystyle {mathcal{R}}^{1}} -Gebiet
R{displaystyle mathbb{R}} An
E[X∣G]=∫−∞∞xμ(Dx,⋅){displaystyle E[Xmid {mathcal {G}}]=int_{-infty}^{infty}x,mu(dx,cdot)} ), ist jede bedingte Wahrscheinlichkeitsverteilung regulär.[4] In diesem Fall,
fast sicher.
Beziehung zur bedingten Erwartung[edit]
Für jede Veranstaltung
EIN∈F{displaystyle Ain {mathcal{F}}}, definieren Sie die Indikatorfunktion:
- 1EIN(ω)={1wenn ω∈EIN,0wenn ω∉EIN,{displaystyle mathbf {1}_{A}(omega)={begin{cases}1;&{text{if }}omega in A,\0;&{text{ wenn }}omega notin A,end{Fälle}}}
was eine Zufallsvariable ist. Beachten Sie, dass der Erwartungswert dieser Zufallsvariablen gleich der Wahrscheinlichkeit von EIN selbst:
- E(1EIN)=P(EIN).{displaystyle operatorname {E} (mathbf {1} _{A})=operatorname {P} (A).;}
Angenommen
σ{displaystyle sigma}g⊆F{displaystyle {mathcal {G}}subseteq {mathcal {F}}} -Gebiet
P(EIN|g){displaystyle operatorname {P} (Amid {mathcal {G}})} , die bedingte Wahrscheinlichkeit
EIN{displaystyle A} ist eine Version der bedingten Erwartung der Indikatorfunktion für
:
- P(EIN|B)=E(1EIN|B){displaystyle operatorname {P} (Amid {mathcal {B}})=operatorname {E} (mathbf {1} _{A}mid {mathcal {B}});}
Ein Erwartungswert einer Zufallsvariablen bezüglich einer regulären bedingten Wahrscheinlichkeit ist gleich seinem bedingten Erwartungswert.
Recent Comments