Benutzer:Stepri2005/Kurs:Stochastische Prozesse/Bedingte Erwartungswerte und Verteilungen

2.1 Einleitung

Problemstellung:

$X,Y$ seien Zufallsgrößen über einem Wahrscheinlichkeitsraum $(\Omega ,{\mathcal {F}},P)$ . Gesucht ist nach einer funktionalen Abhängigkeit zwischen $X$ und $Y$ . Kann man aus einem konkreten Messwert von $X$ auf den zu erwartenden Wert von $Y$ schließen?

Mathematische Formulierung:

Gesucht ist die Funktion $g:\mathbb {R} \to \mathbb {R}$ mit

\mathbb {E} (Y-g(X))^{2}=\inf _{f:\mathbb {R} \to \mathbb {R} }\mathbb {E} (Y-f(X))^{2}.

Zunächst wollen wir das Problem theoretisch untersuchen. Dies führt auf die Notwendigkeit, bedingte Verteilungen und bedingte Erwartungswerte zu betrachten (Kapitel 2.2 und 2.5). Danach behandeln wir die praktische Lösung des Problems (Kapitel 2.4).

Anmerkung:

Im folgenden setzen wir - ohne dies speziell zu erwähnen - stets die Existenz aller auftauchenden Erwartungswerte voraus.

2.2 Diskrete zufällige Größen

Es sei $(X,Y)$ ein diskreter zufälliger Vektor über $(\Omega ,{\mathcal {F}},P)$ mit (endlichen oder abzählbar unendlichen) Wertebereichen $X(\Omega )=\{x_{1},x_{2},\ldots \}$ bzw. $Y(\Omega )=\{y_{1},y_{2},\ldots \}$ . Wir vereinbaren folgende Bezeichnungen:

(2.1)

p_{km}=P(X=x_{k},Y=y_{m}),

(2.2)

p_{k\cdot }=\sum _{m}p_{km}=P(X=x_{k}),

(2.3)

p_{\cdot m}=\sum _{k}p_{km}=P(Y=y_{m}).

Definition 2.1

Für $y_{m}\in Y(\Omega )$ bezeichne $X|Y=y_{m}$ die Zufallsgröße mit Wertebereich $(X|Y=y_{m})(\Omega )=X(\Omega )$ und Verteilung

P((X|Y=y_{m})=x_{k})=P(X=x_{k}|Y=y_{m})={\frac {p_{km}}{p_{\cdot m}}}\quad (x_{k}\in X(\Omega )).

Der Erwartungswert $\mathbb {E} (X|Y=y_{m})$ der Zufallsgröße $X|Y=y_{m}$ heißt bedingter Erwartungswert von

X

unter der Bedingung

Y=y_{m}

. Die Funktion $\Psi :Y(\Omega )\Longrightarrow \mathbb {R} ,\Psi (y):=\mathbb {E} (X|Y=y)$ heißt bedingte Erwartungswertfunktion von

X|Y

.

Für $y_{m}\in Y(\Omega )$ erhält man

\mathbb {E} (X|Y=y_{m})=\sum _{k}x_{k}\cdot P(X=x_{k}|Y=y_{m})=\sum _{k}x_{k}\cdot {\frac {p_{km}}{p_{\cdot m}}}.

Völlig analog führt man die Zufallsgröße $Y|X=x_{k}$ ein.

Definition 2.2

Für $x_{k}\in X(\Omega )$ bezeichne $Y|X=x_{k}$ die Zufallsgröße mit Wertebereich $(Y|X=x_{k})(\Omega )=Y(\Omega )$ und Verteilung

P((Y|X=x_{k})=y_{m})=P(Y=y_{m}|X=x_{k})={\frac {p_{km}}{p_{k\cdot }}}\quad (y_{m}\in Y(\Omega )).

Der Erwartungswert $\mathbb {E} (Y|X=x_{k})$ der Zufallsgröße $Y|X=x_{k}$ heißt bedingter Erwartungswert von

Y

unter der Bedingung

X=x_{k}

. Die Funktion $\Phi :X(\Omega )\Longrightarrow \mathbb {R} ,\Phi (x):=\mathbb {E} (Y|X=x)$ heißt bedingte Erwartungswertfunktion von

Y|X

.

Für den bedingten Erwartungswert $\mathbb {E} (Y|X=x_{k})$ ergibt sich

\mathbb {E} (Y|X=x_{k})=\sum _{k}y_{m}\cdot P(Y=y_{m}|X=x_{k})=\sum _{k}y_{m}\cdot {\frac {p_{km}}{p_{k\cdot }}}.

Anmerkung:

Es wird stets vorausgesetzt $p_{k\cdot }>0,p_{\cdot m}>0$ (sonst können die bedingten Wahrscheinlichkeiten nicht gebildet werden). Da aber $p_{km}=0$ nicht ausgeschlossen ist, kann für einige $k$ und $m$ gelten $P((Y|X=x_{k})=ym)=0=P((X|Y=y_{m})=x_{k})$ .

Der bedingte Erwartungswert $\Phi (x_{k})=\mathbb {E} (Y|X=x_{k})$ ist eine Verfeinerung des Erwartungswertes $\mathbb {E} Y$ . $\Phi (X)=\mathbb {E} (Y|X)$ ist eine Zufallsgröße, die mit Wahrscheinlichkeit $p_{k\cdot }$ den Wert $\mathbb {E} (Y|X=x_{k})$ annimmt. Somit sollte der Erwartungswert von $\Phi (X)$ gleich dem Erwartungswert von $Y$ sein. Analog ist $\Psi (y_{m})=\mathbb {E} (X|Y=y_{m})$ eine Verfeinerung des Erwartungswertes $\mathbb {E} X$ . Die Zufallsgröße $\Psi (Y)=\mathbb {E} (X|Y)$ nimmt mit Wahrscheinlichkeit $p_{\cdot m}$ den Wert $\mathbb {E} (X|Y=y_{m})$ an und es ist zu vermuten, dass gilt $\mathbb {E} \Psi (Y)=\mathbb {E} X$ .

Theorem 2.1

(2.4)

\mathbb {E} (\mathbb {E} (Y|X)=\mathbb {E} Y,\quad \mathbb {E} (\mathbb {E} (X|Y)=\mathbb {E} X.

Beweis:

\mathbb {E} (\mathbb {E} (X|Y))=\sum _{l}\mathbb {E} (X|Y=y_{l})\cdot p_{\cdot l}=\sum _{l}\sum _{k}x_{k}{\frac {p_{kl}}{p_{\cdot l}}}p_{\cdot l}=\sum _{k}x_{k}\sum _{l}p_{kl}=\sum _{k}x_{k}p_{k\cdot }=\mathbb {E} X,

\mathbb {E} (\mathbb {E} (Y|X))=\sum _{k}\mathbb {E} (Y|X=x_{k})\cdot p_{k\cdot }=\sum _{k}\sum _{l}y_{l}{\frac {p_{kl}}{p_{k\cdot }}}p_{k\cdot }=\sum _{l}y_{l}\sum _{k}p_{kl}=\sum _{l}y_{l}p_{\cdot l}=\mathbb {E} Y.

q.e.d.

Die bedingten Erwartungswertfunktionen lösen die anfangs skizzierte Aufgabenstellung.

Theorem 2.2

Seien $X,Y$ diskrete zufällige Größen über $(\Omega ,{\mathcal {F}},P)$ . Für

\Psi :Y(\Omega )\to \mathbb {R} ,\quad \Psi (y):=\mathbb {E} (X|Y=y)

sowie

\Phi :X(\Omega )\Rightarrow \mathbb {R} ,\quad \Phi (x):=\mathbb {E} (Y|X=x)

gelten die Beziehungen

\mathbb {E} (Y-\Phi (X))^{2}=\inf _{g:\mathbb {R} \to \mathbb {R} }\mathbb {E} (Y-g(X))^{2},

\mathbb {E} (X-\Psi (Y))^{2}=\inf _{g:\mathbb {R} \to \mathbb {R} }\mathbb {E} (X-g(Y))^{2}.

Beweis:

Für eine beliebige Funktion $g:\mathbb {R} \to \mathbb {R}$ gilt

(2.5)

\mathbb {E} (Y-g(X))^{2}=\mathbb {E} (Y-\Phi (X)+\Phi (X)-g(X))^{2}

(2.6)

=\mathbb {E} (Y-\Phi (X))^{2}+\mathbb {E} (\Phi (X)-g(X))^{2}+2\mathbb {E} (Y-\Phi (X))(\Phi (X)-g(X)).

Der letzte Summand ist aber gleich Null, denn

(2.7)

\mathbb {E} (Y-\Phi (X))(\Phi (X)-g(X))

(2.8)

=\sum _{l}\sum _{k}(y_{l}-\Phi (x_{k}))(\Phi (x_{k})-g(x_{k})){\frac {p_{kl}}{p_{k\cdot }}}\cdot p_{k\cdot }

(2.9)

=\sum _{k}\left[(\Phi (x_{k})-g(x_{k}))\left(\sum _{l}y_{l}{\frac {p_{kl}}{p_{k\cdot }}}-\Phi (x_{k})\sum _{l}{\frac {p_{kl}}{p_{k\cdot }}}\right)\right]p_{k\cdot }

(2.10)

=\sum _{k}\left[(\Phi (x_{k})-g(x_{k}))\left(\Phi (x_{k})-\Phi (x_{k}){\frac {p_{k\cdot }}{p_{k\cdot }}}\right)\right]p_{k\cdot }=0.

Der Ausdruck $\mathbb {E} (Y-g(X))^{2}\geq 0$ wird damit minimal für $g(x)=\Phi (x)$ . Auf der Menge $\mathbb {R} \setminus X(\Omega )$ können wir natürlich $g$ beliebig definieren. Analog wird $\mathbb {E} (X-g(Y))^{2}$ minimiert durch die Funktion $g(y)=\Psi (y)=\mathbb {E} (X|Y=y)$ .

q.e.d.

Definition 2.3

Die Funktion $\Psi :Y(\Omega )\to \mathbb {R} ,\Psi (y)=\mathbb {E} (X|Y=y)$ heißt Regressionsfunktion erster Art von

X

bezüglich

Y

.

Analog nennt man $\Phi :X(\Omega )\to \mathbb {R} ,\Phi (x)=\mathbb {E} (Y|X=x)$ Regressionsfunktion erster Art von

Y

bezüglich

X

.

2.3 Stetige zufällige Größen

Seien $X,Y$ stetige Zufallsgrößen über einem Wahrscheinlichkeitsraum $(\Omega ,{\mathcal {F}},P)$ mit gemeinsamer Dichtefunktion $f$ , d. h. $f:\mathbb {R} ^{2}\to [0,\infty )$ mit

P(X\in [a_{1},a_{2}),Y\in [b_{1},b_{2}))=\int \limits _{a_{1}}^{a_{2}}\int \limits _{b_{1}}^{b_{2}}f(x,y)\,dydx\quad (a_{1}<a_{2},b_{1}<b_{2}).

Die entsprechenden Randverteilungen von $X$ und $Y$ erhält man durch entsprechende Integration der Dichte $f$ :

(2.11)

f_{X}(x)=\int \limits _{\mathbb {R} }f(x,y)\,dy\quad (x\in \mathbb {R} ),

(2.12)

f_{Y}(y)=\int \limits _{\mathbb {R} }f(x,y)\,dx\quad (y\in \mathbb {R} ).

Wie in Kapitel 2.2 wollen wir auch in diesem Fall bedingte Verteilungen, bedingte Erwartungswerte und die entsprechenden Erwartungswertfunktionen bilden. Da aber für alle $y\in \mathbb {R}$ $P(Y=y)=0$ gilt, existieren die bedingten Wahrscheinlichkeiten $P(X\in A|Y=y)$ nicht. Allerdings können wir überprüfen, ob der Grenzwert

\lim _{h\downarrow 0}P(X\in A|Y\in (y,y+h))

existiert. Diese Verteilung kann dann als Verteilung der Zufallsgröße $X|Y=y$ interpretiert werden.

Wir nehmen an, dass $f_{Y}$ (zumindest einseitig) stetig ist im Punkt $y$ und dass gilt $f_{Y}(y)>0$ . O. B. d. A. sei $f_{Y}$ in $y$ stetig von rechts. Dann existiert ein $h>0$ mit $f_{Y}(u)>0$ für $u\in [y,y+h]$ und $P(Y\in [y,y+h])>0$ . Für $A\in \mathbb {R}$ gilt

(2.13)

P(X\in A|Y\in [y,y+h))={\frac {P(x\in A,Y\in [y,y+h))}{P(Y\in [y,y+h))}}

(2.14)

={\frac {\int \limits _{A}\int \limits _{y}^{y+h}f(u,v)\,dudv}{\int \limits _{y}^{y+h}f_{Y}(v)\,dv}}={\frac {\int \limits _{A}{\frac {1}{h}}\int \limits _{y}^{y+h}f(u,v)\,dudv}{{\frac {1}{h}}\int \limits _{y}^{y+h}f_{Y}(v)\,dv}}

Dadurch erhalten wir

(2.15)

\lim _{h\downarrow 0}P(X\in A|Y\in [y,y+h))={\frac {\int \limits _{A}\left[\lim \limits _{h\downarrow 0}{\frac {1}{h}}\int \limits _{y}^{y+h}f(u,v)\,dv\right]\,du}{\lim \limits _{h\downarrow 0}{\frac {1}{h}}\int \limits _{y}^{y+h}f_{Y}(v)\,dv}}

(2.16)

={\frac {\int \limits _{A}f(u,y)\,du}{f_{Y}(y)}}.

Für alle $y$ mit $f_{Y}(y)>0$ sei $g:\mathbb {R} \to \mathbb {R}$ gegeben durch $g(x):=f(x,y)/f_{Y}(y)$ . Die Funktion $g$ ist eine Dichtefunktion, denn

\int \limits _{\mathbb {R} }g(x)\,dx=\int \limits _{\mathbb {R} }{\frac {f(x,y)}{f_{Y}(y)}}\,dx={\frac {f_{Y}(y)}{f_{Y}(y)}}=1.

Definition 2.4

Für $y$ mit $f_{Y}(y)>0$ sei $X|Y=y$ die zufällige Größe mit der Dichtefunktion $f(x,y)/f_{Y}(y)$ . Die Zufallsgröße $X|Y=y$ heißt bedingte zufällige Größe von

X

unter

Y=y

. $\mathbb {E} (X|Y=y)$ heißt bedingter Erwartungswert von

X

unter

Y=y

.

Für alle $y\in \mathbb {R}$ mit $f_{Y}(y)>0$ gilt

\mathbb {E} (X|Y=y)=\int \limits _{\mathbb {R} }x{\frac {f(x,y)}{f_{Y}(y)}}\,dx.

Analog erhalten wir für $x\in \mathbb {R}$ mit $f_{X}(x)>0$ die Beziehung

\mathbb {E} (Y|X=x)=\int \limits _{\mathbb {R} }y{\frac {f(x,y)}{f_{X}(x)}}\,dy.

Für stetige Zufallsgrößen gilt genau wie für diskrete, dass die bedingten Erwartungswerte die (theoretische) Lösung des Regressionsproblems darstellen (siehe Theorem 2.2).

Theorem 2.3

Seien $X,Y$ stetige zufällige Größen über $(\Omega ,{\mathcal {F}},P)$ . Wir setzen

\Psi :\mathbb {R} \to \mathbb {R} ,\quad \Psi (y):={\begin{cases}\mathbb {E} (X|Y=y),&f{\ddot {u}}r\ y\in \mathbb {R} \ mit\ f_{Y}(y)>0,\\0&sonst\end{cases}}

sowie

\Phi :\mathbb {R} \Rightarrow \mathbb {R} ,\quad \Phi (x):={\begin{cases}\mathbb {E} (Y|X=x),&f{\ddot {u}}r\ x\in \mathbb {R} \ mit\ f_{X}(x)>0,\\0,&sonst.\end{cases}}

Es gilt

\mathbb {E} (Y-\Phi (X))^{2}=\inf _{g:\mathbb {R} \to \mathbb {R} }\mathbb {E} (Y-g(X))^{2},

\mathbb {E} (X-\Psi (Y))^{2}=\inf _{g:\mathbb {R} \to \mathbb {R} }\mathbb {E} (X-g(Y))^{2}.

Beweis:

Wie im diskreten Fall erhält man für eine beliebige messbare Funktion $g:\mathbb {R} \to \mathbb {R}$

(2.17)

\mathbb {E} (Y-g(X))^{2}=\mathbb {E} (Y-\Phi (X)+\Phi (X)-g(X))^{2}

(2.18)

=\mathbb {E} (Y-\Phi (X))^{2}+\mathbb {E} (\Phi (X)-g(X))^{2}+2\mathbb {E} (Y-\Phi (X))(\Phi (X)-g(X)).

Analog zum Beweis von Theorem 2.2 zeigen wir, dass der letzte Summand verschwindet

(2.19)

\mathbb {E} (Y-\Phi (X))(\Phi (X)-g(X))=\int \limits _{\mathbb {R} }\int \limits _{\mathbb {R} }(y-\Phi (x))(\Phi (x)-g(x)){\frac {f(x,y)}{f_{X}(x)}}\cdot f_{X}(x)\,dxdy

(2.20)

=\int \limits _{\mathbb {R} }\left[(\Phi (x)-g(x))\left(\int \limits _{\mathbb {R} }y{\frac {f(x,y)}{f_{X}(x)}}\,dy-\Phi (x)\int \limits _{\mathbb {R} }{\frac {f(x,y)}{f_{X}(x)}}\,dy\right)\right]f_{X}(x)\,dx

(2.21)

=\int \limits _{\mathbb {R} }\left[(\Phi (x)-g(x))\left(\Phi (x)-\Phi (x){\frac {f_{X}(x)}{f_{X}(x)}}\right)\right]f_{X}(x)\,dx=0.

Der Ausdruck $\mathbb {E} (Y-g(X))^{2}\geq 0$ wird damit minimal für $g(x)=\Phi (x)$ . Auf der Menge $\{x\in \mathbb {R} :f_{X}(x)=0\}$ setzt man die Funktion $g$ o. B. d. A. gleich Null. Analog wird $\mathbb {E} (X-g(Y))^{2}$ minimiert durch die Funktion $g(y)=\Psi (y)=\mathbb {E} (X|Y=y)$ .

q.e.d.

Beispiel 2.2

Sei $(X,Y)$ zufälliger Vektor mit $X\geq 0,Y\geq 0$ und Dichte

f(x,y)={\frac {a^{p}}{\Gamma (p)}}\cdot y^{p}e^{-(a+x)y}\quad (x\geq 0,y\geq 0),

wobei $a>0,p>0$ . Berechne die Regressionsfunktion $\Psi (y)=\mathbb {E} (X|Y=y)$ .

Lösung: Für $y>0$ gilt

f_{Y}(y)=\int \limits _{0}^{\infty }{\frac {a^{p}}{\Gamma (p)}}\cdot y^{p}e^{-(a+x)y}\,dx={\frac {a^{p}}{\Gamma (p)}}\cdot y^{p-1}e^{-ay},

d. h. $Y\sim \operatorname {Gam} (a,p)$ . Somit ergibt sich für $x\geq 0,y>0$ als Dichte der Zufallsgröße $X|Y=y$ der Ausdruck $f_{X|Y=y}(x)=y\cdot e^{-yx}$ , d. h. $X|Y=y\sim \operatorname {Exp} (y)$ . Wir erhalten schließlich

\Psi (y)=\mathbb {E} (X|Y=y)={\frac {1}{y}}\quad (y>0).

Es sei erwähnt, dass für $x\geq 0$ gilt

f_{X}(x)=\int \limits _{0}^{\infty }{\frac {a^{p}}{\Gamma (p)}}\cdot y^{p}e^{-(a+x)y}\,dy={\frac {p\cdot a^{p}}{(a+x)^{p+1}}}.

Die Zufallsgröße $X$ hat damit eine sog. Pareto-Verteilung, also

f_{X}(x)={\frac {p\cdot a^{p}}{(a+x)^{p+1}}}\quad (x\geq 0).

Beispiel 2.3

$(X,Y)$ habe die gemeinsame Dichtefunktion

f(x,y)={\frac {1}{2\pi }}\exp \left\{-{\frac {x^{2}-2xy+2y^{2}}{2}}\right\}\quad ((x,y)\in \mathbb {R} ^{2}).

Berechne die Regressionsfunktionen $\Psi (y)=\mathbb {E} (X|Y=y)$ sowie $\Phi (x)=\mathbb {E} (Y|X=x)$ !

Lösung: Wir erinnern noch einmal an die aus der Analysis bekannte Beziehung (3.2). Daraus folgt (nach einfacher Substitution), dass für alle $a\in \mathbb {R}$ gilt

(2.22)

\int \limits _{-\infty }^{\infty }{\frac {1}{\sqrt {2\pi }}}\exp\{-(u-a)^{2}/2\}\,du=1.

Für die Randdichte $f_{Y}$ ergibt sich

(2.23)

f_{Y}(y)=\int \limits _{-\infty }^{\infty }f(x,y)\,dx={\frac {1}{\sqrt {2\pi }}}\exp \left\{-{\frac {y^{2}}{2}}\right\}\int \limits _{-\infty }^{\infty }{\frac {1}{\sqrt {2\pi }}}\exp \left\{-{\frac {(x-y)^{2}}{2}}\right\}\,dx={\frac {1}{\sqrt {2\pi }}}\exp \left\{-{\frac {y^{2}}{2}}\right\}.

Folglich gilt $Y\sim {\mathcal {N}}(0,1)$ und als Dichte der Zufallsgröße $X|Y=y$ erhält man

f_{X|Y=y}(x)={\frac {f(x,y)}{f_{Y}(y)}}={\frac {1}{\sqrt {2\pi }}}\exp \left\{-{\frac {(x-y)^{2}}{2}}\right\}.

Es gilt also $X|Y=y\sim {\mathcal {N}}(y,1)$ und damit

\Psi (y)=\mathbb {E} (X|Y=y)=y.

Analog berechnen wir die Randdichte $f_{X}$ :

(2.24)

f_{X}(x)=\sum \limits _{-\infty }^{\infty }f(x,y)\,dy={\frac {1}{2\pi }}\exp \left\{{\frac {x^{2}}{4}}\right\}\sum \limits _{-\infty }^{\infty }\exp \left\{-\left({\frac {x}{2}}-y\right)^{2}\right\}\,dy

(2.25)

={\frac {1}{2\pi }}\exp \left\{{\frac {x^{2}}{4}}\right\}\sum \limits _{-\infty }^{\infty }\exp\{-u^{2}\}\,du={\frac {1}{2\pi }}\exp \left\{{\frac {x^{2}}{4}}\right\}\cdot {\sqrt {\pi }}

(2.26)

={\frac {1}{\sqrt {4\pi }}}\exp \left\{{\frac {x^{2}}{2}}\right\},

woraus wir auf $X\sim {\mathcal {N}}(0,2)$ schließen. Es ergibt sich

f_{Y|X=x}(y)={\frac {f(x,y)}{f_{X}(x)}}={\frac {1}{\sqrt {\pi }}}\exp \left\{-\left({\frac {x}{2}}-y\right)^{2}\right\},

d. h. $Y|X=x\sim {\mathcal {N}}(x/2,1/2)$ , was auf

\Phi (x)=\mathbb {E} (Y|X=x)={\frac {x}{2}}

führt.

Beispiel 2.4

$(X,Y)$ habe die gemeinsame Dichtefunktion

f(x,y)={\begin{cases}y^{2}\exp\{(1+x)y\},&{\text{wenn }}x>0,y>0\\0,&{\text{sonst.}}\end{cases}}

Berechne die Erwartungswertfunktionen $\Psi (y),\Phi (x)$ !

2.4 Regressionsgerade

Definition 2.5

$(X,Y)$ zufälliger Vektor. Die zufällige Größe $\alpha X+\beta$ heißt Regressionsgerade von $Y$ bezüglich $X$ , falls

\mathbb {E} (Y-(\alpha X+\beta ))^{2}=\inf _{a,b\in \mathbb {R} }\mathbb {E} (Y-(aX+b))^{2}

Satz 2.1

\beta =\mathbb {E} Y-\alpha \mathbb {E} X,\quad \alpha ={\frac {\operatorname {Cov} (X,Y)}{\operatorname {Var} (X)}}={\frac {\mathbb {E} (XY)-\mathbb {E} X\cdot \mathbb {E} Y}{\mathbb {E} (X^{2})-(\mathbb {E} X)^{2}}}=\varrho \cdot {\frac {\sigma (Y)}{\sigma (X)}}.

2.5 Allgemeine bedingte Erwartungswerte

„Es ist nöthig zu bemerken, daß die Unklarheit im Begriffe durch die Abstraktheit hervorgerufen wird, die bei der Anwendung auf wirkliche Messungen überflüssig wird.“

Nikolai Iwanowitsch Lobatschewski, 1835

Im Kapitel 2.2 wurde der Begriff des bedingten Erwartungswerts an Hand des Spezialfalls diskreter Zufallsgrößen verdeutlicht. Wir haben festgestellt, dass alle für $\mathbb {E} (X|Y)$ wesentlichen Informationen über $Y$ in der $\sigma$ -Algebra $\sigma (Y)$ stecken. Wir sagen, dass $\sigma (Y)$ Träger der Information über $Y$ ist. Wir wollen dies nun auf allgemeine Zufallsgrößen und $\sigma$ -Algebren übertragen.

Definition 2.6

Seien $Y,Y_{1},Y_{2}$ Zufallsgrößen über einem Wahrscheinlichkeitsraum $[\Omega ,{\mathcal {F}},P]$ , ${\tilde {\mathcal {F}}}$ eine $\sigma$ -Subalgebra von ${\mathcal {F}}$ . Wir sagen, dass ${\tilde {\mathcal {F}}}$ die volle Information über $Y$ enthält, falls gilt $\sigma (Y)\subseteq {\tilde {\mathcal {F}}}$ . Wir sagen, $Y_{2}$ enthält mehr Information als $Y_{1}$ , falls gilt $\sigma (Y_{1})\subset \sigma (Y_{2})$ .

Anmerkung:

Ist $Y$ eine ${\tilde {\mathcal {F}}}$ -messbare Funktion, so enthält ${\tilde {\mathcal {F}}}$ die volle Information über $Y$ . Wir entnehmen, dass $\sigma (Y)$ die volle Information über den bedingten Erwartungswert $\mathbb {E} (X|\sigma (Y))$ enthält. Dies und die oben aufgeführte Eigenschaft werden die definierenden Eigenschaften für allgemeine bedingte Erwartungswerte sein.

Definition 2.7

Sei $[\Omega ,{\mathcal {F}},P]$ , ${\tilde {\mathcal {F}}}$ eine $\sigma$ -Subalgebra von ${\mathcal {F}}$ , $X$ eine Zufallsgröße. Eine Zufallsgröße $Z$ heißt bedingter Erwartungswert von

X

unter der

\sigma

-Algebra

{\tilde {\mathcal {F}}}

, falls

$\sigma (Z)\subseteq {\tilde {\mathcal {F}}},$
$\mathbb {E} (X\mathbb {I} _{A})=\mathbb {E} (Z\mathbb {I} _{A})\quad (A\in {\tilde {\mathcal {F}}}).$

Symbolisch schreiben wir: $Z:=\mathbb {E} (X|{\tilde {\mathcal {F}}})$ .

Bei diskreten Zufallsgrößen können wir explizit die bedingten Erwartungswerte berechnen. Allgemein ist dies schwierig oder unmöglich - Definition 2.7 ist alles andere als konstruktiv. Deshalb ist es wichtig, Rechenregeln für bedingte Erwartungswerte zu haben, die es einem ermöglichen, mit bedingten Erwartungswerten zu operieren, ohne ihre spezielle Form zu kennen. Wir werden die folgenden Eigenschaften nicht beweisen, sondern nur kommentieren.

Im folgenden sei $[\Omega ,{\mathcal {F}},P]$ ein Wahrscheinlichkeitsraum, ${\tilde {\mathcal {F}}}$ eine $\sigma$ -Subalgebra von ${\mathcal {F}}$ sowie $X,X_{1},X_{2}$ Zufallsgrößen (also ${\mathcal {F}}$ -messbare Funktionen).

Theorem 2.4 (Regel 0)

Ist $\mathbb {E} |X|<\infty$ , so existiert $\mathbb {E} (X|{\tilde {\mathcal {F}}})$ und ist eindeutig in folgendem Sinne: Sind $Z_{1},Z_{2}$ Zufallsgrößen mit den Eigenschaften 1. und 2. von Definition 2.7, so ist $P$ -fast sicher $Z_{1}=Z_{2}$ .

Theorem 2.5 (Regel 1)

Der bedingte Erwartungswert ist linear: Für alle $a,b\in \mathbb {R}$ gilt $P$ -f. s.

(2.27)

\mathbb {E} (aX_{1}+bX_{2}|{\tilde {\mathcal {F}}})=a\cdot \mathbb {E} (X_{1}|{\tilde {\mathcal {F}}})+b\cdot \mathbb {E} (X_{2}|{\tilde {\mathcal {F}}}).

Theorem 2.6 (Regel 2)

(2.28)

\mathbb {E} (\mathbb {E} (X|{\tilde {\mathcal {F}}}))=\mathbb {E} X.

Theorem 2.7 (Regel 3)

Sind $\sigma (X)$ und ${\tilde {\mathcal {F}}}$ unabhängig, so gilt $P$ -f. s.

(2.29)

\mathbb {E} (X|{\tilde {\mathcal {F}}}))=\mathbb {E} X.

Theorem 2.8 (Regel 4)

Ist $\sigma (X)\subseteq {\tilde {\mathcal {F}}}$ (d. h. $X$ ist sogar ${\tilde {\mathcal {F}}}$ -messbar), so gilt $P$ -f. s.

(2.30)

\mathbb {E} (X|{\tilde {\mathcal {F}}}))=X.

Speziell ist also $\mathbb {E} (X_{1}|X_{2})=X_{1}$ , falls $\sigma (X_{1})\subseteq \sigma (X_{2})$ .

Theorem 2.9 (Regel 5)

Ist $\sigma (X_{1})\subseteq {\tilde {\mathcal {F}}}$ (d. h. $X_{1}$ ist sogar ${\tilde {\mathcal {F}}}$ -messbar), so gilt für alle $X_{2}$ $P$ -f. s.

(2.31)

\mathbb {E} (X_{1}X_{2}|{\tilde {\mathcal {F}}}))=X_{1}\mathbb {E} (X_{2}|{\tilde {\mathcal {F}}}).

Theorem 2.10 (Regel 6)

Ist ${\mathcal {F}}_{1}\subseteq {\tilde {\mathcal {F}}}$ eine weitere $\sigma$ -Subalgebra, so gilt $P$ -f. s.

(2.32)

\mathbb {E} [\mathbb {E} (X|{\mathcal {F}}_{1})|{\tilde {\mathcal {F}}}]=\mathbb {E} (X|{\tilde {\mathcal {F}}}),

(2.33)

\mathbb {E} [\mathbb {E} (X|{\tilde {\mathcal {F}}})|{\mathcal {F}}_{1}]=\mathbb {E} (X|{\tilde {\mathcal {F}}}).

Theorem 2.11 (Regel 7)

Sind $\sigma (X_{1})$ und ${\tilde {\mathcal {F}}}$ unabhängig und ist $\sigma (X_{2})\subseteq {\tilde {\mathcal {F}}}$ , so gilt für eine beliebige Funktion $h:\mathbb {R} ^{2}\to \mathbb {R}$ (Existenz der Erwartungswerte vorausgesetzt) $P$ -f. s.

(2.34)

\mathbb {E} (h(X_{1},X_{2})|{\tilde {\mathcal {F}}})=\mathbb {E} (\mathbb {E} _{X_{1}}h(X_{1},X_{2})|{\tilde {\mathcal {F}}}),

wobei $\mathbb {E} _{X_{1}}h(X_{1},X_{2})$ den nur bezüglich $X_{1}$ gebildeten Erwartungswert bezeichnet.

Anmerkung:

Beachte, dass $\mathbb {E} _{X}h(X,Y)$ eine Zufallsgröße ist und zwar gilt $(\mathbb {E} _{X}h(X,Y))(\omega )=\mathbb {E} _{X}h(X,Y(\omega ))$ . Wir wollen die Bildung $\mathbb {E} _{X}h(X,Y)$ etwas illustrieren. $X$ habe die Dichtefunktion $f_{X}$ . Dann gilt

\mathbb {E} _{X}h(X,Y)=\int \limits _{-\infty }^{\infty }h(x,Y)f_{X}(x)\,dx.

Ist beispielsweise $h(x,y)=x\cdot y$ , erhält man $\mathbb {E} _{X}h(X,Y)=\mathbb {E} _{X}(XY)=Y\mathbb {E} X$ . Ist $h(x,y)=x+y$ , ergibt sich $\mathbb {E} _{X}h(X,Y)=\mathbb {E} _{X}(X+Y)=\mathbb {E} X+Y$ .

Sei $[\Omega ,{\mathcal {F}},P]$ ein Wahrscheinlichkeitsraum, ${\tilde {\mathcal {F}}}\subseteq {\mathcal {F}}$ eine $\sigma$ -Subalgebra. Die Zufallsgröße $\mathbb {E} (X|{\tilde {\mathcal {F}}})$ sollte man stets als eine Verfeinerung oder ein Update der Information $\mathbb {E} X$ auffassen, wenn die Information ${\tilde {\mathcal {F}}}$ gegeben ist. Von allen Zufallsgrößen, die bereits ${\tilde {\mathcal {F}}}$ -messbar sind, besitzt $\mathbb {E} (X|{\tilde {\mathcal {F}}})$ die folgende Minimalitätseigenschaft in Bezug auf die mittlere quadratische Abweichung.

Theorem 2.12

Sei $[\Omega ,{\mathcal {F}},P]$ ein Wahrscheinlichkeitsraum, ${\tilde {\mathcal {F}}}\subseteq {\mathcal {F}}$ eine $\sigma$ -Subalgebra. $L_{2}({\tilde {\mathcal {F}}})$ bezeichne die Menge aller quadratisch integrierbaren ${\tilde {\mathcal {F}}}$ -messbaren Zufallsgrößen. Für eine beliebige Zufallsgröße $X$ mit $\mathbb {E} X^{2}<\infty$ gilt

(2.35)

\mathbb {E} \left[X-\mathbb {E} (X|{\tilde {\mathcal {F}}})\right]^{2}=\min _{Z\in L_{2}({\tilde {\mathcal {F}}})}\mathbb {E} (X-Z)^{2}.

Definition 2.7

Sei $[\Omega ,{\mathcal {F}},P]$ ein Wahrscheinlichkeitsraum, $X$ und $Y$ Zufallsgrößen. Die Zufallsgröße $\mathbb {E} (X|\sigma (Y))$ heißt bedingter Erwartungswert von

X

unter der Bedingung

Y

. Symbolisch schreibt man auch $\mathbb {E} (X|Y)$ .

Wegen Theorem 2.12 ist $\mathbb {E} (X|Y)$ diejenige Funktion von $Y$ , die im quadratischen Mittel der Zufallsgröße $X$ am nächsten ist. Anwendung findet diese Aussage in der Statistik in der sog. Regressionsanalyse. Wir sagen auch, dass $\mathbb {E} (X|{\tilde {\mathcal {F}}})$ die beste Vorhersage von $X$ bei gegebenem ${\tilde {\mathcal {F}}}$ ist.

Zum Schluss noch als technisches Hilfsmittel eine wichtige Ungleichung.

Theorem 2.13 (Jensensche Ungleichung)

Sei $f:\mathbb {R} \to \mathbb {R}$ eine konvexe Funktion und $X$ eine Zufallsgröße auf einem Wahrscheinlichkeitsraum $[\Omega ,{\mathcal {F}},P]$ mit $\mathbb {E} |X|<\infty$ sowie $\mathbb {E} |f(X)|<\infty$ . Es gilt

(2.36)

f(\mathbb {E} X)\leq \mathbb {E} f(X).

Für eine beliebige $\sigma$ -Subalgebra ${\tilde {\mathcal {F}}}\subseteq {\mathcal {F}}$ gilt

(2.37)

f(\mathbb {E} X|{\tilde {\mathcal {F}}})\leq \mathbb {E} [f(X)|{\tilde {\mathcal {F}}}].