Benutzer:Stepri2005/Kurs:Stochastische Prozesse/Bedingte Erwartungswerte und Verteilungen

Aus Wikiversity

2.1 Einleitung[Bearbeiten]

Problemstellung:[Bearbeiten]

seien Zufallsgrößen über einem Wahrscheinlichkeitsraum . Gesucht ist nach einer funktionalen Abhängigkeit zwischen und . Kann man aus einem konkreten Messwert von auf den zu erwartenden Wert von schließen?

Mathematische Formulierung:[Bearbeiten]

Gesucht ist die Funktion mit

Zunächst wollen wir das Problem theoretisch untersuchen. Dies führt auf die Notwendigkeit, bedingte Verteilungen und bedingte Erwartungswerte zu betrachten (Kapitel 2.2 und 2.5). Danach behandeln wir die praktische Lösung des Problems (Kapitel 2.4).

Anmerkung:[Bearbeiten]

Im folgenden setzen wir - ohne dies speziell zu erwähnen - stets die Existenz aller auftauchenden Erwartungswerte voraus.

2.2 Diskrete zufällige Größen[Bearbeiten]

Es sei ein diskreter zufälliger Vektor über mit (endlichen oder abzählbar unendlichen) Wertebereichen bzw. . Wir vereinbaren folgende Bezeichnungen:

(2.1)
(2.2)
(2.3)

Definition 2.1[Bearbeiten]

Für bezeichne die Zufallsgröße mit Wertebereich und Verteilung
Der Erwartungswert der Zufallsgröße heißt bedingter Erwartungswert von unter der Bedingung . Die Funktion heißt bedingte Erwartungswertfunktion von .

Für erhält man

Völlig analog führt man die Zufallsgröße ein.

Definition 2.2[Bearbeiten]

Für bezeichne die Zufallsgröße mit Wertebereich und Verteilung
Der Erwartungswert der Zufallsgröße heißt bedingter Erwartungswert von unter der Bedingung . Die Funktion heißt bedingte Erwartungswertfunktion von .

Für den bedingten Erwartungswert ergibt sich

Anmerkung:[Bearbeiten]

Es wird stets vorausgesetzt (sonst können die bedingten Wahrscheinlichkeiten nicht gebildet werden). Da aber nicht ausgeschlossen ist, kann für einige und gelten .

Der bedingte Erwartungswert ist eine Verfeinerung des Erwartungswertes . ist eine Zufallsgröße, die mit Wahrscheinlichkeit den Wert annimmt. Somit sollte der Erwartungswert von gleich dem Erwartungswert von sein. Analog ist eine Verfeinerung des Erwartungswertes . Die Zufallsgröße nimmt mit Wahrscheinlichkeit den Wert an und es ist zu vermuten, dass gilt .

Theorem 2.1[Bearbeiten]

(2.4)

Beweis:[Bearbeiten]

q.e.d.

Die bedingten Erwartungswertfunktionen lösen die anfangs skizzierte Aufgabenstellung.

Theorem 2.2[Bearbeiten]

Seien diskrete zufällige Größen über . Für
sowie
gelten die Beziehungen

Beweis:[Bearbeiten]

Für eine beliebige Funktion gilt

(2.5)
(2.6)

Der letzte Summand ist aber gleich Null, denn

(2.7)
(2.8)
(2.9)
(2.10)

Der Ausdruck wird damit minimal für . Auf der Menge können wir natürlich beliebig definieren. Analog wird minimiert durch die Funktion .

q.e.d.

Definition 2.3[Bearbeiten]

Die Funktion heißt Regressionsfunktion erster Art von bezüglich .
Analog nennt man Regressionsfunktion erster Art von bezüglich .

2.3 Stetige zufällige Größen[Bearbeiten]

Seien stetige Zufallsgrößen über einem Wahrscheinlichkeitsraum mit gemeinsamer Dichtefunktion , d. h. mit

Die entsprechenden Randverteilungen von und erhält man durch entsprechende Integration der Dichte :

(2.11)
(2.12)

Wie in Kapitel 2.2 wollen wir auch in diesem Fall bedingte Verteilungen, bedingte Erwartungswerte und die entsprechenden Erwartungswertfunktionen bilden. Da aber für alle gilt, existieren die bedingten Wahrscheinlichkeiten nicht. Allerdings können wir überprüfen, ob der Grenzwert

existiert. Diese Verteilung kann dann als Verteilung der Zufallsgröße interpretiert werden.

Wir nehmen an, dass (zumindest einseitig) stetig ist im Punkt und dass gilt . O. B. d. A. sei in stetig von rechts. Dann existiert ein mit für und . Für gilt

(2.13)
(2.14)

Dadurch erhalten wir

(2.15)
(2.16)

Für alle mit sei gegeben durch . Die Funktion ist eine Dichtefunktion, denn

Definition 2.4[Bearbeiten]

Für mit sei die zufällige Größe mit der Dichtefunktion . Die Zufallsgröße heißt bedingte zufällige Größe von unter . heißt bedingter Erwartungswert von unter .

Für alle mit gilt

Analog erhalten wir für mit die Beziehung

Für stetige Zufallsgrößen gilt genau wie für diskrete, dass die bedingten Erwartungswerte die (theoretische) Lösung des Regressionsproblems darstellen (siehe Theorem 2.2).

Theorem 2.3[Bearbeiten]

Seien stetige zufällige Größen über . Wir setzen
sowie
Es gilt

Beweis:[Bearbeiten]

Wie im diskreten Fall erhält man für eine beliebige messbare Funktion

(2.17)
(2.18)

Analog zum Beweis von Theorem 2.2 zeigen wir, dass der letzte Summand verschwindet

(2.19)
(2.20)
(2.21)

Der Ausdruck wird damit minimal für . Auf der Menge setzt man die Funktion o. B. d. A. gleich Null. Analog wird minimiert durch die Funktion .

q.e.d.

Beispiel 2.2[Bearbeiten]

Sei zufälliger Vektor mit und Dichte

wobei . Berechne die Regressionsfunktion .

Lösung: Für gilt

d. h. . Somit ergibt sich für als Dichte der Zufallsgröße der Ausdruck , d. h. . Wir erhalten schließlich

Es sei erwähnt, dass für gilt

Die Zufallsgröße hat damit eine sog. Pareto-Verteilung, also

Beispiel 2.3[Bearbeiten]

habe die gemeinsame Dichtefunktion

Berechne die Regressionsfunktionen sowie !

Lösung: Wir erinnern noch einmal an die aus der Analysis bekannte Beziehung (3.2). Daraus folgt (nach einfacher Substitution), dass für alle gilt

(2.22)

Für die Randdichte ergibt sich

(2.23)

Folglich gilt und als Dichte der Zufallsgröße erhält man

Es gilt also und damit

Analog berechnen wir die Randdichte :

(2.24)
(2.25)
(2.26)

woraus wir auf schließen. Es ergibt sich

d. h. , was auf

führt.

Beispiel 2.4[Bearbeiten]

habe die gemeinsame Dichtefunktion

Berechne die Erwartungswertfunktionen !

2.4 Regressionsgerade[Bearbeiten]

Definition 2.5[Bearbeiten]

zufälliger Vektor. Die zufällige Größe heißt Regressionsgerade von bezüglich , falls

Satz 2.1[Bearbeiten]

2.5 Allgemeine bedingte Erwartungswerte[Bearbeiten]

„Es ist nöthig zu bemerken, daß die Unklarheit im Begriffe durch die Abstraktheit hervorgerufen wird, die bei der Anwendung auf wirkliche Messungen überflüssig wird.“
Nikolai Iwanowitsch Lobatschewski, 1835
Nikolai Lobatschewski

Im Kapitel 2.2 wurde der Begriff des bedingten Erwartungswerts an Hand des Spezialfalls diskreter Zufallsgrößen verdeutlicht. Wir haben festgestellt, dass alle für wesentlichen Informationen über in der -Algebra stecken. Wir sagen, dass Träger der Information über ist. Wir wollen dies nun auf allgemeine Zufallsgrößen und -Algebren übertragen.

Definition 2.6[Bearbeiten]

Seien Zufallsgrößen über einem Wahrscheinlichkeitsraum , eine -Subalgebra von . Wir sagen, dass die volle Information über enthält, falls gilt . Wir sagen, enthält mehr Information als , falls gilt .

Anmerkung:[Bearbeiten]

Ist eine -messbare Funktion, so enthält die volle Information über . Wir entnehmen, dass die volle Information über den bedingten Erwartungswert enthält. Dies und die oben aufgeführte Eigenschaft werden die definierenden Eigenschaften für allgemeine bedingte Erwartungswerte sein.

Definition 2.7[Bearbeiten]

Sei , eine -Subalgebra von , eine Zufallsgröße. Eine Zufallsgröße heißt bedingter Erwartungswert von unter der -Algebra , falls
Symbolisch schreiben wir: .

Bei diskreten Zufallsgrößen können wir explizit die bedingten Erwartungswerte berechnen. Allgemein ist dies schwierig oder unmöglich - Definition 2.7 ist alles andere als konstruktiv. Deshalb ist es wichtig, Rechenregeln für bedingte Erwartungswerte zu haben, die es einem ermöglichen, mit bedingten Erwartungswerten zu operieren, ohne ihre spezielle Form zu kennen. Wir werden die folgenden Eigenschaften nicht beweisen, sondern nur kommentieren.

Im folgenden sei ein Wahrscheinlichkeitsraum, eine -Subalgebra von sowie Zufallsgrößen (also -messbare Funktionen).

Theorem 2.4 (Regel 0)[Bearbeiten]

Ist , so existiert und ist eindeutig in folgendem Sinne: Sind Zufallsgrößen mit den Eigenschaften 1. und 2. von Definition 2.7, so ist -fast sicher .

Theorem 2.5 (Regel 1)[Bearbeiten]

Der bedingte Erwartungswert ist linear: Für alle gilt -f. s.
(2.27)

Theorem 2.6 (Regel 2)[Bearbeiten]

(2.28)

Theorem 2.7 (Regel 3)[Bearbeiten]

Sind und unabhängig, so gilt -f. s.
(2.29)

Theorem 2.8 (Regel 4)[Bearbeiten]

Ist (d. h. ist sogar -messbar), so gilt -f. s.
(2.30)
Speziell ist also , falls .

Theorem 2.9 (Regel 5)[Bearbeiten]

Ist (d. h. ist sogar -messbar), so gilt für alle -f. s.
(2.31)

Theorem 2.10 (Regel 6)[Bearbeiten]

Ist eine weitere -Subalgebra, so gilt -f. s.
(2.32)
(2.33)

Theorem 2.11 (Regel 7)[Bearbeiten]

Sind und unabhängig und ist , so gilt für eine beliebige Funktion (Existenz der Erwartungswerte vorausgesetzt) -f. s.
(2.34)
wobei den nur bezüglich gebildeten Erwartungswert bezeichnet.

Anmerkung:[Bearbeiten]

Beachte, dass eine Zufallsgröße ist und zwar gilt . Wir wollen die Bildung etwas illustrieren. habe die Dichtefunktion . Dann gilt

Ist beispielsweise , erhält man . Ist , ergibt sich .

Sei ein Wahrscheinlichkeitsraum, eine -Subalgebra. Die Zufallsgröße sollte man stets als eine Verfeinerung oder ein Update der Information auffassen, wenn die Information gegeben ist. Von allen Zufallsgrößen, die bereits -messbar sind, besitzt die folgende Minimalitätseigenschaft in Bezug auf die mittlere quadratische Abweichung.

Theorem 2.12[Bearbeiten]

Sei ein Wahrscheinlichkeitsraum, eine -Subalgebra. bezeichne die Menge aller quadratisch integrierbaren -messbaren Zufallsgrößen. Für eine beliebige Zufallsgröße mit gilt
(2.35)

Definition 2.7[Bearbeiten]

Sei ein Wahrscheinlichkeitsraum, und Zufallsgrößen. Die Zufallsgröße heißt bedingter Erwartungswert von unter der Bedingung . Symbolisch schreibt man auch .

Wegen Theorem 2.12 ist diejenige Funktion von , die im quadratischen Mittel der Zufallsgröße am nächsten ist. Anwendung findet diese Aussage in der Statistik in der sog. Regressionsanalyse. Wir sagen auch, dass die beste Vorhersage von bei gegebenem ist.

Zum Schluss noch als technisches Hilfsmittel eine wichtige Ungleichung.

Theorem 2.13 (Jensensche Ungleichung)[Bearbeiten]

Sei eine konvexe Funktion und eine Zufallsgröße auf einem Wahrscheinlichkeitsraum mit sowie . Es gilt
(2.36)
Für eine beliebige -Subalgebra gilt
(2.37)