Gegeben sei ein endlicher W-Raum
(zugehörig zu einem ZE). Eine Funktion
, die jedem möglichen Ergebnis eine reelle Zahl zuordnet, heißt diskrete Zufallsvariable (ZV),
Die Menge
aller Werte (Realisationen), die die ZV
annehmen kann, nennt man das Bild von
.
Ist
eine ZV, so schreibt man für eine Zahl
auch
(Man beachte, dass
und folglich
ist, falls
ist.) Um eine diskrete ZV
zu untersuchen, kann man oft auf eine Beschreibung des W-Raumes
verzichten und nur das Bild
sowie die Wahrscheinlichkeiten
für
angeben. Zusammen nennt man dies die Wahrscheinlichkeitsverteilung (W-Verteilung) von
. Es gilt stets: 
(Eine Beschreibung des W-Raumes kann aber manchmal helfen, um die Wahrscheinlichkeiten
überhaupt zu bestimmen.)
Wahrschienlichkeitsverteilungen, unabhängig davon, ob sie stetig oder diskret sind, sind immer Modelle, welche die Realität mehr oder weniger gut abbilden.
Die ZV
gibt die Augenzahl eines Würfels an. Dann hat man
und
. Also:
und

Die ZV
gibt die das Quadrat der Augenzahl eines Würfels an. Dann hat man
und
. Also:
und

Die ZV
beschreibt die Augensumme zweier Würfel. Dann hat man
und
. Also:
und 
Bei einem Glücksspiel befinden sich
rote,
schwarze und
weiße Kugeln in einer Lostrommel.
Man darf eine Kugel ziehen. Zieht man die Rote gewinnt man
Euro, zieht man eine Schwarze gewinnt man
Euro, zieht man eine Weiße gewinnt man nichts. Die ZV
, die den Gewinn beschreibt, hat als Bild
und es gilt: 
Nun darf man zwei Kugeln mit Zurücklegen ziehen. Die ZV
beschreibt den Gesamtgewinn. Man berechnet
und: 
Nun darf man zwei Kugeln ohne Zurücklegen ziehen. Die ZV
beschreibt den Gesamtgewinn. Man berechnet
und: 
(Die angegebenen Wahrscheinlichkeiten können durch die Aufstellung eines geeigneten W-Raums bestimmt werden, man kann aber auch anders vorgehen, z.B. mittels Erstellung von Baumdiagrammen.)
Erwartungswert und Standardabweichung einer diskreten ZV
[Bearbeiten]
Sei
ein endlicher oder abzählbarer W-Raum und
eine (diskrete) ZV auf
. Dann hei"sen:
Für die Varianz gilt ebenso wie für die empirische Varianz der Verschiebungssatz: Für eine endliche ZV
, die die Werte
annehmen kann, gilt stets:
(vergleiche das Beispiel in 1)
- Für die ZV
gilt:
- Der Erwartungswert von
ist:
Die Varianz von
ist:
Daraus ergibt sich
.
- Der Erwartungswert von
ist:
Die Varianz von
ist:
Daraus ergibt sich
.
- Der Erwartungswert von
ist:
Die Varianz von
ist:
Daraus ergibt sich
.
- F"ur die ZV
gilt:
,
, 
, 
Der Erwartungswert gibt den im Durchschnitt zu erwartenden Wert einer ZV an, die Varianz gibt die im Durchschnitt zu erwartende quadratische Abweichung vom Erwartungswert an. Die Standardabweichung ist ein Maß für die zu erwartende Schwankung (Streuung).
Sei
ein W-Raum,
ZV auf
und
. Dann erhält man weitere ZV auf
durch
Gemeinsame Verteilung zweier endlicher ZV und Unabhängigkeit
[Bearbeiten]
(Gemeinsame W-Funktion zweier endlicher ZV)
Gegeben seien zwei endliche ZV
wobei
die Werte
und
die Werte
annehmen kann.
Die Funktion
hei"st gemeinsame Wahrscheinlichkeitsfunktion von
und
Man kann sie "ubersichtlich in Form einer Tabelle darstellen, wobei die möglichen Werte
für
zu den einzelnen Spalten und die möglichen Werte
für
zu den einzelnen Zeilen gehören. In die Spalte zu
und die Zeile zu
trägt man dann die Wahrscheinlichkeit
ein.
Es gilt stets: 
Definitionsgemäß
sind
und
unabhängig voneinander, falls für alle
und alle
die Ereignisse
und
stochastisch unabhängig voneinander sind, das heißt, falls gilt:

Zum Zusammenhang zwischen den einzelnen W-Funktionen und der gemeinsamen W-Funktionen:
- Kennt man die gemeinsame W-Funktion zweier ZV, so kann man daraus auf die W-Funktionen der einzelnen ZV schließen.
- Aus den einzelnen W-Funktion zweier ZV kann man jedoch im Allgemeinen nicht auf ihre gemeinsame Funktion schließen. (Die gemeinsame W-Funktion enth"alt also mehr Informationen als die einzelnen ZV.
- Ist jedoch zusätzlich bekannt, dass zwei ZV unabhängig voneinander sind, so ergibt sich ihre gemeinsame W-Funktion als Multiplikationstabelle aus den einzelnen W-Funktionen.
Linearkombinationen und Verknüpfungen von ZV
[Bearbeiten]
- Ist
eine endliche ZV und sind
, so ist auch
eine endliche ZV.
- Sind
endliche ZV, so sind auch
und
endliche ZV.
Zur W-Funktion von Linearkombinationen und Verknüpfungen von ZV:
Ist
eine endliche ZV, die die Werte
annehmen kann und sind
mit
, so kann die ZV
die Werte
annehmen und es gilt: 
Ein Laplace-Würfel wird geworfen. Die ZV
gibt die Zahl auf dem Würfel an. Die ZV
gibt die Zahl an, die man erhält, wenn man das Würfelergebnis vervierfacht und dann
abzieht, also
.
Für die W-Funktionen von
und
gilt:
Man berechnet daraus: 
Seien
endliche ZV. Um die W-Funktion von Verknüpfungen von
und
zu ermitteln, muss man die gemeinsame W-Funktion von
und
kennen (es genügt nicht, die einzelnen W-Funktionen von
und
zu kennen).
Ist
eine Verknüpfung, so ergibt sich die Wahrscheinlichkeit
für
als Summe der Einzelwahrscheinlichkeiten
über alle Kombinationen
mit
. 
Rechenregeln für Erwartungswert und Varianz
[Bearbeiten]
- Sind
endliche ZV und sind
, so gilt: 
- Sind
ZV, so gilt: 
Vergleich von Erwartungswert und arithmetischem Mittelwert
[Bearbeiten]
Wir betrachten eine (diskrete) ZV
, mit ihrer Wahrscheinlichkeitsverteilung:
Der Erwartungswert der ZV
ergibt sich dann als:
Führt man das zugehörige ZE
-mal durch, so erhält man eine Stichprobe mit absoluten und relativen Häufigkeiten:
Der arithmetischen Mittelwert des Merkmals
ergibt sich dann als:
Allerdings stimmen die relativen Häufigkeiten
(normalerweise) nicht exakt mit den Wahrscheinlichkeiten
überein und folglich ist (normalerweise)
.
Folgendes ist erkennbar:
- Die relative Häufigkeit
ist eine Schätzung für die Wahrscheinlichkeit
.
- Der arithmetische Mittelwert
ist eine Schätzung für den EW
der ZV.
- Die empirische Varianz
ist eine Schätzung für die Varianz
der ZV.
Es ist wichtig, eine Unterscheidung zwischen
und
bzw. zwischen
und
bzw. zwischen
und
vorzunehmen. Zu beachten ist dabei:
und
sind der ZV
zugeordnet. Sie sind durch das Zufallsexperiment eindeutig festgelegt und hängen nicht von der Stichprobe ab. Leider sind sie in vielen in der Praxis relevanten Situationen nicht bekannt.
und
sind der Stichprobe zugeordnet. Sie können aus ihr leicht berechnet werden und sind somit bekannt. Allerdings hängen Sie (wie auch die Stichprobe) vom Zufall ab. Erhebt man eine neue Stichprobe, so erhält man andere Werte für
und
.
Es gibt nun zwei typische Situationen, die völlig unterschiedliche Blickwinkel bieten:
Erwartungstreue, Varianzbetrachtung und Konsistenz obiger Schätzungen
[Bearbeiten]
Sei
eine endliche ZV, die die Werte
mit den Wahrscheinlichkeiten
annehmen kann und EW
und Varianz
hat.
Weiterhin seien
unabhängige ZV, die identisch wie
verteilt sind (d.h. sie haben alle diesselbe W-Funktion wie
). Wir betrachten außerdem die ZV:
- Die Schätzung von
durch
- ist erwartungstreu, das heißt, es gilt:

- hat eine gegen
konvergierende Varianz, also: 
- ist konsistent, d.h. für alle
ist: 
- Die Schätzung von
durch
- ist erwartungstreu, das heißt, es gilt:

- hat eine gegen
konvergierende Varianz, also: 
- ist konsistent, d.h. für alle
ist: 
- Die Schätzung von
durch
- ist erwartungstreu, das heißt, es gilt:

- hat eine gegen
konvergierende Varianz, also: 
- ist konsistent, d.h. für alle
ist: 
Wir betrachten eine ZV
mit den folgenden möglichen Werten
und den folgenden dazugeörenden Wahrscheinlichkeiten:
Daraus berechnet man EW und Varianz von
durch:
Eine Person, die die oben angegebenen Wahrscheinlichkeiten nicht kennt, will Schätzungen für
und
vornehmen. Dazu führt sie eine Stichprobe der Länge
durch und berechnet daraus
und
. Für die Stichprobe
gibt es
Möglichkeiten. Diese haben bestimmte Wahrscheinlichkeiten und führen zu verschiedenen Werten für
und
.
- Fasst man
als ZV auf, so kann diese also die folgenden Werte mit den angegebenen Wahrscheinlichkeiten annehmen:
Daraus ergibt sich 
- Fasst man
als ZV auf, so kann diese also die folgenden Werte mit den angegebenen Wahrscheinlichkeiten annehmen:
Daraus ergibt sich 
Damit haben wir die Erwartungstreue der beiden Schätzungen für diese spezielle ZV
nachgerechnet.
Wir betrachten ein (wiederholbares) ZE, das
-mal durchgeführt wird. Bei jeder Durchführung wird beobachtet, ob ein bestimmtes (vorher festgelegtes) Ereignis eintritt oder nicht. Abkürzend sagt man:
Wichtig ist dabei, dass die einzelnen Durchführungen
- unabhängig voneinander sind
- unter gleichen Bedingungen stattfinden
Man fasst den gesamten Vorgang nun als ein ZE auf. Die ZV
, die die Anzahl der Treffer beschreibt, nennt man dann binomialverteilt mit Versuchszahl
und Trefferwahrscheinlichkeit
und es gilt:
Dies lässt sich wie folgt begründen:
Für eine bestimmte Abfolge von
Treffern und
Nicht-Treffern ist die Wahrscheinlichkeit (entsprechend einem Pfad in einem Baumdiagramm) das Produkt aus
-Faktoren, von denen
Faktoren
sind und
Faktoren
. Sie hat also den Wert
.
Es gibt jedoch mehrere Pfade, in denen genau
Treffer vorkommen. Da diese Treffer an
von
Stellen vorkommen können, sind es insgesamt
Möglichkeiten.
- Für
und
ist 
- Für
und
ist beispielsweise: 
Es folgt:



- Für
und
ist beispielsweise: 
- Für
und
ist beispielsweise: 
Hier einige weitere Beispiele:
| In R:
|
dbinom( )
|
ergibt:
|
|
=
|
|
|
|
pbinom( )
|
ergibt:
|
|
=
|
|
|
|
pbinom( )
|
ergibt:
|
|
=
|
|
|
|
pbinom( ) pbinom( )
|
ergibt:
|
|
=
|
|
Berechnen Sie für eine binomialverteilte ZV
mit den jeweils angegebenen Werten für
und
die angegebenen Wahrscheinlichkeiten:
- Für
und
:
für alle 
- Für
und
: 
- Für
und
: 
- (Ziehen mit Zurücklegen) Aus einer Lostrommel, die
Kugeln enthält, von denen
rot sind, werden nacheinander mit Zurücklegen
Kugeln gezogen. Die ZV für die Anzahl roten Kugeln unter den Gezogenen ist binomialverteilt mit Versuchszahl
und Trefferwahrscheinlichkeit
.
- Wenn man
-mal würfelt, ist die ZV für die Zahl der gewürfelten
-en binomialverteilt mit Versuchszahl
und Trefferwahrscheinlichkeit
.
- Wenn ein Medikament, das mit einer Wahrscheinlichkeit von
eine bestimmte Nebenwirkung verursacht, von
Patienten eingenommen wird, ist die ZV für die Zahl der Patienten, bei denen die Nebenwirkung auftritt, binomialverteilt mit Versuchszahl
und Trefferwahrscheinlichkeit
.
- Wenn ein Basketballspieler
Freiwürfe macht, ist die ZV für die Zahl seiner Treffer nur unter folgenden Annahmen binomialverteilt:
- Es gibt eine Trefferwahrscheinlichkeit
, die immer gleich groß ist.
- Treffer bzw. Nicht-Treffer bei bestimmten Würfen beeinflussen nicht die Trefferwahrscheinlichkeit für die anderen Würfe.
- Die Wahrscheinlichkeit für eine Mädchengeburt betrage
. Unter
Neugeborenen ist dann die ZV für die Zahl der Mädchen binomialverteilt mit Versuchszahl
und Trefferwahrscheinlichkeit
.
- Bei einem Multiple-Choice Test gibt es bei jeder der 20 Fragen 4 Antwortmöglichkeiten, von denen genau eine Antwort richtig ist. Ein unvorbereiteter Teilnehmer kreuzt willkürlich jeweils eine Antwort an. Wie groß ist die Wahrscheinlichkeit, dass er
richtig beantwortet?
- Wie groß ist die Wahrscheinlichkeit beim 10-maligen Werfen von 2 Würfeln
die Augensumme
zu erzielen?
- Auf dem Weg zur Arbeit ist eine Ampel jeden Tag mit der Wahrscheinlichkeit
rot. Berechnen Sie die Wahrscheinlichkeit, dass die Ampel an genau
von 7 Tagen Rot ist
.
- Ein Bäcker knetet in einen Teig für 100 Rosinenbrötchen 200 Rosinen gut unter. Dann wird der Teig in 100 gleiche Teile geschnitten. Mit welcher Wahrscheinlichkeit enthält ein rein zufällig ausgewähltes Brötchen dieser Charge
Rosinen?
Zusatzfrage: Wie viele Rosinen muss der Bäcker in den Teig für 100 Rosinenbrötchen kneten, damit ein auf gut Glück ausgewähltes Brötchen mit einer Mindestwahrscheinlichkeit von
mindestens eine Rosine enthält?
Erwartungswert und Varianz einer binomialverteilten ZV
[Bearbeiten]
Für eine binomialverteilte ZV
mit Versuchszahl
und Trefferwahrsch.
gilt:
EW und Varianz der relativen Häufigkeit
[Bearbeiten]
Ist
eine binomialverteilte ZV mit Versuchszahl
und Trefferwahrscheinlichkeit
, so beschreibt die ZV
die relative Häufigkeit des Ereignisses Treffer" in der Versuchsserie.
Es gilt:
- Für
und
haben wir oben bereits die Wahrscheinlichkeitsverteilung bestimmt. Daraus ergibt sich:
Tatsächlich ist
und
.
- Für
und
berechnen wir zunächst
für alle möglichen Werte
: 
Daraus ergibt sich:
Tatsächlich ist
und
.
Bisher können wir die Wahrscheinlichkeit dafür berechnen, dass die Trefferzahl in einem bestimmten Bereich liegt, wenn wir die Trefferwahrscheinlichkeit
kennen. In der Praxis ist man häufig aber mit folgender Situation konfrontiert:
Genauer kann man unterscheiden:
- Die Versuchszahl
steht fest und ist bekannt. (In vielen Fällen kann man
sogar selbst festlegen.)
- Die Trefferwahrscheinlichkeit
liegt fest, ist aber nicht bekannt.
- Die Trefferzahl ist zufällig.
Sie wird vor Erhebung der Daten durch die ZV
beschrieben. Nach der Datenerhebung liegt dann eine Realisierung
der ZV
vor.
Schätzungen für
können nur auf der konkreten Realisierung (Trefferzahl)
basieren. Da der Schätzung also die zufällige Trefferzahl
zugrunde liegt, ist folglich auch die Schätzung vom Zufall abhängig.
Sei
eine binomialverteilte ZV mit (bekannter) Versuchszahl
und (unbekannter) Trefferwahrscheinlichkeit
.
Eine Punktschätzfunktion für
ist eine Abbildung:
Eine solche Punktschätzfunktion kann aus verschiedenen Blickwinkeln betrachtet werden:
- Vor der Durchführung des ZE ist die Trefferzahl
eine ZV. Da die Trefferzahl in die Schätzfunktion eingesetzt werden soll, kann man so auch die Schätzung selbst als ZV
interpretieren.
- Nach dem Feststellen einer konkreten Trefferzahl
kann man diese einfach in die Schätzfunktion einsetzen und erhält so in der Praxis eine konkrete Schätzung
für
.
(Relative Häufigkeit ist Punktschätzfunktion für
) Die Abbildung:
ist eine Punktschätzfunktion für
.
Es stellt sich nun die Frage nach einer sinnvollen Punktschätzfunktion für
(es liegt nahe, die relative Häufigkeit
aus Beispiel [bsppsp] zu betrachten) bzw. allgemeiner was überhaupt sinnvolle
Eigenschaften für eine solche Schätzfunktion sind. Um dies zu beurteilen, sollte man den Standpunkt vor der Datenerhebung einnehmen.
Die relative Häufigkeit ist erwartungstreu, effizient und konsistent:
Fasst man die relative Häufigkeit als Zufallsvariable auf, so gilt:
ist erwartungstreu für
, das hei"st es gilt:
für alle ![{\textstyle p\in [0,1]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/bbef154480465a13bd6618e93aa4f1c864030124)
Dabei ist
der (von
abhängige) EW von
.
- Es gilt:
für alle ![{\textstyle p\in [0,1]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/bbef154480465a13bd6618e93aa4f1c864030124)
Dabei ist
die (von
abhängige) Varianz von
.
ist konsistent, das heißt für alle
und alle
gilt: 
Dabei bedeutet
das die Wahrscheinlichkeit in Abhängigkeit von
berechnet wurde.
Neben den schon genannten Qualitätskriterien für Punktschätzfunktionen (Erwartungstreue, Effizienz und Konsistenz) gibt es noch einen anderen Zugang, die sogenannte Maximum-Likelihood-Methode. Dabei wird für den unbekannten Parameter (hier die Trefferwahrscheinlichkeit
) der Wert geschätzt, für den die beobachteten Daten (hier die Trefferzahl
) möglichst wahrscheinlich waren.
Die Maximum-Likelihood-Schätzung
ist also wie folgt definiert:
Für
ist
die (globale) Maximumstelle der Funktion
(
steht für Likelihood-Funktion)
Die Wahrscheinlichkeit
wird bei
Treffern in
Versuchen also als der Wert geschätzt, für den die Wahrscheinlichkeit
für genau
Treffer maximal ist.
Man kann zeigen, (vergleiche die folgenden Beispiele) dass stets
gilt. Auch mit dieser Methode erhält man also die relative Häufigkeit als sinnvolle Schätzung für
.
Ein (für die Praxis relevantes) Problem bei den bisher behandelten Punktschätzungen für
ist, dass es sich bei den Gütekriterien (Erwartungstreue, Effizienz und Konsistenz) für die Schätzfunktionen lediglich um qualitative Aussagen handelt.
Ziel ist es nun, Schätzungen für
zu formulieren, die man auch quantitativ beurteilen kann. Eine solche hat die Form:
Wir betrachten die folgende Situation:
Zu einer binomialverteilten ZV
ist die Versuchszahl
fest und bekannt und die Trefferwahrscheinlichkeit
fest, aber unbekannt. Basierend auf der vom Zufall abhängigen Trefferzahl
soll nun eine Intervallschätzung
für
vorgenommen werden.
Erneut nehmen wir die folgenden beiden Standpunkte ein:
- Vor der Durchführung des ZE ist die Trefferzahl
eine ZV. Da die Trefferzahl in die Intervallschätzfunktion eingesetzt werden soll, hängt somit auch das berechnete Intervall
vom Zufall ab. Damit ist es auch vom Zufall abhängig, ob die resultierende Aussage wahr oder falsch sein wird.
- Nach dem Feststellen einer konkreten Trefferzahl
kann man diese einfach in die Schätzfunktion einsetzen und erhält so in der Praxis eine konkrete Intervallschätzung
für
. Die Aussage ist dann nicht mehr vom Zufall abhängig, sondern entweder wahr oder falsch. (Leider weiß man nicht, welcher der beiden Fälle eingetreten ist, da man
nicht kennt.)
Sei
die Menge der abgeschlossenen Teilintervalle von
.
Eine Intervallschätzung (bzw. Bereichsschätzung) für
ist eine Abbildung: Fehler beim Parsen (Unbekannte Funktion „\begin{array}“): {\displaystyle \begin{array}{rccc} B : &\underbrace{\{ 0, \ldots ,n \}}_{\text{Menge der möglichen Werte für die ZV T}}&\to & \underbrace{\mathcal{I}_{[0,1]}}_{ \begin{array}{c} \text{Menge von Teilmengen der Menge}\\ \text{aller in Frage kommenden Werte von p}\end{array}} \\ & \underbrace{k}_{\text{konkrete Trefferzahl}} &\mapsto & \underbrace{B (k)= [p_U(k), p_O(k)]}_{\text{konkrete Intervallschätzung für $p$}} \end{array}}
Um Intervallschätzungen sinnvoll beurteilen zu können, untersuchen wir die (vom unbekannten Parameter
abhängige) Wahrscheinlichkeit dafür, dass man ein " korrektes Intervall" (also eines, dass
tatsächlich enthält) berechnet, wenn man die (vom Zufall abhängige) Trefferzahl einsetzt.
Überdeckungswahrscheinlichkeit und Konfidenzniveau
[Bearbeiten]
Gegeben sei eine Intervallschätzfunktion:
Für einen denkbaren Parameterwert
definiert man die Überdeckungswahr-scheinlichkeit von
an der Stelle
durch: ![{\displaystyle P_{B}(p)=P(B(T)\ni p)=P\left([p_{U}(T),p_{O}(T)]\ni p\right)=\sum \limits _{k\in \{0,\ldots ,n\},B(k)\ni p}{n \choose k}\cdot p^{k}\cdot (1-p)^{n-k}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/28909fe2a0c846d750e04f6fb1d0221655fdc650)
Die Schreibweise
ist mathematisch gleichbedeutend zu
, hat aber den Vorteil, dass dabei deutlich wird, dass
(und nicht
) vom Zufall abhängt. Anstatt zu sagen:
ist in
enthalten." formuliert man daher auch
fängt
ein."
Gilt
für eine feste Zahl
, so sagt man auch:
Die Intervallschätzung
hält das Konfidenzniveau
ein."
Bedeutung:
Die Überdeckungswahrscheinlichkeit entspricht der Wahrscheinlichkeit dafür, dass man ein korrektes Intervall erhalten wird, wenn man die zufällige Trefferzahl
in die Intervallschätzung
einsetzt. Da die Überdeckungswahrscheinlichkeit vom unbekannten Parameter
abhängt, kann man sie in der Praxis nicht berechnen.
Weiß man aber (aufgrund theoretischer Überlegungen), dass eine Intervallschätzung ein bestimmtes Konfidenzniveau
einhält, so ist (unabhängig vom wahren Wert von
) garantiert, dass man MINDESTENS mit der Wahrscheinlichkeit
ein korrektes Intervall erhalten wird, wenn man die zufällige Trefferzahl
in die Intervallschätzung
einsetzt.
In der Praxis sollte man nur Intervallschätzungen verwenden, von denen man weiß, dass sie ein hohes Konfidenzniveau (üblich sind
oder
oder
) einhalten.
Wie findet man zu einem vorgegebenen Konfidenzniveau
eine Intervallschätzung, die dieses Konfidenzniveau garantiert einhält.
Intervallschätzung nach Clopper-Pearson
[Bearbeiten]
Vorgegeben sei
.
Für
bestimmt man
und
aus den Gleichungen:
(Ausnahme sind folgende Sonderf"alle:
Für
setze
, für
setze
.)
Dann hält die Intervallschätzung
garantiert das Konfidenzniveau
ein.
Obige Bestimmungsgleichungen für
und
sind ohne Computereinsatz kaum zu lösen. Konfidenzintervalle nach Clopper-Pearson können aber in R direkt berechnet werden. Der Befehl
Fehler beim Parsen (Unbekannte Funktion „\textcolor“): {\displaystyle \textcolor{blue}{\text{binom.test(}k,n,\text{conf.level}=\delta \text{)\$conf.int[1:2]}}}
ergibt das Konfidenzintervall zum Vertrauensniveau
bei
Treffern in
Versuchen.
(Obergrenzen für die Wahrsch. für Über- bzw. Unterschätzung von
) Die Grenzen
und
der Intervallsch"atzung nach Clopper-Pearson aus Satz [cp] sind so gewählt, dass die Wahrscheinlichkeiten für Unterschätzung" und "Ubersch"atzung" von
durch dieselbe Grenze beschränkt sind. Genauer: Fehler beim Parsen (Syntaxfehler): {\displaystyle P \big( \underbrace{p > p_O(T)}_{\text{Untersch"atzung}} \big) \leq \frac{1-\delta}{2} \quad \text{und} \quad P \big( \underbrace{p < p_U(T)}_{\text{Unterschätzung}}\big) \leq \frac{1-\delta}{2}}
Zusammen ergibt sich damit Fehler beim Parsen (Syntaxfehler): {\displaystyle P \big( \underbrace{p \notin [p_U(T),p_O(T)]}_{\text{falsche Sch"atzung}} \big) \leq 1-\delta \quad \text{und folglich} \quad P \big( \underbrace{p \in [p_U(T),p_O(T)]}_{\text{korrekte Schätzung}} \big) \geq \delta}
Dass man diesen Aussagen überhaupt eine Wahrscheinlichkeit zuschreiben kann, liegt daran dass die Intervallgrenzen
und
zufällig sind (und nicht etwa der unbekannte, aber feste Wert
).
Für
und
ergeben sich die Intervallgrenzen als Lösungen der Gleichung
Hierbei wären also Polynome vom Grad
aufzulösen. Mit R berechnen wir: Fehler beim Parsen (Unbekannte Funktion „\begin{array}“): {\displaystyle \begin{array}{l} \text{Für $\delta=0.6$ ist $[p_U,p_O] = [ 0.665, 0.751 ]$.}\\ \text{Für $\delta=0.8$ ist $[p_U,p_O] = [ 0.644 , 0.769]$.}\\ \text{Für $\delta=0.9$ ist $[p_U,p_O] = [ 0.626, 0.784]$.}\\ \text{Für $\delta=0.99$ ist $[p_U,p_O] = [ 0.580, 0.819]$.} \end{array}}
Für
erhält man zum Konfidenzniveau
mit der Clopper-Pearson-Methode abhängig von
die folgenden (mit R berechneten) Konfidenzintervalle
: ![{\displaystyle {\begin{array}{|c||c|c|c|c|c|c|c|}\hline k&0&1&2&3&4&5&6\\\hline B(k)&[0,0.109]&[0.005,0.181]&[0.027,0.245]&[0.056,0.304]&[0.090,0.361]&[0.127,0.415]&[0.166,0.467]\\\hline \hline k&7&8&9&10&11&12&13\\\hline B(k)&[0.207,0.518]&[0.249,0.567]&[0.292,0.615]&[0.338,0.662]&[0.385,0.707]&[0.433,0.751]&[0.482,0.793]\\\hline \hline k&14&15&16&17&18&19&20\\\hline B(k)&[0.533,0.834]&[0.585,0.873]&[0.639,0.910]&[0.696,0.944]&[0.755,0.973]&[0.819,0.995]&[0.891,1]\\\hline \end{array}}}](https://wikimedia.org/api/rest_v1/media/math/render/svg/ae28562caa4f93479a329f50841cb340e86a3852)
Wir berechnen für verschiedene denkbare Werte von
, die "Uberdeckungswahrscheinlichkeit (also die Wahrscheinlichkeit dafür, dass die Intervallschätzung korrekt ist):
Angenommen, es ist
. Dann ist die Intervallschätzung für
korrekt. Die Wahrscheinlichkeit dafür ist: 
Angenommen, es ist
. Dann ist die Intervallschätzung für
korrekt. Die Wahrscheinlichkeit dafür ist: 
Angenommen, es ist
. Dann ist die Intervallschätzung für
korrekt. Die Wahrscheinlichkeit dafür ist: 
Angenommen, es ist
. Dann ist die Intervallschätzung für
korrekt. Die Wahrscheinlichkeit dafür ist: 
Es ist bewiesen, dass die Schätzung bei beliebigem
immer mindestens mit der Wahrscheinlichkeit
korrekt ist.
Bei fester relativer Häufigkeit werden die Konfidenzintervalle mit wachsender Versuchszahl kleiner (mit mehr Versuchen erreicht man eine höhere Genauigkeit) und mit wachsendem Konfidenzniveau größer (ein höheres Konfidenzniveau bezahltman mit einer ungenaueren Aussage). Man beachte die Gr"o"senordnungen dieser Ver"anderungen anhand der folgenden (mit R berechneten) Konfidenzintervalle:
(Verwendung von Intervallsch"atzungen in der Praxis)
In der Praxis ist bei der Verwendung von Intervallsch"atzungen wie folgt vorzugehen:
- Zun"achst macht man sich die Situation klar: Die Trefferwahrscheinlichkeit
einer Binomialverteilung ist unbekannt (aber fest, d.h. nicht vom Zufall abh"angig).
- Man legt fest:
- das Verfahren, mit dem man die Intervallsch"atzung berechnen wird. (z.B. zweiseitiger Test nach Clopper-Pearson).
- eine Versuchszahl

zu beachten:
Hohe Werte von
f"uhren zu einem engeren Konfidenzintervall.
- ein Konfidenzniveau
![{\textstyle \delta \in ]0,1[}](https://wikimedia.org/api/rest_v1/media/math/render/svg/a0e6172b1124969f7a4158fa7792a3bfb3944a7b)
zu beachten:
Hohe Werte von
entsprechen einer h"oheren Untergrenze f"ur die Wahrscheinlichkeit einer korrekten Sch"atzung, f"uhren aber zu einem breiteren Konfidenzintervall. Sinnvoll ist z.B.
.
- Man f"uhrt die Versuchsreihe durch und stellt die Trefferzahl
fest.
Zu beachten:
Wichtig bei einer Binomialverteilung ist, dass die einzelnen Versuche unabh"angig voneinander und immer unter den gleichen Bedingungen durchgef"uhrt werden.
- Man berechnet das Konfidenzintervall
mit der zuvor festgelegten Methode. (Dies kann der Computer erledigen.)
- Man verk"undet das Ergebnis: Fehler beim Parsen (Unbekannte Funktion „\fbox“): {\displaystyle \fbox{$p \in [p_U(k), p_O(k)]$} \quad mit \; dem \; Zusatz: \quad \fbox{$ \glqq Das \; Konfidenzniveau \; \delta \; wurde \; eingehalten."$}}
Damit ist klar: Vor Erhebung der Daten war die Wahrscheinlichkeit ein korrektes Intervall zu erhalten, mindestens
. Nach Berechnung des Intervalls kann man damit der Aussage ein gewisses Vertrauen entgegenbringen (aber keine Wahrscheinlichkeit zuweisen, sie ist entweder wahr oder falsch).
Bemerkung (Einseitig begrenzte Konfidenzintervalle)
[Bearbeiten]
In gewissen Situationen kann es Sinn machen, die Clopper-Pearson-Methode so zu modifizieren, dass man einseitig (statt wie bisher zweiseitig) begrenzte Konfidenzintervalle berechnet.
- Ist
beispielsweise die Wahrscheinlichkeit daf"ur, dass eine bestimmte Ma"snahme einen gew"unschten Erfolg erzielt, so k"onnte es wichtig sein,
(m"oglichst strikt) nach unten abzusch"atzen, aber eine Absch"atzung von
nach oben ist nicht notwendig.
Dazu kann man linkssseitig begrenzte Konfidenzintervalle verwenden.
- Ist
beispielsweise die Wahrscheinlichkeit daf"ur, dass bei der Einnahme eines Medikaments eine (unerw"unschte) Nebenwirkung auftritt, so k"onnte es wichtig sein,
(m"oglichst strikt) nach oben abzusch"atzen, aber eine Absch"atzung von
nach unten ist nicht notwendig.
Dazu kann man rechtsseitig begrenzte Konfidenzintervalle verwenden.
Einseitig begrenze Konfidenzintervalle zu einem vorgegebenen Konfidenzniveau
werden wie folgt berechnet.
- Bei
Treffern aus
Versuchen bestimmt man das linksseitig begrenzte Konfidenzintervall
zum Vertrauensniveau
durch
(Sonderfall: Für
setze
.)
- Bei
Treffern aus
Versuchen bestimmt man das rechtsseitig begrenzte Konfidenzintervall
zum Vertrauensniveau
durch
(Sonderfall: Für
setze
.)
Linksseitig begrenzte Konfidenzintervalle d"urfen den Wert von
mit einer Wahrscheinlichkeit von bis zu
"ubersch"atzen (statt
wie bei den zweiseitigen Intervallschätzungen). Um dies auszugleichen, unterschätzen sie den Wert von
nie (die obere Grenze ist
). Die untere Grenze kann daher im Vergleich zum zweiseitigen Test etwas besser (gr"o"ser) gew"ahlt werden.
Rechtsseitig begrenzte Konfidenzintervalle d"urfen den Wert von
mit einer Wahrscheinlichkeit von bis zu
untersch"atzen (statt
wie bei den zweiseitigen Intervallschätzungen). Um dies auszugleichen, überschätzen sie den Wert von
nie (die untere Grenze ist
). Die obere Grenze kann daher im Vergleich zum zweiseitigen Test etwas besser (kleiner) gew"ahlt werden.
In R berechnet man einseitige Konfidenzintervalle nach Clopper-Pearson mit
Konfidenzintervalle im Vergleich: Fehler beim Parsen (Unbekannte Funktion „\multicolumn“): {\displaystyle \begin{array}{|r||c|c|c|} \hline \multicolumn{4}{|c|}{k= 112, \quad n=200 \quad \Rightarrow \quad \frac{k}{n} =0.56 }\\ \hline \delta & 0.8 & 0.9 & 0.95 \\ \hline \text{beidseitig begrenzt} & [0.512 , 0.607] & [0.499, 0.620] & [0.488, 0.630] \\ \hline \text{linksseitig begrenzt} & [0.527,1] & [0.512 ,1] & [0.499, 1] \\ \hline \text{rechtsseitig begrenzt} & [0,0.591] & [0 , 0.607] & [0, 0.620] \\ \hline \end{array}}
Allgemein bestimmt man aus den Gleichungen
die Grenzen einer Intervallsch"atzung
, die den Wert von
mit einer Wahrscheinlichkeit von h"ochstens
"ubersch"atzt und mit einer Wahrscheinlichkeit von h"ochstens
untersch"atzt. Das hei"st, es gilt
und damit
Damit ist
das Konfidenzniveau der Sch"atzung.
F"ur
hat man zum Beispiel folgende M"oglichkeiten:
|
|
|
|
|
|
|
|
|
|
,
|
|
zweiseitig,
|
|
|
|
|
|
,
|
|
linksseitig begrenzt
|
|
|
|
|
|
,
|
|
rechtsseitig begrenzt
|
|
|
|
|
|
,
|
|
zweiseitig,
|
|
|
|
|
|
,
|
|
zweiseitig,
|
|
|
|
|
In einer Menge von
Objekten sind
Objekte mit einer bestimmten Eigenschaft ausgezeichnet. Nun werden daraus
Objekte zuf"allig ausgew"ahlt (gezogen). Wichtig ist dabei, dass die Ziehung zuf"allig und unabh"angig von der Eigenschaft ist, d.h. die ausgezeichneten Objekte haben dieselbe Chance gezogen zu werden, wie die anderen Objekte. Die ZV
beschreibt die Zahl
der ausgezeichneten Objekte unter den Gezogenen.
Man sagt:
ist hypergeometrisch verteilt mit
Ausgezeichneten bei
Objekten insgesamt (bzw. mit
Nicht-Ausgezeichneten) und
Gezogenen.
Die m"oglichen Werte von
sind dann
und es gilt: Fehler beim Parsen (Syntaxfehler): {\displaystyle P ( A=k) = \frac{{K \choose k} {N-K \choose n-k}}{{N \choose n}} \quad \text{f"ur $k \in \{0,\ldots , n \}$}}
Es folgt:
F"ur
und
ist beispielsweise:
In R:
dhyper( )
|
ergibt
|
|
|
|
phyper( )
|
ergibt
|
|
|
|
phyper( )
|
ergibt
|
|
|
|
phyper( ) phyper( )
|
ergibt
|
|
|
|
Berechnen Sie f"ur eine hypergeometrisch verteilte ZV
mit den jeweils angegebenen Werten f"ur
und
die angegebenen Wahrscheinlichkeiten:
- F"ur
und
:
f"ur alle 
- F"ur
und
: 
- F"ur
und
: 
- (Ziehen ohne Zur"ucklegen) Aus einer Lostrommel, die
Kugeln enth"alt, von denen
rot sind, werden ohne Zur"ucklegen
Kugeln gezogen. Die ZV f"ur die Anzahl der roten Kugeln unter den Gezogenen ist hypergeometrisch verteilt.
- In einem Teich befinden sich
Fische einer Art, von denen
markiert sind. Nun werden
Fische gefangen. Die ZV f"ur die Zahl der markierten Fische unter den Gefangenen ist hypergeometrisch verteilt mit
und
. (Voraussetzung: Die markierten Fische sind "uber den See gleichm"a"sig verteilt und lassen sich genauso leicht fangen, wie die "Ubrigen.)
- In einer Klasse befinden sich
Jungen und
M"adchen. Es werden
Sch"uler/innen f"ur ein Projekt ausgelost. Die ZV, die die Zahl der Jungen unter den Ausgelosten angibt, ist hypergeometrisch verteilt mit
und
.
- Wie gro"s ist beim Lotto (6 aus 49) die Wahrscheinlichkeit, genau
Richtige zu haben (
).
- Bei einem Multiple-Choice Test gibt es 20 Aussagen, von denen genau 10 richtig sind. Ein unvorbereiteter Teilnehmer kreuzt willk"urlich genau 10 Aussagen an. Wie gro"s ist die Wahrscheinlichkeit, dass dabei
der angekreuzten Aussagen richtig sind?
- Unter 500 Gl"uhbirnen in einem Karton befinden sich 35 defekte. Bei einer Qualit"atskontrolle werden 50 Birnen getestet. Wie groß
ist die Wahrscheinlichkeit, dass
der Birnen defekt ist?
F"ur eine hypergeometrisch verteilte ZV
mit
wie bisher gilt:
- F"ur
und
haben wir oben bereits die Wahrscheinlichkeitsverteilung bestimmt. Daraus ergibt sich:
Tats"achlich ist
und
.
- F"ur
und
berechnen wir zun"achst
f"ur alle m"oglichen Werte
:
Daraus ergibt sich:
Tats"achlich ist
und
.
Sch"atzung der Zahl der ausgezeichneten Objekte 
[Bearbeiten]
Von
Gl"ubirnen einer Lieferung sind eine unbekannte Anzahl
defekt. Man testet
zuf"allig ausgew"ahlte Birnen und stellt fest, dass
davon defekt sind. Wie kann man daraus auf die Zahl
schlie"sen? Fehler beim Parsen (Unbekannte Funktion „\fbox“): {\displaystyle \fbox{{\textbf{Situation:}} Es sind $N,n$ und $k$ bekannt, aber nicht $K$. Wie kann man $K$ sinnvoll sch"atzen?}}
Genauer:
und
sind feststehend und bekannt. Oft kann man
selbst festlegen.
entsteht zuf"allig, ist dann aber bekannt.
steht fest, ist aber nicht bekannt.
Fehler beim Parsen (Unbekannte Funktion „\fbox“): {\displaystyle \fbox{System mit Parameter $K$} \stackrel{\text{zuf"allig}}{\longrightarrow} \fbox{Daten $k$ } \stackrel{\text{methodisch}}{\longrightarrow} \fbox{Sch"atzung $\hat{K}$ f"ur $K$}}
Wiederum ist dabei folglich die Sch"atzung zuf"allig.
Erwartungstreue Punktsch"atzungen f"ur 
[Bearbeiten]
Durch
erh"alt man eine erwartungstreue Sch"atzung f"ur
.
Genauer: Die Zahl
h"angt vom Zufall ab und wird (vor der Datenerhebung) durch die ZV
beschrieben. Da die Sch"atzung f"ur (die feste aber unbekannte Zahl)
von
abh"angt, ist sie ebenfalls vom Zufall abh"angig. Die Sch"atzung
kann somit als ZV beschrieben werden. Dabei gilt dann (unabh"angig vom unbekannten Wert
) stets
.
Mit der Maximum-Likelihood-Methode wird
(basierend auf der zuf"alligen Zahl
) so gesch"atzt, dass die Wahrscheinlichkeit
maximal wird. Wir suchen also die Maximumstelle der Likelihood-Funktion
Man stellt fest:
Die Maximumstelle(n) von
ist/sind:
(dabei bezeichnet
die gr"o"ste ganze Zahl, die kleiner oder gleich
ist)
Intervallsch"atzungen f"ur 
[Bearbeiten]
Gib eine Methode an, mit der man aus
ein Intervall
bestimmen kann, so dass die Wahrscheinlichkeit, dass sich ein Intervall ergibt, das
enth"alt, garantiert (also f"ur jeden denkbaren Wert von
) gr"o"ser oder gleich einem vorgegebenen Konfidenzniveau
ist. Fehler beim Parsen (Unbekannte Funktion „\fbox“): {\displaystyle \fbox{System mit Parameter $K$} \stackrel{\text{zuf"allig}}{\longrightarrow} \fbox{Daten $k$ } \stackrel{\text{methodisch}}{\longrightarrow} \fbox{(Intervall-)Sch"atzung $[K_U, K_O]$ f"ur $K$}}
Fehler beim Parsen (Unbekannte Funktion „\fbox“): {\displaystyle \fbox{$\text{\textbf{Ziel:} F"ur jeden m"oglichen Wert von $K$:} \quad P \left( [K_U, K_O] \ni K \right) \geq \delta$}}
Eine sinnvolle M"oglichkeit wird im Folgenden beschrieben:
IVS f"ur
, die ein gegebenes Konfidenzniveau einh"alt
[Bearbeiten]
Gegeben seien
und
. Unbekannt sei
. Weiter sei ein Konfidenzniveau
vorgegeben.
Basierend auf der zuf"alligen Zahl
geht man nun wie folgt vor:
- Man bestimmt
als die kleinstm"ogliche Zahl mit Fehler beim Parsen (Unbekannte Funktion „\textcolor“): {\displaystyle \textcolor{blue}{\text{phyper}(k-1, K_U, N-K_U, n)} = \sum\limits_{j=0}^{k-1} \frac{{K_U \choose j} \cdot {N-K_U \choose n-j}}{{N \choose n}} < \frac{1+ \delta}{2}}
- Man bestimmt
als die gr"o"stm"ogliche Zahl mit Fehler beim Parsen (Unbekannte Funktion „\textcolor“): {\displaystyle \textcolor{blue}{\text{phyper}(k, K_O, N-K_O, n)} = \sum\limits_{j=0}^k \frac{{K_O \choose j} \cdot {N-K_O \choose n-j}}{{N \choose n}} > \frac{1- \delta}{2}}
Ohne weiter in die mathematischen Hintergr"unde einzusteigen, halten wir fest, dass die folgende (bei Intervallsch"atzungen immer zu erreichende) Bedingung bei diesem Verfahren garantiert erf"ullt ist: Fehler beim Parsen (Unbekannte Funktion „\fbox“): {\displaystyle \fbox{$P \left( [K_U, K_O] \ni K \right) \geq \delta$} \quad \text{(D.h. das Konfidenzniveau $\delta$ wird eingehalten.)}}
Man beachte, dass der Aussage ![{\textstyle K\in [K_{U},K_{O}]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/b4e8da961c575e78520d1c98a9db2a3068b897e9)
eine Wahrscheinlichkeit zugeschrieben werden kann, weil die Intervallgrenzen
und
zuf"allig sind (und nicht etwa der unbekannte Wert
).
Wir betrachten erneut den Fall
und f"uhren eine Intervallsch"atzung zum Niveau
durch.
- Wir suchen also zun"achst die kleinstm"ogliche Zahl
mit Fehler beim Parsen (Unbekannte Funktion „\textcolor“): {\displaystyle \textcolor{blue}{\text{phyper}(1, K_U, 1000-K_U, 15)} < 0.975}
Durch Ausprobieren findet man: 
- Analog suchen wir die gr"o"stm"ogliche Zahl mit Fehler beim Parsen (Unbekannte Funktion „\textcolor“): {\displaystyle \textcolor{blue}{\text{phyper}(2, K_O, 1000-K_O, 15)}> 0.025}
Durch Ausprobieren findet man:

Damit ist
das gesuchte Konfidenzintervall zu
.
F"ur
und
berechnet man abh"angig von
die folgenden ML-Sch"atzungen und Intervallsch"atzungen zum Vertrauensniveau
: Fehler beim Parsen (Unbekannte Funktion „\multicolumn“): {\displaystyle \begin{array}{|c||c|c|c|c|c|c|c|c|c|c|} \hline k & 0 & 1 & 2 & 3 & 4 & 5 & 6 & 7 & 8 & 9 \\ \hline \hat{K} & 0 & 11 &22 &33 &44 & 55 & 67 & 78 &89 &100 \\ \hline K \in & [0,19] & [2,34] & [8,47] & [16,60] & [24,72] & [33,84] & [43,95] & [52,106] & [62,117] & [73,127] \\ \hline \multicolumn{11}{|c|}{} \\ \hline k & 10 & 11 & 12 & 13 & 14 & 15 & 16 & 17 & 18 & \\ \hline \hat{K} & 111 &122 &134 &145& 156& 167 &178 &189 &201 & \\ \hline K \in & [83,138] & [94,148] & [105,157] & [116,167] & [128,176] & [140,184] & [153,192] & [166,198] & [181,200] & \\ \hline \end{array}}
- Angenommen, es ist
. Dann ist die Intervallsch"atzung f"ur
korrekt. Die Wahrscheinlichkeit daf"ur ist: 
- Angenommen, es ist
. Dann ist die Intervallsch"atzung f"ur
korrekt. Die Wahrscheinlichkeit daf"ur ist: 
- Angenommen, es ist
. Dann ist die Intervallsch"atzung nur f"ur
korrekt. Die Wahrscheinlichkeit daf"ur ist: 
Das mathematische Modell garantiert, dass die Intervallsch"atzung bei beliebigem
immer mindestens mit der Wahrscheinlichkeit
korrekt ist.
Sch"atzung der Gesamtzahl der Objekte 
[Bearbeiten]
In einem See befindet sich eine unbekannte Anzahl
von Fischen einer Art. Man m"ochte wissen, wie gro"s
in etwa ist. Dazu f"angt man eine (kleinere) Anzahl
von Fischen und markiert sie. Dann setzt man sie wieder aus und wartet einen angemessenen Zeitraum. Dann f"angt man in einem zweiten Fischzug
Fische und bestimmt die Anzahl
der markierten Fische unter ihnen.
Beispielsweise hat man
Fische markiert und unter
gefangenen Fischen
markierte Fische wiedergefunden.
Wie kann man daraus eine sinnvolle Sch"atzung f"ur
abgeben?
Fehler beim Parsen (Unbekannte Funktion „\fbox“): {\displaystyle \fbox{\textbf{Situation:} Es sind $K,n$ und $k$ bekannt, aber nicht $N$. Wie kann man $N$ sinnvoll sch"atzen?}}
Genauer:
und
sind fest und bekannt. Manchmal kann man
und
selbst festlegen.
entsteht zuf"allig, ist dann aber bekannt.
mit
steht fest, ist aber nicht bekannt.
Fehler beim Parsen (Unbekannte Funktion „\fbox“): {\displaystyle \fbox{System mit Parameter $N$} \stackrel{\text{zuf"allig}}{\longrightarrow} \fbox{Daten $k$ } \stackrel{\text{methodisch}}{\longrightarrow} \fbox{Sch"atzung $\hat{N}$ f"ur $N$}}
Wiederum ist damit die Sch"atzung zuf"allig.
Erwartungstreue Punktsch"atzungen f"ur 
[Bearbeiten]
Durch
erh"alt man eine Sch"atzung f"ur
.
Dabei gilt:
ist erwartungstreu f"ur
.
Genauer: Die Zahl
h"angt vom Zufall ab und wird (vor der Datenerhebung) durch die ZV
beschrieben. Da die Sch"atzung f"ur (die feste aber unbekannte Zahl)
von
abh"angt, ist sie ebenfalls vom Zufall abh"angig. Die Sch"atzung
kann somit als ZV beschrieben werden. Dabei gilt dann (unabh"angig vom unbekannten Wert
) stets
.
Sch"atzung f"ur
mit der Maximum-Likelihood-Methode
[Bearbeiten]
Mit der Maximum-Likelihood-Methode wird
(basierend auf der zuf"alligen Zahl
) so gesch"atzt, dass die Wahrscheinlichkeit
maximal wird. Wir suchen also die Maximumstelle der Likelihood-Funktion
Man stellt fest:
Die Maximumstelle(n) ist/sind von
:
(dabei bezeichnet
die gr"o"ste ganze Zahl, die kleiner oder gleich
ist)
Intervallsch"atzungen f"ur 
[Bearbeiten]
Gib eine Methode an, mit der man aus
ein Intervall
bestimmen kann, so dass die Wahrscheinlichkeit, dass sich ein Intervall ergibt, das
enth"alt, auf jeden Fall (also f"ur jeden denkbaren Wert von
) mindestens ein vorgegebenes Konfidenzniveau
ist. Fehler beim Parsen (Unbekannte Funktion „\fbox“): {\displaystyle \fbox{System mit Parameter $N$} \stackrel{\text{zuf"allig}}{\longrightarrow} \fbox{Daten $k$ } \stackrel{\text{methodisch}}{\longrightarrow} \fbox{(Intervall-)Sch"atzung $[N_U, N_O]$ f"ur $N$}}
Fehler beim Parsen (Unbekannte Funktion „\fbox“): {\displaystyle \fbox{$\text{\textbf{Ziel:} F"ur jeden m"oglichen Wert von $N$:} \quad P \left( [N_U, N_O] \ni N \right) \geq \delta$}}
Eine sinnvolle M"oglichkeit wird im Folgenden beschrieben.
IVS f"ur
, die ein gegebenes Konfidenzniveau einh"alt
[Bearbeiten]
Gegeben seien
. Unbekannt sei
. Weiter sei ein Konfidenzniveau
vorgegeben.
Basierend auf der zuf"alligen Zahl
geht man nun wie folgt vor:
- Man bestimmt
als die kleinstm"ogliche Zahl mit Fehler beim Parsen (Unbekannte Funktion „\textcolor“): {\displaystyle \textcolor{blue}{\text{phyper}(k, K, N_U-K, n)} = \sum\limits_{j=0}^k \frac{{K \choose j} \cdot {N_U-K \choose n-j}}{{N_U \choose n}} > \frac{1- \delta}{2}}
- Man bestimmt
als die gr"o"stm"ogliche Zahl mit Fehler beim Parsen (Unbekannte Funktion „\textcolor“): {\displaystyle \textcolor{blue}{\text{phyper}(k-1, K, N_O-K, n)} = \sum\limits_{j=0}^{k-1} \frac{{K \choose j} \cdot {N_O-K \choose n-j}}{{N_O \choose n}} < \frac{1+ \delta}{2}}
Wir halten fest, dass die folgende (bei Intervallsch"atzungen immer zu erreichende) Bedingung bei diesem Verfahren garantiert erf"ullt ist: Fehler beim Parsen (Unbekannte Funktion „\fbox“): {\displaystyle \fbox{$P \left( [N_U, N_O] \ni N \right) \geq \delta$} \quad \text{(D.h. das Konfidenzniveau $\delta$ wird eingehalten.)}}
Man beachte, dass der Aussage ![{\textstyle N\in [N_{U},N_{O}]}](https://wikimedia.org/api/rest_v1/media/math/render/svg/d6c993f8785429ffba929aba71fcb2db411d96c1)
eine Wahrscheinlichkeit zugeschrieben werden kann, weil die Intervallgrenzen
und
zuf"allig sind (und nicht etwa der unbekannte Wert
).
Wir betrachten erneut den Fall
und f"uhren eine Intervallsch"atzung zum Niveau
durch.
- Wir suchen also zun"achst die kleinstm"ogliche Zahl
mit Fehler beim Parsen (Unbekannte Funktion „\textcolor“): {\displaystyle \textcolor{blue}{\text{phyper}(14, 100, N_U-100, 50)} > 0.1}
Durch Ausprobieren findet man: 
- Analog suchen wir die gr"o"stm"ogliche Zahl mit Fehler beim Parsen (Unbekannte Funktion „\textcolor“): {\displaystyle \textcolor{blue}{\text{phyper}(13,100,N_O-100,50)}< 0.9}
Durch Ausprobieren findet man:

Damit ist
das gesuchte Konfidenzintervall zu
.
Die nachfolgenden ZV werden hier kurz vorgestellt. Selbstverständlich können auch für die Parameter dieser Verteilungen Punkt- und Intervallschätzungen vorgenommen werden, es soll hier jedoch nicht weiter darauf eingegangen werden.
Die Zufallsvariable
heißt Poisson-verteilt mit der durch Beobachtung zu erwartenden Ereignishäufigkeit
, wenn ihre Wahrscheinlichkeitsfunktion gegeben ist durch
für
.
Die Poissonverteilung gibt die Wahrscheinlichkeit für die Anzahl von Ereignissen an, die unabhängig voneinander in einem räumlichen Gebiet oder zeitlichen Intervall auftreten. Ist
Poisson-verteilt mit Parameter
, so gilt
und 
image mit
(blau),
(grün) und
(rot). Bildquelle: https://commons.wikimedia.org/wiki/File:Poisson-Verteilung.PNG; Lizenz: CC-BY-3.0 & GDFL 1.2; Beschreibung: Poisson-Verteilung; Autor: Schlurcher; Datum: 5. September 2009 (Upload)
Für die Poissonverteilung gilt die Rekursionsformel
für
und es gilt
.
Es folgt wie zuvor für
und für
Da bei der Poissonverteilung jedoch theoretisch gesehen unendlich viele Ereignisse in dem betrachteten Intervall auftreten können, wird die kumulierte Verteilung für
mittels einer unendlichen Summe dargestellt:
Dennoch gilt die Normierbarkeit, da die Wahrschienlichkeiten für
abnehmen und sich beliebig nahe an die
annähern. Somit liegt zwar eine unendliche Summe vor, diese konvergiert jedoch, d.h. hat einen endlichen Wert, nämlich
An einer radioaktiven Probe aus Uran werden pro Sekunde im Mittel
Zerfälle gemessen. Die Zufallsvariable
, welche die Anzahl der Zerfälle pro Sekunde angibt, ist somit Poissonverteilt und es ergibt sich die folgende Wahrscheinlichkeitsverteilung:
Daraus resultieren die folgenden Wahrscheinlichkeiten für
:
| In R:
|
dpois( )
|
ergibt:
|
|
=
|
|
|
|
ppois( )
|
ergibt:
|
|
=
|
|
|
|
ppois( )
|
ergibt:
|
|
=
|
|
|
|
ppois( ) ppois( )
|
ergibt:
|
|
=
|
|
Die Poissonverteilung stellt den Grenzwert für eine binomialverteilte ZV mit unendlich vielen Versuchen dar.
Zufallsexperimente mit geometrisch verteilten ZV können als Spezialfälle binomialverteilter ZV betrachtet werden, wobei hier zwischen zwei Varianten unterschieden wird:
- Durchführen eines binomialverteilten Zufallsexperiemnt, bis ein Treffer
,grqq erzielt wird und die ZV
gibt die Anzahl der Versuche an.
- Durchführen eines binomailverteilten Zufallsexperiment, bis ein Treffer erzielt wird und die ZV
gibt die Anzahl der Fehlversuche an.
image
mit
(blau),
(grün) und
(rot).
Bildquelle: https://de.wikipedia.org/wiki/Datei:Geometrische_Verteilung2.PNG; Lizenz: CC-BY-3.0 & GDFL 1.2; Beschreibung: Geometrische Verteilung; Autor: Schlurcher; Datum: 5. September 2009 (Upload)
image
mit
(blau),
(grün) und
(rot).
Bildquelle: https://de.wikipedia.org/wiki/Datei:Geometrische_Verteilung.PNG; Lizenz: CC-BY-3.0 & GDFL 1.2; Beschreibung: Geometrische Verteilung; Autor: Schlurcher; Datum: 5. September 2009 (Upload)
Die beiden Varianten stehen in der Beziehung
. Somit ergeben sich die beiden folgenden Formeln für die Bestimmung der Wahrscheinlichkeit mit
- Für die ZV
gilt:

- Für die ZV
gilt:

Werfen einer Münze bis zum Eintreten von Kopf .
| In R:
|
dgeom( )
|
ergibt:
|
|
=
|
|
|
|
pgeom( )
|
ergibt:
|
|
=
|
|
|
|
pgeom( )
|
ergibt:
|
|
=
|
|
|
|
pgeom( ) pgeom( )
|
ergibt:
|
|
=
|
|
In R wird die zweite Varainte betrachtet, welche die Anzahl der Fehlversuche zählt, https://stat.ethz.ch/R-manual/R-devel/library/stats/html/Geometric.html