Hypothesentest

Allgemeines über Hypothesentests (1)

Für viele dieser Fragestellungen gibt es verschiedene Testverfahren, die sich hinsichtlich Durchführung und Testqualität stark unterscheiden. Wir können im Rahmen dieser Vorlesung nur eine kleine Auswahl vorstellen. In diesem einleitenden Abschnitt beschreiben wir die (grundsätzliche) Funktionsweise eines Hypothesentests.

Der erste Schritt eines Test besteht in der Formulierung der sogenannten Nullhypothese. Die Nullhypothese ist eine Aussage über die Verteilung einer ZV oder über ihre Parameter. Nun soll geprüft werden, ob die Nullhypothese durch die erhobenen Daten (z.B. eine Stichprobe) widerlegt werden kann (mit einer gewissen vorgegebenen Sicherheit) oder nicht.

Allgemeines über Hypothesentests (2)

Es ist mit einem Hypothesentest nicht möglich, die Nullhypothese mit einer vorgegebenen Sicherheit zu bestätigen. Wir bezeichnen die Nullhypothese mit $H_{0}$ . Die Gegenaussage nennt man dann Gegenhypothese, sie wird mit $H_{1}$ bezeichnet.

Man unterscheidet:

Parametrische Verfahren: Dabei wird von Beginn an vorausgesetzt, dass eine bestimmte Verteilungsart vorliegt (etwa eine Binomialverteilung bzw. eine Normalverteilung usw.). Die Nullhypothese macht dann eine Aussage über einen oder mehrere Parameter der Verteilung (etwa $p$ bzw. $\mu$ und/oder $\sigma$ ).

Allgemeines über Hypothesentests (3)

Liegt die angenommene Verteilungsart (auch näherungsweise) nicht vor, so wird dies vom Test nicht aufgedeckt. Der Test liefert dann möglicherweise unsinnige Resultate.

Nichtparametrische Verfahren: Im Voraus werden keine Annahmen über die Art der Verteilung(en) gemacht. Der Test kann dann beispielsweise prüfen, ob eine bestimmte Verteilung oder Verteilungsart vorliegen kann oder ob die Daten mit einer ganz bestimmten Verteilung vereinbar sind.

Allgemeines über Hypothesentests (4)

Vor der Durchführung eines Tests wird ein Signifikanzniveau $\alpha$ (z.B. $\alpha =0.05$ ) und ein Testverfahren festgelegt. Erst werden die Daten gesichtet und man kommt (mit dem gewählten Verfahren) zu einer der folgenden Entscheidungen:

Die Nullhypothese ist (zum Signifikanzniveau $\alpha$ ) abzulehnen.

Falls man (aufgrund der gewählten Methode und den erhobenen Daten) die Nullhypothese ablehnen kann, spricht man von einem signifikanten Ergebnis.

Die Nullhypothese kann (zum Signifikanzniveau $\alpha$ ) nicht abgelehnt werden.

Allgemeines über Hypothesentests (5)

Man beachte: Eine Nicht-Ablehnung der Nullhypothese bedeutet ihre Annahme. In diesem Fall bleibt die Frage nach ihrer Gültigkeit offen. Mögliche Formulierungen des Testergebnisses sind in diesem Fall:
${\begin{array}{cl }&{\text{Die Nullhypothese wird nicht abgelehnt.}}\\{\text{oder}}&{\text{Die Nullhypothese ist mit den Daten vereinbar.}}\end{array}}$

Da die Entscheidung bzgl. Ablehnung bzw. Nicht-Ablehnung der Nullhypothese auf den Daten basiert und diese vom Zufall abhängig sind, ist auch die Entscheidung vom Zufall abhängig
${\text{ZV, über die}}\,H_{0}\,{\text{eine Aussage macht}}{\stackrel {\text{zufällig}}{\longrightarrow }}{\text{Daten}}{\stackrel {\text{methodisch}}{\longrightarrow }}{\text{Entscheidung bzgl.}}\,H_{0}$

p-Wert und Teststatistik (1)

Bei vielen Testverfahren kann man den sogenannten $\mathbf {p}$ -Wert ${\mathfrak {p}}$ zur Einschätzung des Testergebnisses heranziehen. Er entspricht dem minimalen Wert für das Signifikanzniveau $\alpha ,$ bei dem die Nullhypothese gerade noch abgelehnt wird.

Der $p$ -Wert ist eine Zahl ${\mathfrak {p}}\in [0,1]$ , die aus den erhaltenen Daten $D$ berechnet wird (und damit vom Zufall abhängt). Er deutet an, wie glaubhaft es ist, diese Daten zu erhalten, wenn die Nullhypothese wahr ist (und damit umgekehrt, wie glaubhaft die Nullhypothese bei Erhalt dieser Daten ist).

Genauer gesagt ist der $p$ -Wert eine (genauer gesagt die kleinstmögliche) Oberschranke für die Wahrscheinlichkeit, die erhaltenen Daten oder noch Extremere (d.h. Daten mit einem noch kleineren $p$ -Wert) zu erhalten, falls $H_{0}$ wahr ist.

p-Wert und Teststatistik (2)

Hat man einen bestimmten $p$ -Wert ${\mathfrak {p}}^{\ast }$ erhalten, so weiß man: ${\text{Falls}}\,H_{0}\,{\text{gilt, ist:}}\underbrace {P\left({\mathfrak {p}}\leq {\mathfrak {p}}^{\ast }\right)} _{{\text{ für einen zufälligen p-Wert}}\,{\mathfrak {p}}}\leq {\mathfrak {p}}^{\ast }$

Mit dem $p$ -Wert wird also angedeutet, wie extrem die erhaltenen Daten sind, wenn die Nullhypothese gilt: je kleiner der $p$ -Wert, desto unwahrscheinlicher ist das erhaltene Ergebnis, wenn $H_{0}$ wahr ist, und folglich umso mehr spricht das Ergebnis gegen die Nullhypothese. (Im Fall ${\mathfrak {p}}=0$ könnte man sicher sein, dass $H_{0}$ nicht gilt.)

p-Wert und Teststatistik (3)

Manche Tests benutzen eine sogenannte Teststatistik (oder Testfunktion) $T$ , um die Nullhypothese $H_{0}$ zu bewerten. Die Teststatistik wird aus den Daten (mit einer zuvor festgelegten, möglichst plausiblen) Methode berechnet (und hängt daher vom Zufall ab).

Dabei können hohe oder niedrige Werte der Teststatistik gegen $H_{0}$ sprechen. (Dies muss vorher festgelegt werden, ist aber im Zusammenhang mit der Idee der Teststatistik meist klar.)

Aus der aus den erhaltenen Daten berechneten Teststatistik $T^{\ast }$ ergibt sich dann der $p$ -Wert wie folgt:

p-Wert und Teststatistik (4)

Der p-Wert ${\mathfrak {p}}^{\ast }$ ist eine (genauer gesagt die kleinstmögliche) Oberschranke für die Wahrscheinlichkeit, die erhaltenen Daten oder noch Extremere (d.h. Daten mit einer noch kleineren Teststatistik) zu erhalten, falls $H_{0}$ wahr ist. Hat man eine bestimmte Teststatistik $T^{\ast }$ erhalten, so weiß man: ${\text{Falls}}\,H_{0}\,{\text{gilt, ist:}}\underbrace {P\left(T\leq T^{\ast }\right)} _{{\text{ für eine zufällige Testatistik}}\,T}\leq {\mathfrak {p}}^{\ast }$

p-Wert und Teststatistik (5)

Der p-Wert ${\mathfrak {p}}^{\ast }$ ist eine (genauer gesagt die kleinstmögliche) Oberschranke für die Wahrscheinlichkeit, die erhaltenen Daten oder noch Extremere (d.h. Daten mit einer noch größeren Teststatistik) zu erhalten, falls $H_{0}$ wahr ist. Hat man eine bestimmte Teststatistik $T^{\ast }$ erhalten, so weiß man: ${\text{Falls}}\,H_{0}\,{\text{gilt, ist:}}\underbrace {P\left(T\geq T^{\ast }\right)} _{{\text{ für eine zufällige Teststatistik}}\,T}\leq {\mathfrak {p}}^{\ast }$

Anmerkungen (1)

Zu einem gegebenem Signifikanzniveau $\alpha$ ist eine Nullhypothese genau dann abzulehnen, wenn der $p$ -Wert ${\mathfrak {p}}\leq \alpha$ ist.

Zu einer korrekten Vorgehensweise gehört es allerdings, das Signifikanzniveau vor der Datenerhebung festzulegen (es darf nicht im Nachhinein gleich oder etwas größer als der $p$ -Wert festgesetzt werden).

Der $p$ -Wert liefert Anhaltspunkte zur Beurteilung der Nullhypothese, die über die reine Frage nach der Ablehnung hinausgehen.

Anmerkungen (2)

Es ist nicht zulässig, die Nullhypothese erst nach einem Blick auf die Daten auszuwählen. Dann könnte man nämlich eine bestimmte (möglicherweise rein zufällige) Auffälligkeit in den Daten ausnutzen, um ein signifikantes Ergebnis zu erhalten. Da es bei manchen Datenmengen viele denkbare Nullhypothesen gibt, wäre die Wahrscheinlichkeit, dass man auf diese Art und Weise ein signifikantes Ergebnis erhält, deutlich erhöht (und damit größer als übliche Signifikanzniveaus).

Die Nullhypothese sollte also immer vor der Datenerhebung formuliert werden. Sie sollte idealerweise im Zusammenhang mit einer begründeten Vermutung stehen, diese kann dann mit dem Hypothesentest ggf. statistisch bestätigt werden.

Anmerkungen (3)

In vielen Situationen stehen mehrere Testverfahren zum Überprüfen einer bestimmten Nullhypothese zur Verfügung. Diese liefern dann auch verschiedene $p$ -Werte. Zu einer korrekten Vorgehensweise gehört es, das benutzte Verfahren vor der Datenerhebung auszuwählen (und nicht im Nachhinein eines mit einem geringen $p$ -Wert auszuwählen).
In wissenschaftlichen Zeitschriften werden oft bevorzugt signifikante Ergebnisse veröffentlicht. Dies kann zu folgendem Problem führen:

Anmerkungen (4)

Falls H 0 {\displaystyle H_{0}} gilt, ist ein signifikantes Ergebnis bei einer einzelnen Untersuchung unwahrscheinlich. Andererseits ist es bei einer Vielzahl von Studien (zum selben Forschungsgegenstand) die Wahrscheinlichkeit, dass einige (wenige) signifikante Ergebnisse entstehen, deutlich erhöht (und damit größer als übliche Signifikanzniveaus). Wenn nur die signifikanten Ergebnisse veröffentlicht werden, kann ein fehlerhaftes Bild entstehen.

Diese Problematik ist unter dem Begriff Publikationsbias bekannt.

Tests zur Binomialverteilung (1)

Situation: Die Trefferwahrscheinlichkeit $p$ einer Binomialverteilung ist unbekannt.
Wir betrachten in diesem Kapitel einige Nullhypothesen bezüglich $p$ (einseitige und zweiseitige Tests) und erklären jeweils die Berechnung des p-Werts. Alle Verfahren basieren dabei auf der Trefferzahl $T^{\ast }=k$ bei $n$ Versuchen.

Tests zur Binomialverteilung (2)

Voraussetzung: T {\displaystyle T} binomialverteilt mit Versuchszahl n {\displaystyle n} und Trefferwahrscheinlichkeit p = ? {\displaystyle p=?}

Hypothesenpaar: H 0 : p ≥ p 0 {\displaystyle H_{0}:p\geq p_{0}} und H 1 : p < p 0 {\displaystyle H_{1}:p<p_{0}} (linksseitiger Test; Dabei ist p 0 ∈ ( 0 , 1 ) {\displaystyle p_{0}\in (0,1)} vorgegeben.)

Vorliegende Daten: Trefferzahl T ∗ = k {\displaystyle T^{\ast }=k}

Teststatistik: Trefferzahl T {\displaystyle T} (niedrige Werte von T {\displaystyle T} sprechen gegen H 0 {\displaystyle H_{0}} )

Tests zur Binomialverteilung (3)

p {\displaystyle p} -Wert zu konkreter Trefferzahl T ∗ = k {\displaystyle T^{\ast }=k} : p ∗ = ∑ j = 0 k ( n j ) p 0 j ( 1 − p 0 ) n − j {\displaystyle {\mathfrak {p}}^{\ast }=\sum \limits _{j=0}^{k}{n \choose j}{p_{0}}^{j}(1-p_{0})^{n-j}}

Ablehnbereich bei gegebenem Signifikanzniveau α {\displaystyle \alpha } : A = { T ∗ = k ; ∑ j = 0 k ( n j ) p 0 j ( 1 − p 0 ) n − j ≤ α } = { 0 , … , k max } {\displaystyle A=\left\{T^{\ast }=k;\ \sum \limits _{j=0}^{k}{n \choose j}{p_{0}}^{j}(1-p_{0})^{n-j}\leq \alpha \right\}=\left\{0,\ldots ,k_{\text{max}}\right\}}

Tests zur Binomialverteilung (4)
Voraussetzung: T {\displaystyle T} binomialverteilt mit Versuchszahl n {\displaystyle n} und Trefferwahrscheinlichkeit p = ? {\displaystyle p=?}

Hypothesenpaar: H 0 : p ≤ p 0 {\displaystyle H_{0}:p\leq p_{0}} und H 1 : p > p 0 {\displaystyle H_{1}:p>p_{0}}
(Dabei ist p 0 ∈ ( 0 , 1 ) {\displaystyle p_{0}\in (0,1)} vorgegeben.)

Vorliegende Daten: Trefferzahl T ∗ = k {\displaystyle T^{\ast }=k}

Teststatistik: Trefferzahl T {\displaystyle T} (hohe Werte von T {\displaystyle T} sprechen gegen H 0 {\displaystyle H_{0}} )

Tests zur Binomialverteilung (5)

p {\displaystyle p} -Wert zu konkreter Trefferzahl T ∗ = k {\displaystyle T^{\ast }=k} : p ∗ = ∑ j = k n ( n j ) p 0 j ( 1 − p 0 ) n − j {\displaystyle {\mathfrak {p}}^{\ast }=\sum \limits _{j=k}^{n}{n \choose j}{p_{0}}^{j}(1-p_{0})^{n-j}}

Ablehnbereich bei gegebenem Signifikanzniveau α {\displaystyle \alpha } : A = { T ∗ = k ; ∑ j = k n ( n j ) p 0 j ( 1 − p 0 ) n − j ≤ α } = { k min , … , n } {\displaystyle A=\left\{T^{\ast }=k;\,\sum \limits _{j=k}^{n}{n \choose j}{p_{0}}^{j}(1-p_{0})^{n-j}\leq \alpha \right\}=\left\{k_{{\text{min}},\ldots ,n}\right\}}

Tests zur Binomialverteilung (6)
Wir betrachten nun das Hypothesenpaar: H 0 : p = p 0 {\displaystyle H_{0}:p=p_{0}} und H 1 : p ≠ p 0 {\displaystyle H_{1}:p\not =p_{0}} ( p 0 ∈ ( 0 , 1 ) {\displaystyle p_{0}\in (0,1)} vorgegeben)
An diesem Fall soll verdeutlicht werden, dass es bisweilen mehrere sinnvolle Testverfahren gibt, die unterschiedliche Ergebnisse liefern können.
Anmerkung: Zu einer seriösen Vorgehensweise gehört es, sich der Datenerhebung auf ein Testverfahren festzulegen (und nicht im Nachhinein ein Testverfahren auszuwählen, dass bei den vorliegenden Daten einen möglichst kleinen p {\displaystyle p} -Wert hat, um so ein signifikantes Ergebnis zu erhalten).

Tests zur Binomialverteilung (7)

Klar ist hier: Die Nullhypothese sollte sowohl für zu kleine und auch für zu große beobachtete Trefferzahlen abgelehnt werden.

Voraussetzung: T {\displaystyle T} binomialverteilt mit Versuchszahl n {\displaystyle n} und Trefferwahrscheinlichkeit p = ? {\displaystyle p=?}

Hypothesenpaar: H 0 : p = p 0 {\displaystyle H_{0}:p=p_{0}} und H 1 : p ≠ p 0 {\displaystyle H_{1}:p\neq p_{0}}

Vorliegende Daten: Trefferzahl T ∗ = k {\displaystyle T^{\ast }=k}

Teststatistik: S ∗ = | k − n ⋅ p 0 | {\displaystyle S^{\ast }=\left|k-n\cdot p_{0}\right|} (hohe Werte von S {\displaystyle S} sprechen gegen H 0 {\displaystyle H_{0}} )

Tests zur Binomialverteilung (8)
Idee: Falls H 0 {\displaystyle H_{0}} gilt, ist p = p 0 {\displaystyle p=p_{0}} und damit ist E ( T ) = p 0 ⋅ n {\displaystyle E(T)=p_{0}\cdot n} . Die Teststatistik S ∗ {\displaystyle S^{\ast }} gibt die Abweichung der Trefferzahl von ihrem Erwartungswert (unter H 0 {\displaystyle H_{0}} ) an.

p {\displaystyle p} -Wert zu konkreter Teststatistik S ∗ {\displaystyle S^{\ast }} : p ∗ = P ( S ≥ S ∗ ) = ∑ j , S ( j ) ≥ S ∗ ( n j ) p 0 j ( 1 − p 0 ) n − j {\displaystyle {\mathfrak {p}}^{\ast }=P\left(S\geq S^{\ast }\right)=\sum \limits _{j,S(j)\geq S^{\ast }}{n \choose j}{p_{0}}^{j}(1-p_{0})^{n-j}}

Der p {\displaystyle p} -Wert entspricht damit der Wahrscheinlichkeit (bei Gültigkeit von H 0 {\displaystyle H_{0}} ), dass beobachtete Ergebnis oder ein im Hinblick auf H 0 {\displaystyle H_{0}} noch extremeres Ergebnis zu erhalten. Bei dieser Methode wurde eine Trefferzahl als extrem angesehen, wenn sie stark vom Erwartungswert (unter H 0 {\displaystyle H_{0}} ) abweicht.

Tests zur Binomialverteilung (9)

2. Methode

Tests zur Binomialverteilung (10)

Voraussetzung: T {\displaystyle T} binomialverteilt mit Versuchszahl n {\displaystyle n} und Trefferwahrscheinlichkeit p = ? {\displaystyle p=?}

Hypothesenpaar: H 0 : p = p 0 {\displaystyle H_{0}:p=p_{0}} und H 1 : p ≠ p 0 {\displaystyle H_{1}:p\neq p_{0}}

Vorliegende Daten: Trefferzahl T ∗ = k {\displaystyle T^{\ast }=k}

Teststatistik: S ∗ = ( n k ) ⋅ p 0 k ⋅ ( 1 − p 0 ) n − k {\displaystyle S^{\ast }={n \choose k}\cdot {p_{0}}^{k}\cdot (1-p_{0})^{n-k}} (niedrige WErte von S {\displaystyle S} sprechen gegen H 0 {\displaystyle H_{0}} )
Idee: Falls H 0 {\displaystyle H_{0}} gilt, ist p = p 0 {\displaystyle p=p_{0}} und damit ist P ( T = k ) = ( n k ) ⋅ p 0 k ⋅ ( 1 − p 0 ) n − k {\displaystyle P(T=k)={n \choose k}\cdot {p_{0}}^{k}\cdot (1-p_{0})^{n-k}} . Die Teststatistik S ∗ {\displaystyle S^{\ast }} gibt an, wie wahrscheinlich die beobachtete Trefferzahl ist, falls H 0 {\displaystyle H_{0}} gilt.

Tests zur Binomialverteilung (11)

p {\displaystyle p} -Wert zu konkreter Teststatistik S ∗ {\displaystyle S^{\ast }} : p ∗ = P ( S ≤ S ∗ ) = ∑ j , S ( j ) ≤ S ∗ ( n j ) p 0 j ( 1 − p 0 ) n − j {\displaystyle {\mathfrak {p}}^{\ast }=P\left(S\leq S^{\ast }\right)=\sum \limits _{j,S(j)\leq S^{\ast }}{n \choose j}{p_{0}}^{j}(1-p_{0})^{n-j}}

Der p {\displaystyle p} -Wert entspricht damit der Wahrscheinlichkeit (bei Gültigkeit von H 0 {\displaystyle H_{0}} ), dass beobachtete Ergebnis oder ein im Hinblick auf H 0 {\displaystyle H_{0}} noch extremeres Ergebnis zu erhalten. Bei diesem Test wurde eine Trefferzahl als extrem angesehen, wenn sie unwahrscheinlich ist, falls H 0 {\displaystyle H_{0}} gilt.

Allgemeines über Hypothesentests (1)

Allgemeines über Hypothesentests (2)

Allgemeines über Hypothesentests (3)

Allgemeines über Hypothesentests (4)

Allgemeines über Hypothesentests (5)

p-Wert und Teststatistik (1)

p-Wert und Teststatistik (2)

p-Wert und Teststatistik (3)

p-Wert und Teststatistik (4)

p-Wert und Teststatistik (5)

Anmerkungen (1)

Anmerkungen (2)

Anmerkungen (3)

Anmerkungen (4)

Tests zur Binomialverteilung (1)

Tests zur Binomialverteilung (2)

Tests zur Binomialverteilung (3)

Tests zur Binomialverteilung (4)

Tests zur Binomialverteilung (5)

Tests zur Binomialverteilung (6)

Tests zur Binomialverteilung (7)

Tests zur Binomialverteilung (8)

Tests zur Binomialverteilung (9)

Tests zur Binomialverteilung (10)

Tests zur Binomialverteilung (11)