Hypothesentest
Allgemeines über Hypothesentests (1)
[Bearbeiten]Für viele dieser Fragestellungen gibt es verschiedene Testverfahren, die sich hinsichtlich Durchführung und Testqualität stark unterscheiden. Wir können im Rahmen dieser Vorlesung nur eine kleine Auswahl vorstellen. In diesem einleitenden Abschnitt beschreiben wir die (grundsätzliche) Funktionsweise eines Hypothesentests.
Der erste Schritt eines Test besteht in der Formulierung der sogenannten Nullhypothese. Die Nullhypothese ist eine Aussage über die Verteilung einer ZV oder über ihre Parameter. Nun soll geprüft werden, ob die Nullhypothese durch die erhobenen Daten (z.B. eine Stichprobe) widerlegt werden kann (mit einer gewissen vorgegebenen Sicherheit) oder nicht.
Allgemeines über Hypothesentests (2)
[Bearbeiten]Es ist mit einem Hypothesentest nicht möglich, die Nullhypothese mit einer vorgegebenen Sicherheit zu bestätigen. Wir bezeichnen die Nullhypothese mit . Die Gegenaussage nennt man dann Gegenhypothese, sie wird mit bezeichnet.
Man unterscheidet:
- Parametrische Verfahren: Dabei wird von Beginn an vorausgesetzt, dass eine bestimmte Verteilungsart vorliegt (etwa eine Binomialverteilung bzw. eine Normalverteilung usw.). Die Nullhypothese macht dann eine Aussage über einen oder mehrere Parameter der Verteilung (etwa bzw. und/oder ).
Allgemeines über Hypothesentests (3)
[Bearbeiten]Liegt die angenommene Verteilungsart (auch näherungsweise) nicht vor, so wird dies vom Test nicht aufgedeckt. Der Test liefert dann möglicherweise unsinnige Resultate.
- Nichtparametrische Verfahren: Im Voraus werden keine Annahmen über die Art der Verteilung(en) gemacht. Der Test kann dann beispielsweise prüfen, ob eine bestimmte Verteilung oder Verteilungsart vorliegen kann oder ob die Daten mit einer ganz bestimmten Verteilung vereinbar sind.
Allgemeines über Hypothesentests (4)
[Bearbeiten]Vor der Durchführung eines Tests wird ein Signifikanzniveau (z.B. ) und ein Testverfahren festgelegt. Erst werden die Daten gesichtet und man kommt (mit dem gewählten Verfahren) zu einer der folgenden Entscheidungen:
- Die Nullhypothese ist (zum Signifikanzniveau ) abzulehnen.
Falls man (aufgrund der gewählten Methode und den erhobenen Daten) die Nullhypothese ablehnen kann, spricht man von einem signifikanten Ergebnis.
- Die Nullhypothese kann (zum Signifikanzniveau ) nicht abgelehnt werden.
Allgemeines über Hypothesentests (5)
[Bearbeiten]Man beachte: Eine Nicht-Ablehnung der Nullhypothese bedeutet ihre Annahme. In diesem Fall bleibt die Frage nach ihrer Gültigkeit offen. Mögliche Formulierungen des Testergebnisses sind in diesem Fall:
Da die Entscheidung bzgl. Ablehnung bzw. Nicht-Ablehnung der Nullhypothese auf den Daten basiert und diese vom Zufall abhängig sind, ist auch die Entscheidung vom Zufall abhängig
p-Wert und Teststatistik (1)
[Bearbeiten]Bei vielen Testverfahren kann man den sogenannten -Wert zur Einschätzung des Testergebnisses heranziehen. Er entspricht dem minimalen Wert für das Signifikanzniveau bei dem die Nullhypothese gerade noch abgelehnt wird.
Der -Wert ist eine Zahl , die aus den erhaltenen Daten berechnet wird (und damit vom Zufall abhängt). Er deutet an, wie glaubhaft es ist, diese Daten zu erhalten, wenn die Nullhypothese wahr ist (und damit umgekehrt, wie glaubhaft die Nullhypothese bei Erhalt dieser Daten ist).
Genauer gesagt ist der -Wert eine (genauer gesagt die kleinstmögliche) Oberschranke für die Wahrscheinlichkeit, die erhaltenen Daten oder noch Extremere (d.h. Daten mit einem noch kleineren -Wert) zu erhalten, falls wahr ist.
p-Wert und Teststatistik (2)
[Bearbeiten]Hat man einen bestimmten -Wert erhalten, so weiß man:
Mit dem -Wert wird also angedeutet, wie extrem die erhaltenen Daten sind, wenn die Nullhypothese gilt: je kleiner der -Wert, desto unwahrscheinlicher ist das erhaltene Ergebnis, wenn wahr ist, und folglich umso mehr spricht das Ergebnis gegen die Nullhypothese. (Im Fall könnte man sicher sein, dass nicht gilt.)
p-Wert und Teststatistik (3)
[Bearbeiten]Manche Tests benutzen eine sogenannte Teststatistik (oder Testfunktion) , um die Nullhypothese zu bewerten. Die Teststatistik wird aus den Daten (mit einer zuvor festgelegten, möglichst plausiblen) Methode berechnet (und hängt daher vom Zufall ab).
Dabei können hohe oder niedrige Werte der Teststatistik gegen sprechen. (Dies muss vorher festgelegt werden, ist aber im Zusammenhang mit der Idee der Teststatistik meist klar.)
Aus der aus den erhaltenen Daten berechneten Teststatistik ergibt sich dann der -Wert wie folgt:
p-Wert und Teststatistik (4)
[Bearbeiten]- Der p-Wert ist eine (genauer gesagt die kleinstmögliche) Oberschranke für die Wahrscheinlichkeit, die erhaltenen Daten oder noch Extremere (d.h. Daten mit einer noch kleineren Teststatistik) zu erhalten, falls wahr ist. Hat man eine bestimmte Teststatistik erhalten, so weiß man:
p-Wert und Teststatistik (5)
[Bearbeiten]- Der p-Wert ist eine (genauer gesagt die kleinstmögliche) Oberschranke für die Wahrscheinlichkeit, die erhaltenen Daten oder noch Extremere (d.h. Daten mit einer noch größeren Teststatistik) zu erhalten, falls wahr ist. Hat man eine bestimmte Teststatistik erhalten, so weiß man:
Anmerkungen (1)
[Bearbeiten]Zu einem gegebenem Signifikanzniveau ist eine Nullhypothese genau dann abzulehnen, wenn der -Wert ist.
Zu einer korrekten Vorgehensweise gehört es allerdings, das Signifikanzniveau vor der Datenerhebung festzulegen (es darf nicht im Nachhinein gleich oder etwas größer als der -Wert festgesetzt werden).
Der -Wert liefert Anhaltspunkte zur Beurteilung der Nullhypothese, die über die reine Frage nach der Ablehnung hinausgehen.
Es ist nicht zulässig, die Nullhypothese erst nach einem Blick auf die Daten auszuwählen. Dann könnte man nämlich eine bestimmte (möglicherweise rein zufällige) Auffälligkeit in den Daten ausnutzen, um ein signifikantes Ergebnis zu erhalten. Da es bei manchen Datenmengen viele denkbare Nullhypothesen gibt, wäre die Wahrscheinlichkeit, dass man auf diese Art und Weise ein signifikantes Ergebnis erhält, deutlich erhöht (und damit größer als übliche Signifikanzniveaus).
Die Nullhypothese sollte also immer vor der Datenerhebung formuliert werden. Sie sollte idealerweise im Zusammenhang mit einer begründeten Vermutung stehen, diese kann dann mit dem Hypothesentest ggf. statistisch bestätigt werden.
In vielen Situationen stehen mehrere Testverfahren zum Überprüfen einer bestimmten Nullhypothese zur Verfügung. Diese liefern dann auch verschiedene -Werte. Zu einer korrekten Vorgehensweise gehört es, das benutzte Verfahren vor der Datenerhebung auszuwählen (und nicht im Nachhinein eines mit einem geringen -Wert auszuwählen).
In wissenschaftlichen Zeitschriften werden oft bevorzugt signifikante Ergebnisse veröffentlicht. Dies kann zu folgendem Problem führen:
Anmerkungen (4)
[Bearbeiten]Falls gilt, ist ein signifikantes Ergebnis bei einer einzelnen Untersuchung unwahrscheinlich. Andererseits ist es bei einer Vielzahl von Studien (zum selben Forschungsgegenstand) die Wahrscheinlichkeit, dass einige (wenige) signifikante Ergebnisse entstehen, deutlich erhöht (und damit größer als übliche Signifikanzniveaus). Wenn nur die signifikanten Ergebnisse veröffentlicht werden, kann ein fehlerhaftes Bild entstehen.
Diese Problematik ist unter dem Begriff Publikationsbias bekannt.
Anmerkungen (2)
[Bearbeiten]Anmerkungen (3)
[Bearbeiten]Tests zur Binomialverteilung (1)
[Bearbeiten]Situation: Die Trefferwahrscheinlichkeit einer Binomialverteilung ist unbekannt.
Wir betrachten in diesem Kapitel einige Nullhypothesen bezüglich (einseitige und zweiseitige Tests) und erklären jeweils die Berechnung des p-Werts. Alle Verfahren basieren dabei auf der Trefferzahl bei Versuchen.
Tests zur Binomialverteilung (2)
[Bearbeiten]Voraussetzung: binomialverteilt mit Versuchszahl und Trefferwahrscheinlichkeit
Hypothesenpaar: und (linksseitiger Test; Dabei ist vorgegeben.)
Vorliegende Daten: Trefferzahl
Teststatistik: Trefferzahl (niedrige Werte von sprechen gegen )
Tests zur Binomialverteilung (3)
[Bearbeiten]-Wert zu konkreter Trefferzahl :
Ablehnbereich bei gegebenem Signifikanzniveau :
Tests zur Binomialverteilung (4)
[Bearbeiten]Voraussetzung: binomialverteilt mit Versuchszahl und Trefferwahrscheinlichkeit
Hypothesenpaar: und
(Dabei ist vorgegeben.)Vorliegende Daten: Trefferzahl
Teststatistik: Trefferzahl (hohe Werte von sprechen gegen )
Tests zur Binomialverteilung (5)
[Bearbeiten]-Wert zu konkreter Trefferzahl :
Ablehnbereich bei gegebenem Signifikanzniveau :
Tests zur Binomialverteilung (6)
[Bearbeiten]Wir betrachten nun das Hypothesenpaar: und ( vorgegeben)
An diesem Fall soll verdeutlicht werden, dass es bisweilen mehrere sinnvolle Testverfahren gibt, die unterschiedliche Ergebnisse liefern können.
Anmerkung: Zu einer seriösen Vorgehensweise gehört es, sich der Datenerhebung auf ein Testverfahren festzulegen (und nicht im Nachhinein ein Testverfahren auszuwählen, dass bei den vorliegenden Daten einen möglichst kleinen -Wert hat, um so ein signifikantes Ergebnis zu erhalten).Tests zur Binomialverteilung (7)
[Bearbeiten]Klar ist hier: Die Nullhypothese sollte sowohl für zu kleine und auch für zu große beobachtete Trefferzahlen abgelehnt werden.
Voraussetzung: binomialverteilt mit Versuchszahl und Trefferwahrscheinlichkeit
Hypothesenpaar: und
Vorliegende Daten: Trefferzahl
Teststatistik: (hohe Werte von sprechen gegen )
Idee: Falls gilt, ist und damit ist . Die Teststatistik gibt die Abweichung der Trefferzahl von ihrem Erwartungswert (unter ) an.Tests zur Binomialverteilung (8)
[Bearbeiten]-Wert zu konkreter Teststatistik :
Der -Wert entspricht damit der Wahrscheinlichkeit (bei Gültigkeit von ), dass beobachtete Ergebnis oder ein im Hinblick auf noch extremeres Ergebnis zu erhalten. Bei dieser Methode wurde eine Trefferzahl als extrem angesehen, wenn sie stark vom Erwartungswert (unter ) abweicht.
Tests zur Binomialverteilung (9)
[Bearbeiten]2. Methode
Tests zur Binomialverteilung (10)
[Bearbeiten]Voraussetzung: binomialverteilt mit Versuchszahl und Trefferwahrscheinlichkeit
Hypothesenpaar: und
Vorliegende Daten: Trefferzahl
Teststatistik: (niedrige WErte von sprechen gegen )
Idee: Falls gilt, ist und damit ist . Die Teststatistik gibt an, wie wahrscheinlich die beobachtete Trefferzahl ist, falls gilt.Tests zur Binomialverteilung (11)
[Bearbeiten]-Wert zu konkreter Teststatistik :
Der -Wert entspricht damit der Wahrscheinlichkeit (bei Gültigkeit von ), dass beobachtete Ergebnis oder ein im Hinblick auf noch extremeres Ergebnis zu erhalten. Bei diesem Test wurde eine Trefferzahl als extrem angesehen, wenn sie unwahrscheinlich ist, falls gilt.