Kurs:Statistik für Anwender/Allgemeines über Hypothesentests

Aus Wikiversity

Hypothesentests[Bearbeiten]

Allgemeines über Hypothesentests[Bearbeiten]

Beispiele Anwendung von Hypothesentests[Bearbeiten]

Hypothesentests eignen sich für viele verschiedene statistische Fragen:

  • Ist die Trefferwahrscheinlichkeit einer Binomialverteilung größer als (bzw. kleiner als , bzw. genau gleich )?
  • Ist der Erwartungswert einer normalverteilen Größe größer (bzw. kleiner, bzw. gleich) einem gegebenen Wert ?
  • Ist eine ZV normalverteilt (bzw. exponentialverteilt)?
  • Ist eine ZV exponentialverteilt mit ?
  • Sind zwei (oder mehr) ZV unabhängig voneinander?
  • Haben zwei (oder mehr) ZV die gleiche Verteilung?

Einleitung[Bearbeiten]

Es gibt viele verschiedene Testverfahren, die sich hinsichtlich Durchführung und Testqualität stark unterscheiden. Wir können im Rahmen dieser Vorlesung nur eine kleine Auswahl vorstellen. In diesem einleitenden Abschitt beschreiben wir die (grundsätzliche) Funktionsweise eines Hypothesentests.

Nullhypothese und Gegenhypothese[Bearbeiten]

Der erste Schritt eines Test besteht in der Formulierung der sogenannten Nullhypothese. Die Nullhypothese ist eine Aussage über die Verteilung einer ZV oder über ihre Parameter. Nun soll geprüft werden, ob die Nullhypothese durch die erhobenen Daten (z.B. eine Stichprobe) widerlegt werden kann (mit einer gewissen vorgegebenen Sicherheit) oder nicht. Es ist mit einem Hypothesentest nicht möglich, die Nullhypothese mit einer vorgegebenen Sicherheit zu bestätigen.

Wir bezeichnen die Nullhypothese mit . Die Gegenaussage nennt man dann Gegenhypothese, sie wird mit bezeichnet.

Beispiele I[Bearbeiten]

  • Es wird vorausgesetzt, dass eine ZV binomialverteilt ist. Die Trefferwahrscheinlichkeit ist dabei unbekannt. Man untersucht das Hypothesenpaar:
  • Es wird vorausgesetzt, dass eine ZV normalverteilt ist. Dabei sind und unbekannt. Man untersucht das Hypothesenpaar:

Beispiele II[Bearbeiten]

  • Bei einem Würfel (von dem man bezweifelt, dass er ein Laplace-Würfel ist) seien die (unbekannten) Wahrscheinlichkeiten für die Augenzahlen . Man untersucht das Hypothesenpaar:
  • Die ZV beschreibe das Gewicht von Hühnereieren. Man untersucht das Hypothesenpaar:
    ist normalverteilt
    ist nicht normalverteilt

Beispiele III[Bearbeiten]

  • Die ZV und beschreiben das Wahlverhalten von Männern bzw. Frauen. Man untersucht das Hypothesenpaar:

Parametrische Verfahren[Bearbeiten]

Man unterscheidet Parametrische und Nichtparametrische Verfahren:

  • Parametrische Verfahren: Dabei wird von Beginn an vorausgesetzt, dass eine bestimmte Verteilungsart vorliegt (etwa eine Binomialverteilung bzw. eine Normalverteilung). Die Nullhypothese macht dann eine Aussage über einen oder mehrere Parameter der Verteilung (etwa bzw. oder ).
    Liegt die angenommene Verteilungsart (auch näherungsweise) nicht vor, so wird dies vom Test nicht aufgedeckt. Der Test liefert dann möglicherweise unsinnige Resultate.

Nichtparametrische Verfahren[Bearbeiten]

  • Nichtparametrische Verfahren: Im Voraus werden keine Annahmen über die Art der Verteilung(en) gemacht. Der Test kann dann beispielsweise prüfen, ob eine bestimmte Verteilung oder Verteilungsart vorliegen kann oder ob die Daten mit einer ganz bestimmten Verteilung vereinbar sind.

Beispiel fehlerhafte Produkte und Trefferwahrscheinlichkeit[Bearbeiten]

Ein Hersteller behauptet, dass seine Maschine mit maximal ein fehlerhaftes Produkt herstellt. Dies entspricht der Nullhypothese bezüglich der Trefferwahrscheinlichkeit einer Binomialverteilung, die angibt, dass ein fehlerhaftes Produkt produziert wurde. Man führt Versuche durch und erhält dabei Treffer, d.h. ein fehlerhaftes Produkt. Es ist sinnvoll, die Nullhypothese abzulehnen, wenn klein ist, also zum Beispiel für . Die Eine Ablehnung bestärkt so die Aussage des Herstellers. Sollte man auch für oder ablehnen?

Signifikanzniveau[Bearbeiten]

Vor der Durchführung eines Tests wird ein Signifikanzniveau (z.B. ) und ein Testverfahren festgelegt. Erst danach werden die Daten gesichtet und man kommt (mit dem gewählten Verfahren) zu einer der folgenden Entscheidungen:

Ablehnen oder Nicht-Ablehnen der Nullhypothese I[Bearbeiten]

  • Die Nullhypothese ist (zum Signifikanzniveau ) abzulehnen. Es folgt die Annahme der Gegenhypothese. Falls man (aufgrund der gewählten Methode und den erhobenen Daten) die Nullhypothese ablehnen kann, spricht man von einem signifikanten Ergebnis.
  • Die Nullhypothese kann (zum Signifikanzniveau ) nicht abgelehnt werden.

Ablehnen oder Nicht-Ablehnen der Nullhypothese II[Bearbeiten]

Man beachte: Eine Nicht-Ablehnung der Nullhypothese bedeutet nicht ihre Annahme. In diesem Fall bleibt die Frage nach ihrer Gültigkeit offen. Mögliche Formulierungen des Testergebnisses sind in diesem Fall:

Es gibt auch Situationen, in denen der Anwender aufgrund der Vereinbarkeit der Daten mit der Nullhyothese vermutet, dass diese wahr ist, um mit den Daten weiterrechnen zu können. Dies ist eine Vermutung und keine Annahme der Nullhypothese im engeren Sinne.

Fehler erster und zweiter Art[Bearbeiten]

Da die Entscheidung bzgl. Ablehnung bzw. Nicht-Ablehnung der Nullhypothese auf den Daten basiert und diese vom Zufall abhängig sind, ist auch die Entscheidung vom Zufall abhängig.


Es können folgende Fehler auftreten:

Anmerkung zum Fehler zweiter Art[Bearbeiten]

Der -Fehler ist kein eigentlicher Fehler, da der Test in diesem Fall keine Aussage macht. Trotzdem möchte man ihn natürlich vermeiden.

Einhaltung des Signifikanzniveaus[Bearbeiten]

Zur Einhaltung des vorgegebenen Signifikanzniveaus ist die folgende zentrale Bedingung unbedingt einzuhalten:
Falls die Nullhypothese zutrifft, so wird sie höchstens mit der Wahrscheinlichkeit abgelehnt.
kurz: Falls wahr ist, ist garantiert:
oder: Die Wahrscheinlichkeit für einen -Fehler ist höchstens

Beispiel fehlerhafte Produkte und Trefferwahrscheinlichkeit Fortsetzung I[Bearbeiten]

Beispiel I[Bearbeiten]

Wir betrachten erneut die Nullhypothese für die Trefferwahrscheinlichkeit einer binomialverteilten ZV mit der Versuchszahl . Die Entscheidung bzgl. basiert auf der Trefferzahl . Wir untersuchen verschiedene (plausible) Varianten:

Man legt das Signifikanzniveau auf fest.

  • Bei einem Testverfahren soll die Nullhypothese für abgelehnt werden. Die Wahrscheinlichkeit einer Ablehnung von beträgt dann im Grenzfall :
    Falls gilt, ist
    Der Test hält also das Signifikanzniveau ein.
Beispiel II[Bearbeiten]
  • Bei einem Testverfahren soll die Nullhypothese für abgelehnt werden. Die Wahrscheinlichkeit einer Ablehnung von beträgt dann im Grenzfall :
    Falls gilt, ist
    Der Test hält also das Signifikanzniveau ein.
  • Bei einem Testverfahren soll die Nullhypothese für abgelehnt werden. Die Wahrscheinlichkeit einer Ablehnung von beträgt dann im Grenzfall :
    Der Test hält also das Signifikanzniveau nicht ein.

p-Wert und Teststatistik[Bearbeiten]

p-Wert I[Bearbeiten]

Bei vielen Testverfahren kann man den sogenannten -Wert zur Einschätzung des Testergebnisses heranziehen. Er entspricht dem minimalen Wert für das Signifikanzniveau , bei dem die Nullhypothese gerade noch abgelehnt wird.

Der -Wert ist eine Zahl , die aus den erhaltenen Daten berechnet wird (und damit vom Zufall abhängt). Er deutet an, wie glaubhaft es ist, diese Daten zu erhalten, wenn die Nullhypothese wahr ist (und damit umgekehrt, wie glaubhaft die Nullhypothese bei Erhalt dieser Daten ist).

p-Wert II[Bearbeiten]

Genauer gesagt, ist der -Wert eine (genauer gesagt die kleinstmögliche) Oberschranke für die Wahrscheinlichkeit, die erhaltenen Daten oder noch Extremere (d.h. Daten mit einem noch kleineren -Wert) zu erhalten, falls wahr ist. Hat man einen bestimmten -Wert erhalten, so weiß man:


Beispiel Interpretation p-Wert und H0 I[Bearbeiten]
  • Hat man aus den Daten einen konkreten -Wert bestimmt, so gilt:

Falls wahr ist, so war (vor der Datenerhebung) die Wahrscheinlichkeit einen solch kleinen (oder noch kleineren) p-Wert zu erhalten höchstens .
Dies ist kein besonders geringer Wert. Es kann daher durchaus sein, dass gilt. Der p-Wert und die damit verbundenen Daten sprechen nicht gegen (bzw. sind mit vereinbar).

Beispiel Interpretation p-Wert und H0 II[Bearbeiten]
  • Hat man aus den Daten einen konkreten -Wert bestimmt, so gilt:
    Falls wahr ist, so war (vor der Datenerhebung) die Wahrscheinlichkeit einen solch kleinen (oder noch kleineren) p-Wert zu erhalten höchstens .
    Falls wahr ist, wäre also ein unwahrscheinlicher Fall eingetreten. Der p-Wert und die damit verbundenen Daten sprechen also gegen .
Beispiel Interpretation p-Wert und H0 III[Bearbeiten]
  • Hat man aus den Daten einen konkreten -Wert bestimmt, so gilt:
    Falls wahr ist, so war (vor der Datenerhebung) die Wahrscheinlichkeit einen solch kleinen (oder noch kleineren) p-Wert zu erhalten höchstens .
    Falls wahr ist, wäre also ein extrem unwahrscheinlicher Fall eingetreten. Der p-Wert und die damit verbundenen Daten sprechen also stark gegen .
Ablehnung H0 zu gegebenem Signifikanzniveau[Bearbeiten]

Mit dem -Wert wird also angedeutet, wie extremdie erhaltenen Daten sind, wenn die Nullhypothese gilt: je kleiner der -Wert, desto unwahrscheinlicher ist das erhaltene Ergebnis, wenn wahr ist, und folglich umso mehr spricht das Ergebnis gegen die Nullhypothese. (Im Fall könnte man sicher sein, dass nicht gilt.)
\textbf{Merke:} Zu einem gegebenen Siginfikanzniveau lehnt man ab, wenn gilt:

Beispiel fehlerhafte Produkte und Trefferwahrscheinlichkeit Fortsetzung II[Bearbeiten]

Wir betrachten erneut das Beispiel in Bezug auf die Trefferwahrscheinlichkeit einer Binomialverteilung zur Versuchszahl :

  • Falls gilt, ist der ’extremste’ Wert für die Trefferzahl . Die Wahrscheinlichkeit, dass dieser Fall eintritt, beträgt und wird (falls wahr ist) maximal für , also:
    Bei der Trefferzahl ist der -Wert also .
Beispiel fehlerhafte Produkte und Trefferwahrscheinlichkeit Fortsetzung III[Bearbeiten]
  • Falls gilt, ist der ’zweitextremste’ Wert für die Trefferzahl . Die Wahrscheinlichkeit, dass dieser oder der (noch extremere) Fall eintritt, beträgt und wird (falls wahr ist) maximal für , also:
    Bei der Trefferzahl ist der -Wert also .
Beispiel fehlerhafte Produkte und Trefferwahrscheinlichkeit Fortsetzung IV[Bearbeiten]
  • Falls gilt, ist der ’nächstextremste’ Wert für die Trefferzahl . Die Wahrscheinlichkeit, dass dieser oder einer der (noch extremeren) Fälle oder eintritt, beträgt und wird (falls wahr ist) maximal für , also:
    Bei der Trefferzahl ist der -Wert also .
  • und so weiter
Beispiel fehlerhafte Produkte und Trefferwahrscheinlichkeit Fortsetzung V[Bearbeiten]

Man sieht, dass sich der -Wert einer Trefferzahl (bei dieser Methode) direkt durch berechnen lässt, also:


Für liegt dieser -Wert noch unter dem Signifikanzniveau . Daher kann man bei 4 Treffern noch ablehnen.
Für überschreitet der -Wert das Signifikanzniveau. Daher kann man bei 5 Treffern nicht mehr ablehnen.

Anmerkung p-Wert und Ablehnung H0[Bearbeiten]

Man beachte, dass die Anordnung der verschiedenen Werte von gemäß der Eigenschaft ’extrem’ im Allgemeinen willkürlich ist. Bei der betrachteten Nullhypothese besteht die einzige sinnvolle Möglichkeit aber darin, kleine Trefferzahlen als extrem einzustufen. (Wir werden aber auch noch andere Fälle betrachten, in denen diese Festlegung nicht so eindeutig ist und vorab festgelegt werden muss.)

p-Wert als zufällige Größe[Bearbeiten]

Der -Wert wird aus den (zufälligen) Daten ermittelt und ist daher selbst wieder eine zufällige Größe. Erhält man so einen bestimmten -Wert , so gilt immer die Bedingung

Teststatistik:[Bearbeiten]

Manche Tests benutzen eine sogenannte Teststatistik (oder Testfunktion) , um die Nullhypothese zu bewerten. Die Teststatistik wird aus den Daten (mit einer zuvor festgelegten, möglichst plausiblen) Methode berechnet (und hängt daher vom Zufall ab).

Dabei können hohe oder niedrige Werte der Teststatistik gegen sprechen. (Dies muss vorher festgelegt werden, ist aber im Zusammenhang mit der Idee der Teststatistik meist klar.)

Zusammenhang p-Wert und Teststatistik[Bearbeiten]

Aus der aus den erhaltenen Daten berechneten Teststatistik ergibt sich dann der -Wert wie folgt:

Niedrige Werte von T sprechen gegene H0[Bearbeiten]
  • Falls niedrige Werte von gegen sprechen:

Der p-Wert ist eine (genauer gesagt die kleinstmögliche) Oberschranke für die Wahrscheinlichkeit, die erhaltenen Daten oder noch Extremere (d.h. Daten mit einer noch kleineren Teststatistik) zu erhalten, falls wahr ist. Hat man eine bestimmte Teststatistik erhalten, so weiß man:

Hohe Werte von T sprechen gegene H0[Bearbeiten]
  • Falls hohe Werte von gegen sprechen:

Der p-Wert ist eine (genauer gesagt die kleinstmögliche) Oberschranke für die Wahrscheinlichkeit, die erhaltenen Daten oder noch Extremere (d.h. Daten mit einer noch größeren Teststatistik) zu erhalten, falls wahr ist. Hat man eine bestimmte Teststatistik erhalten, so weiß man:

Beispiel 1[Bearbeiten]
  • Bei der Nullhypothese für die Trefferwahrscheinlichkeit einer binomialverteilten ZV mit der Versuchszahl ist es sinnvoll, als Teststatistik einfach die Trefferzahl selbst zu wählen, wobei niedrige Werte von gegen sprechen.
Beispiel 2.1[Bearbeiten]
  • Man hat die Vermutung, dass bei einem Würfel nicht alle Zahlen mit der gleichen Wahrscheinlichkeit fallen. Man betrachtet daher die Nullhypothese

    (Dabei seien die Wahrscheinlichkeiten für die einzlenen Zahlen .)

    Nun sammelt man Daten: Dazu würfelt man -mal und erhält dabei absolute Häufigkeiten für die einzelnen Zahlen.

Beispiel 2.2[Bearbeiten]

Eine sinnvolle Methode in deser Situation basiert auf der folgenden (aus berechneten) Teststatistik:

Die Idee dabei ist, dass — falls gilt — die absoluten Häufigkeiten mit hoher Wahrscheinlichkeit alle nahe bei liegen. (Die Teststatistik berechnet sich aus den Abweichungen der von .)

Beispiel 2.3[Bearbeiten]

Es folgend einige Zahlenbeispiele mit konkreten Daten :

    • Liegen alle in der Nähe von , so ist klein, beispielsweise:


      Der -Wert berechnet sich daraus wie folgt:

    Beispiel 2.4[Bearbeiten]

    Anmerkung: Die Berechnung des p-Werts erfolgt hier näherungsweise mit Methoden, die an dieser Stelle noch nicht unmittelbar nachvollziehbar sind. (Genaueres hierzu folgt später bei der Behandlung von -Anpassungstests.)

    Die Daten sprechen nicht gegen die Nullhypothese.

    Beispiel 2.5[Bearbeiten]

    Falls einige der weit weg von liegen, so ist groß, beispielsweise:


    Der -Wert berechnet sich daraus wie folgt:

    Beispiel 2.6[Bearbeiten]

    Anmerkung: Die Berechnung des p-Werts erfolgt hier näherungsweise mit Methoden, die an dieser Stelle noch nicht unmittelbar nachvollziehbar sind. (Genaueres hierzu folgt später bei der Behandlung von -Anpassungstests.)

    Diese Daten sprechen sehr stark gegen die Nullhypothese.


Man sieht: Je größer die Teststatistik ist, desto kleiner ist der -Wert und desto stärker sprechen die Daten gegen .

Allgemeine Anmerkungen zu Hypothesentests[Bearbeiten]

Hier noch einige Anmerkungen zu Hypothesentests im Allgemeinen:

Allgemeine Anmerkungen zu Hypothesentests I[Bearbeiten]

  • Zu einem gegebenem Signifikanzniveau ist eine Nullhypothese genau dann abzulehnen, wenn der -Wert ist.

Zu einer korrekten Vorgehensweise gehört es allerdings, das Signifikanzniveau vor der Datenerhebung festzulegen (es darf nicht im Nachhinein gleich oder etwas größer als der -Wert festgesetzt werden).

Der -Wert liefert Anhaltspunkte zur Beurteilung der Nullhypothese, die über die reine Frage nach der Ablehnung hinausgehen.

Allgemeine Anmerkungen zu Hypothesentests II[Bearbeiten]

  • Beispiel: Für und kann man zwar nicht ablehnen, das Ergebnis ist aber im Hinblick auf die Gültigkeit der Nullhypothese dennoch ziemlich unwahrscheinlich.
  • Es ist nicht zulässig, die Nullhypothese erst nach einem Blick auf die Daten auszuwählen. Dann könnte man nämlich eine bestimmte (möglicherweise rein zufällige) Auffälligkeit in den Daten ausnutzen, um ein signifikantes Ergebnis zu erhalten. Da es bei manchen Datenmengen viele denkbare Nullhypothesen gibt, wäre die Wahrscheinlichkeit, dass man auf diese Art und Weise ein signifikantes Ergebnis erhält, deutlich erhöht (und damit größer als übliche Signifikanzniveaus).

Allgemeine Anmerkungen zu Hypothesentests III[Bearbeiten]

  • Die Nullhypothese sollte also immer vor der Datenerhebung formuliert werden. Sie sollte idealerweise im Zusammenhang mit einer begründeten Vermutung stehen, diese kann dann mit dem Hypothesentest ggf. statistisch bestätigt werden.

  • In vielen Situationen stehen mehrere Testverfahren zum Überprüfen einer bestimmten Nullhypothese zur Verfügung. Diese liefern dann auch verschiedene -Werte. Zu einer korrekten Vorgehensweise gehört es, das benutzte Verfahren vor der Datenerhebung auszuwählen (und nicht im Nachhinein eines mit einem geringen -Wert auszuwählen).

Allgemeine Anmerkungen zu Hypothesentests IV[Bearbeiten]

  • In wissenschaftlichen Zeitschriften werden oft bevorzugt signifikante Ergebnisse veröffentlicht. Dies kann zu folgendem Problem führen: Falls gilt, ist ein signifikantes Ergebnis bei einer einzelnen Untersuchung unwahrscheinlich. Andererseits ist es bei einer Vielzahl von Studien (zum selben Forschungsgegenstand) die Wahrscheinlichkeit, dass einige (wenige) signifikante Ergebnisse entstehen, deutlich erhöht (und damit größer als übliche Signifikanzniveaus). Wenn nur die signifikanten Ergebnisse veröffentlicht werden, kann ein fehlerhaftes Bild entstehen. Diese Problematik ist unter dem Begriff Publikationsbias bekannt.

Seiteninformation[Bearbeiten]

Diese Lernresource können Sie als Wiki2Reveal-Foliensatz darstellen.

Wiki2Reveal[Bearbeiten]

Dieser Wiki2Reveal Foliensatz wurde für den Lerneinheit Kurs:Statistik für Anwender' erstellt der Link für die Wiki2Reveal-Folien wurde mit dem Wiki2Reveal-Linkgenerator erstellt.