Zum Inhalt springen

Kurs:Statistik für Anwender/Streumaße

Aus Wikiversity

Streumaße

[Bearbeiten]

Ein Streumaß eines Merkmals gibt an, wie stark die Beobachtungswerte ’verteilt’ sind. Manche Streumaße berechnen sich aus der Abweichung der Beobachtungswerte vom Mittelwert.

Spannweite

[Bearbeiten]

Ist ein quantitatives Merkmal mit der Grundgesamtheit , so nennt man
die Spannweite von .

Beispiel Spannweite

[Bearbeiten]

(vergleiche Beispiele Modalwert)

  • Beispiel I (Verkehrsmittel): Bildung der Spannweite macht hier keinen Sinn
  • Beispiel II (Versuchspflanzen):
  • Beispiel III (Daphnien):

Anmerkung zur Spannweite

[Bearbeiten]

Die Spannweite hängt nur von den beiden extremen Merkmalsausprägungen ab und nutzt daher nur einen sehr kleinen Teil der vorhandenen Informationen.

Berechnung der Spannweite in R

[Bearbeiten]

In R: Man erstellt einen Vektor daten mit den Daten der Urliste und kann dann mit max(daten)-min(daten) die Spannweite berechnen.

p-Quantile

[Bearbeiten]

Definition p-Quantile I

[Bearbeiten]

Ist ein mindestens nach einer Ordinalskala verteiltes Merkmal mit dem Merkmalsraum und ist eine Zahl, so heißt eine Merkmalsausprägung -Quantil, falls:

(Man schreibt für ein -Quantil des Merkmals .)

Definition p-Quantile II

[Bearbeiten]
  • Der Anteil der Beobachtungswerte,die sind, ist höchstens .
  • Der Anteil der Beobachtungswerte, die sind, ist mindestens .

Das heißt: Durch die Hinzunahme der einen Merkmalsausprägung (zu denen, die kleiner sind) erreicht oder überschreitet der Anteil der Beobachtungswerte den Wert . (Der Median ist ein -Quantil.)

Berechnung p-Quantile

[Bearbeiten]

Ist die geordnete Datenreihe zu , so gilt

  • Ist , so ist das einzige -Quantil. (Dabei bezeichnet (zu ) die größte ganze Zahl, die ist.)
  • Ist , so sind und die einzigen -Quantile. (Für quantitative Merkmale bezeichnet man in diesem Fall oft auch als das -Quantil.)

Beispiele p-Quantile

[Bearbeiten]

(vergleiche Beispiele Modalwert)

Beispiel Versuchspflanzen I
[Bearbeiten]

Bei einer Gruppe von Versuchspflanzen der selben Art wird das Wachstum der Sprossachse (in cm) gemessen, man erhält folgende Urliste:


Bei 23 Werten ist

  • das -Quantil der -te, Beobachtungswert, also
  • das -Quantil der -te, Beobachtungswert, also
Beispiel Versuchspflanzen II
[Bearbeiten]
  • das -Quantil der -te, Beobachtungswert, also
Beispiel Daphnien
[Bearbeiten]

Bei 50 Daphnien wird die Anzahl der Nachkommen erhoben. Man erhält die folgenden absoluten Häufigkeiten:


Bei 50 Werten ist

Berechnung p-Quantile in R

[Bearbeiten]

In R: Man erstellt einen Vektor daten mit den Daten der Urliste und kann dann mit quantile(daten,,type=2) das -Quantil berechnen.

Quartil und Perzentil

[Bearbeiten]

Man nennt die Quantile auch 1., 2. und 3. Quartil von . Zusätzlich bezeichnet man die Extremwerte und als 0. und 4. Quartil von . Außerdem bezeichnet man ein (das) -Quantil (für ) auch als -tes Perzentil. Für quantitative Merkmale bezeichnet man die Differenz als -Quantilsabstand, insbesondere heißt Quartilsabstand.

Boxplots

[Bearbeiten]

Mit Hilfe der Quantile lassen sich verschiedene informative grafische Darstellungen für Merkmale erstellen, die insbesondere zum Vergleich von Merkmalen gut geeignet sind. Eine verbreitetes Beispiel dafür sind die sogenannten Boxplots, die in verschiedenen Varianten auftreten.

Erstellung von Boxplots I

[Bearbeiten]

Für ein quantitativ verteiltes Merkmal geht man dabei beispielsweise wie folgt vor:

  • Die Skala nach der das Merkmal verteilt ist, wird eingezeichnet.
  • Eine Box wird eingetragen, die vom 1. bis zum 3.Quartil reicht. Auf Höhe des 2. Quartils wird die Box durch einen Trennstrich in 2 Teile geteilt. (Variante: Der Trennstrich wird auf Höhe des arithmetischen Mittelwerts eingetragen.)

Erstellung von Boxplots II

[Bearbeiten]
  • An beiden Enden der Box werden die sogenannten Whiskers (Fühler, Antennen) angetragen. Sie reichen (von der Box) bis zum 0-ten bzw. 4-ten Quartil, also bis zu dem minimalen bzw. maximalen Beobachtungswert. (Variante: Die Länge der Whiskers wird durch die 1,5-fache Länge des Quartilsabstand beschränkt. Werte außerhalb der Whiskers werden noch durch einzelne Punkte dargestellt. Damit verhindert man, das einzelne ’Ausreißer’ die Whiskers massiv beeinflussen.)

Vorraussetzung an Skala

[Bearbeiten]

Boxplots eignen sich nicht für Merkmale, die nur nach einer Ordinalskala verteilt sind. In dem Fall lassen sich zwar die Quartile sinnvoll definieren, aber die Einzeichnung der Skala suggeriert bestimmte Abstände zwischen den Beobachtungswerten (dies ist erst bei einer Intervallskala sinnvoll). Bei zu kleiner Datenmenge ist zu beachten, dass einzelne Beobachtungswerte einen Boxplot sehr stark beeinflussen.

Beispiele Boxplot

[Bearbeiten]

(vergleiche Beispiele Modalwert)

Beispiel Versuchspflanzen
[Bearbeiten]

Es ist:

image

Beispiel Daphnien
[Bearbeiten]

Es ist:

image

Erstellung Boxplot in R

[Bearbeiten]

In R: Man erstellt einen Datenvektor daten und erhält dann mit boxplot(daten,range=0) (für eine unbeschränkte Länge der Whiskers) bzw. boxplot(daten,range=1.5) (für Whiskers, die auf die -fache Länge der Box beschränkt sind) einen Boxplot.

Histogramm und Boxplot

[Bearbeiten]

Interaktive Shiny-App zum Vergleich Histogramm und Boxplot:
Download und Link

Perzentilbänder

[Bearbeiten]

Eine weitere Darstellungsart sind die sogenannten Perzentilbänder. Wie bei Boxplots kann man darin bestimmte Quantile (Perzentile) ablesen. Perzentilbänder können auf vielfältige Art und Weise gestaltet werden.

Beispiel Perzentilband

[Bearbeiten]

Die unteren 5% der Schüler erreichen weniger als 300 Punkte,die oberen 5% mehr als 650 Punkte.Die mittleren 50% der Schüler (25-75%) liegen zwischen 420 und 580 Punkten.Im Mittel wird ein Leistungsniveau von 500 Punkten erreicht.


image

Varianz und Standardabweichung

[Bearbeiten]

Definition Varianz und Standardabweichung

[Bearbeiten]

Ist ein quantitatives Merkmal, so heißt

(empirische) Varianz von und (empirische) Standardabweichung von .
(Man schreibt häufig für die Varianz von .)

Sind die Merkmalsausprägungen von , so gilt

Beispiele Varianz und Standardabweichung I
[Bearbeiten]

(vergleiche Beispiele Modalwert)

  • Beispiel II (Versuchspflanzen): Es ist und und folglich .
  • Beispiel III (Daphnien): Es ist und und folglich .

Weitere Formel zur Berechnung von s x

[Bearbeiten]

Zur Berechnung von eignet sich die Formel:

Beispiele Varianz und Standardabweichung II
[Bearbeiten]

In obigem Beispiel II (Versuchspflanzen) ist

Varianz und lineare Verknüpfung

[Bearbeiten]

Für ein quantitatives Merkmal und gilt:

Beispiel Varianz und lineare Verknüpfung
[Bearbeiten]

Wir betrachten das Beispiel der Temperaturangaben aus Beispiel Linearität des Mittelwerts. Dabei war . Man berechnet:

  • Die empirische Standardabweichung eines Merkmals ist die Wurzel aus der mittleren quadratischen Abweichung vom Mittellwert. Die Betrachtung der quadratischen Abweichung hat zur Folge, dass Ausreißer (Beobachtungswerte, die weit entfernt vom Mittlwert liegen) besonders stark gewichtet werden.

    Berechnung in R I

    [Bearbeiten]

    In R: Man erstellt einen Vektor daten mit den Daten der Urliste und kann dann mit mean(daten^2)-mean(daten)^2 die Varianz beziehungsweise mit sqrt(mean(daten^2)-mean(daten)^2) die Standardabweichung berechnen.

    Berechnung in R II

    [Bearbeiten]

    Alternativ kann man mit var(daten) die sogenannte korrigierte Stichprobenvarianz

    und mit sd(daten) die Wurzel daraus, also

    berechnen. (Die Berechnung dieses Ausdrucks macht in der schließenden Statistik Sinn, siehe Vorlesung ’Statistik für Anwender II’.)

    Aufgabe I

    [Bearbeiten]

    Gegeben Sei die Grundgesamtheit aller Kinder von Ehepaaren ():


    • Berechnen Sie für das Merkmal "Zahl der Geschwister" den Modalwert, den Median, den arithmetischen Mittelwert.
      Hinweis: Bestimmen Sie zunächst die möglichen Merkmalsausprägungen und ihre absoluten Häufigkeiten.
    • Bestimmen Sie die Spannweite, Varianz und Standardabweichung sowohl für die Anzahl der Kinder als auch für die Anzahl der Geschwister.

    Aufgabe II

    [Bearbeiten]

    In einem Versuch zum Wachstum der Sprossachse einer bestimmten Art werden die folgenden Werte in mm ermittelt:
    8, 2, 15, 16, 7, 11, 4, 19, 11, 12, 13, 9, 5, 6, 8, 13, 6, 14, 17, 8

    • Bestimmen Sie Median, Modalwert und arithmetisches Mittel.
    • Bestimmen Sie die Spannweite, Varianz und Standardabweichung.
    • Berechnen Sie die absoluten und relative Häufigkeit zur Klassierung mit den folgenden Grenzen:
      Berechnen Sie dann auch die Häufigkeitsdichten und erstellen Sie ein Histogramm.

    Standardisierte Merkmale

    [Bearbeiten]

    Definition standardisiertes Merkmal

    [Bearbeiten]

    Ein (quantitatives) Merkmal heißt standardisiert, falls und ist.

    Normalerweise treten bei Beobachtungen praktisch nie standardisierte Merkmale auf. Man kann aber jedes Merkmal mit einer einfachen Transformation standadisieren. Es gilt: Ist ein quantitatives Merkmal, so ist
    ein standardisiertes Merkmal. Man nennt standardisiertes Merkmal zu .

    Anmerkung standardisiertes Merkmal I

    [Bearbeiten]

    Für einen Merkmalsträger entspricht dem Unterschied von und dem Mittelwert von gemessen in Standardabweichungen. Man beachte:


    Beispiel standardisiertes Merkmal 1

    [Bearbeiten]

    (vergleiche Beispiele Modalwert)

    • Beispiel II (Versuchspflanzen):
      • Es ist und .
      • Ist ein Spross mit , so ist . Damit ist der Spross um Standardabweichungen größer als das arithmetische Mittel aller Sprossen aus der untersuchten Grundgesamtheit.
      • Ist ein Spross mit , so ist . Damit ist der Spross um Standardabweichungen kleiner als das arithmetische Mittel aller Sprossen aus der untersuchten Grundgesamtheit.

    Beispiel standardisiertes Merkmal 2

    [Bearbeiten]
      • Ist ein Spross mit , so ist . Damit ist der Spross um Standardabweichungen größer als das arithmetische Mittel aller Sprossen aus der untersuchten Grundgesamtheit.
    • Beispiel III (Daphnien):
      • Es ist und . Für eine Daphnie mit gilt . Die Kinderzahl der Familie ist also um Standardabweichungen größer als der Durchschnitt (arithmetisches Mittel) aller Familien aus der untersuchten Grundgesamtheit.


    Anmerkung standardisiertes Merkmal II

    [Bearbeiten]

    Für mit gilt

    Aufgabe 1.1

    [Bearbeiten]

    Zwei Speerwerfer und absolvieren jeweils eine Trainingsserie und erzielen dabei die folgenden Weiten:





    • Berechnen Sie jeweils den Median und den arithmetischen Mittelwert.
    • Berechnen Sie jeweils die Spannweite, die empirische Varianz und die empirische Standardabweichung.

    Aufgabe 1.2

    [Bearbeiten]
    • Beide waren der Meinung, dass ihr letzter Wurf besonders gut war. Benutzen Sie die standardisierten Merkmale und , um dies zu beurteilen.

    Aufgabe 2

    [Bearbeiten]

    Diskutieren Sie: Wie wirkt sich das Vergrößern des Datensatzes auf die die verschiedenen Lage- und Streuungsmaße aus?

    Seiteninformation

    [Bearbeiten]

    Diese Lernresource können Sie als Wiki2Reveal-Foliensatz darstellen.

    Wiki2Reveal

    [Bearbeiten]

    Dieser Wiki2Reveal Foliensatz wurde für den Lerneinheit Kurs:Statistik für Anwender' erstellt der Link für die Wiki2Reveal-Folien wurde mit dem Wiki2Reveal-Linkgenerator erstellt.