Kurs:Statistik für Anwender/Darstellung eindimensionaler Merkmale

Aus Wikiversity

Darstellung eindimensionaler Merkmale[Bearbeiten]

Urliste[Bearbeiten]

Für ein Merkmal mit einer Grundgesamtheit bezeichnet man die tabellarische Darstellung


als Urliste des Merkmals. Die Urliste enthält alle Informationen des Merkmals, diese sind allerdings nicht geordnet. Auch die Auflistung der Beobachtungswerte

bezeichnet man als Urliste (Kurzform).


der Beobachtungswerte die geordnete Datenreihe.


Beispiel Urliste und geordnete Datenreihe[Bearbeiten]

In einer Klassenarbeit erhielten die Schüler einer Klasse folgende Noten (Urliste):

Daraus ergibt sich die geordnete Datenreihe:

Absolute und relative Häufigkeiten[Bearbeiten]

Für ein Merkmal mit einer Grundgesamtheit bezeichnet man zu einer Merkmalsausprägung

  • die natürliche Zahl

    als absolute Häufigkeit der Merkmalsausprägung .
  • den Quotienten

    als relative Häufigkeit der Merkmalsausprägung .

Ist , so gilt

Beispiel absolute und relative Häufigkeiten[Bearbeiten]

In obigem Beispiel der Noten der Schüler ist

Verschiedene einfache Diagramme[Bearbeiten]

Die folgenden Darstellungen sind schon bei nominalskalierten Merkmalen geeignet:

  • Säulen- bzw. Balkendiagramm: Absolute oder relative Häufigkeiten werden als Höhe von Säulen bzw. Balken dargestellt.
  • Kreisdiagramm: Relative Häufigkeiten werden als Anteile eines Kreises (in Form eines Sektors dargestellt). Der Winkel des Sektors zu einer Merkmalsausprägung beträgt dabei .
  • Stapeldiagramm: Relative Häufigkeiten werden als Flächen in einer Rechtecksäule dargestellt.

Beispiel Kreisdiagramm[Bearbeiten]

In obigem Beispiel ergeben sich das folgende Kreisdiagramm:

image

Beispiel Säulendiagramm[Bearbeiten]

Und das folgende Säulendiagramm

image

Erstellung Kreis- und Säulendiagramm in R[Bearbeiten]

In R: Man trage die möglichen Merkmalsausprägungen und die zugehörigen absoluten Häufigkeiten in Vektoren ein, z.B.

note c(”1” , ”2” , ”3” , ”4” , ”5” ,”6”)

und

anzahl c(3,6,7,4,3,1) und kann dann mit pie(anzahl,note) ein Kreisdiagramm und barplot(anzahl,names.arg=note) ein Säulendiagramm erstellen.

Klassierung von Daten[Bearbeiten]

Um Ergebnisse übersichtlich darzustellen und um bestimmte Sachverhalte hervorzuheben, ist es oft notwendig/sinnvoll die Merkmalsausprägungen in bestimmten Gruppen (Klassen) zusammenzufassen. Damit können die Daten weniger fein aber hinreichend informativ dargestellt werden. (Was hinreichend ist, hängt vom Verwendungszweck und der Darstellung der Daten ab.)

Klasseneinteilung[Bearbeiten]

Für ein Merkmal mit einer Grundgesamtheit kann man auch eine Klassierung (oder Klasseneinteilung) vornehmen. Dazu unterteilt man die Menge der möglichen Ausprägungen in verschiedene (überschneidungsfreie) Klassen. Jede Merkmalsausprägung ist damit in genau einer Klasse enthalten.

Klassenhäufigkeit[Bearbeiten]

Zu jeder Klasse betrachtet man nun ihre absolute und ihre relative Häufigkeit:


Sind die verschiedenen Klassen, so gilt:

Da dabei Informationen verloren gehen, sollte man bei der Einteilung der verschiedenen Klassen im Hinblick auf Verwendungszweck und Informationsgehalt sehr sorgfältig sein bzw. klassierte Daten mit Bedacht zur Kenntnis nehmen.

Beispiel Klassierung I[Bearbeiten]

Das folgende Säulendiagramm stellt die relativen Häufigkeiten der Zweitstimmenanteile der Parteien bei der Bundestagswahl 2009 dar:



Hierbei wurden CDU und CSU (eine Fraktion) zu einer Klasse zusammengefasst (aber noch farblich getrennt) und alle Parteien, die weniger als 5% der Stimmen erreicht haben, zu der Klasse ’Sonstige’ zusammengefasst.

Beispiel Klassierung II[Bearbeiten]

Der Hamburger Sportverein (HSV) erzielte in der Fußball-Bundesliga in 20 aufeienanderfolgenden Spielzeiten die folgenden Platzierungen (Urliste):

Säulendiagramme zu zwei (mit besonderer Absicht gewählten) Klassierungen:

Beispiel Klassierung IIa[Bearbeiten]

Klassen mit Plätze 1-5, Plätze 6-9, Plätze 10-13, Plätze 14-18:

image

Beispiel Klassierung IIb[Bearbeiten]

Klassen mit Plätze 1-2, Plätze 3-6, Plätze 7-10, Plätze 11-18

image

Auswahl von Klassen I[Bearbeiten]

Für die Auswahl von Klassen gibt es viele Möglichkeiten. Je nach Auswahl der Klassen kann das präsentierte Ergebnis (obgleich es stets der Wahrheit entspricht) sehr unterschiedliche Wirkung haben.

  • Um eine gewisse Objektivität zu gewährleisten, sollte die Einteilung in die verschiedenen Klassen vor der Datenerhebung geschehen. Will man nachträglich noch eine Veränderung der Klassen vornehmen, sollte man dies inhaltlich begründen können.
  • Eine Fautsregel besagt, dass bei untersuchten Merkmalsträgern, die Zahl der Klassen etwa sein sollte. Dies ist sicher nicht in allen Fällen sinnvoll, kann aber ein Anhaltspunkt sein.

Auswahl von Klassen II[Bearbeiten]

  • Bei quantitativen Merkmalen ist die Entscheidung, ob man Intervalle gleicher oder verschiedener Länge als Klassen verwenden will, zu treffen und nach Möglichkeit inhaltlich zu begründen.

Die Frage nach der Einteilung der Klassen lässt sich in allgemeinem Rahmen nicht mathematisch ableiten. Man muss sie daher im Einzelfall ’mit gesundem Menschenverstand’ angehen.

Histogramm[Bearbeiten]

Bildung von Klassen[Bearbeiten]

Wir betrachten nun ein quantitatives (d.h. mindestens nach einer Intervallskala verteiltes) Merkmal mit Grundgesamtheit . Nimmt man dabei Klassierungen vor, so ist es (meist) sinnvoll die Klassen als (halboffene) Intervalle zu wählen. Man wählt dazu zunächst Intervallgrenzen


derart dass alle möglichen Merkmalsausprägungen liegen (dabei kann auch und/oder gewählt werden) und betrachtet dann die Klassen:

Klassenhäufigkeit[Bearbeiten]

Dann gehört jede Merkmalsausprägung zu genau einer der Klassen und man kann jeder Klasse eine absolute Häufigkeit und eine relative Häufigkeit zuordnen.

Klassenhäufigkeitsdichte[Bearbeiten]

Weiterhin betrachtet man zu jeder Klasse die jeweilige Klassenbreite (Intervalllänge) und ermittelt daraus die Häufigkeitsdichte innerhalb von . Die Funktion

heißt Häufigkeitsdichtefunktion von bezüglich der Klassierung . Ihren Graphen bezeichnet man als Histogramm.

Beispiel Histogramm[Bearbeiten]

Gegeben sei folgende Urliste eines Merkmals (mit ):


Wir betrachten die folgenden durch Intervallgrenzen gegebenen Klassierungen:

Beispiel Klassierung I[Bearbeiten]

image

Beispiel Klassierung II[Bearbeiten]

image

Anmerkungen Histogramm I[Bearbeiten]

  • Anstatt hätte man auch Intervalle der Form betrachten können.
  • Die Fläche des -ten Rechtecks im Histogramm beträgt

    Da sich die relativen Häufigkeiten zu summieren, beträgt die Summe der Flächeninhalte aller Rechtecke eines Histogramms stets . Anders formuliert:

Anmerkungen Histogramm II[Bearbeiten]

  • Die Auswahl der Klassen als Intervalle macht bereits Sinn, wenn ein Merkmal nach einer Ordinalskala verteilt ist. Die Betrachtung von Klassenbreiten (und damit auch das Erstellen von Histogrammen) ist jedoch erst bei Merkmalen sinnvoll, die mindestens nach einer Intervallskala verteilt sind.

Histogramm in R[Bearbeiten]

In R: Man erstellt einen Vektor mit den Daten der Urliste, also z.B.


sowie einen Vektor mit den Intervallgrenzen, also z.B.

und kann dann mit

ein Histogramm erstellen.

Aufgabe Histogramm[Bearbeiten]

Zur Bestimmung des Reproduktionsverhaltens unter Stress werden die Nachkommen einer Daphnienzucht gewogen. Man erhält folgende Urliste (in mg):




Aufgabe Histogramm Fortsetzung[Bearbeiten]

  1. Berechnen Sie die absoluten und relativen Häufigkeiten zu der durch die folgenden Grenzen ergebenden Klassierung:
    Berechnen Sie dann auch die Häufigkeitsdichten und erstellen Sie ein Histogramm.
  2. Verfahren Sie analog für die (gröbere) Klasseneinteilung mit den Grenzen

.

Seiteninformation[Bearbeiten]

Diese Lernresource können Sie als Wiki2Reveal-Foliensatz darstellen.

Wiki2Reveal[Bearbeiten]

Dieser Wiki2Reveal Foliensatz wurde für den Lerneinheit Kurs:Statistik für Anwender' erstellt der Link für die Wiki2Reveal-Folien wurde mit dem Wiki2Reveal-Linkgenerator erstellt.