Kurs:Statistik

Dieser Kurs gehört zum Fachbereich Betriebswirtschaftslehre.

Einführung in die Allgemeinheit der Statistik

Statistik ist die Lehre vom Umgang mit (meist großen) Datenmengen. Sie stellt die Verknüpfung zwischen Empirie (Erfahrung) und Theorie (Erklärung) dar. Die Statistik behandelt daher eine Vielzahl von Methoden, die Daten zu analysieren.

Das Wort Statistik stammt von lateinisch statisticum „den Staat betreffend“ und italienisch statista „Staatsmann“ oder „Politiker“. Die deutsche Statistik, eingeführt von Gottfried Achenwall 1749, bezeichnete ursprünglich die „Lehre von den Daten über den Staat“. Im 19. Jahrhundert hatte der Schotte John Sinclair das Wort erstmals in seiner heutigen Bedeutung des allgemeinen Sammelns und Auswertens von Daten benutzt.

Teilgebiete der Statistik

Die Statistik wird üblicherweise aufgeteilt in die Teilgebiete:

Deskriptive Statistik,
Induktive Statistik und
Explorative Statistik.

Die deskriptive Statistik (auch beschreibende oder empirische Statistik) beschäftigt sich überwiegend mit der Beschreibung und Darstellung von Daten. Dazu werden Kennzahlen wie die Lageparameter Mittelwert und Median sowie Streuungsmaße wie Standardabweichung und Spannweite ermittelt, die Daten sortiert und gruppiert sowie Diagramme unterschiedlicher Art erzeugt. Im Mittelpunkt steht damit die Bescheibung der Verteilung eines Merkmals.

Die induktive Statistik (auch mathematische, schließende oder Inferenzstatistik) behandelt Methoden, die den Schluss von einer Stichprobe auf die Allgemeinheit zulassen. Grundlegend ist hier der Begriff der Wahrscheinlichkeit, der in der Wahrscheinlichkeitsrechnung begründet wird. Als Ergebnis erhält man dann Aussagen darüber, mit welcher Sicherheit eine Abweichung nicht zufällig ist. Gesucht werden damit die Eigenheiten (das Besondere) der Verteilung eines Merkmals.

Die explorative Statistik (auch analytische Statistik oder Data-Mining) untersucht Verfahren zur Generierung von Hypothesen. Sie ist eine zunehmend an Bedeutung gewinnende Zwischenform aus deskriptiver und induktiver Statistik. Mit Hilfe ihrer Verfahren werden aus einer meist großen Datenmenge Hinweise auf bisher nicht vermutete Zusammenhänge (Hypothesen) gesucht und bewertet.

Geschichte der Statistik

Die moderne Statistik entstand aus verschiedenen historischen Entwicklungen^[1], die im Laufe des 19. und 20. Jahrhunderts zu der heutigen Statistik zusammengewachsen sind. Insbesondere die Teilung der Statistik in eine deskriptive und eine induktive Statistik spiegelt diese historische Entwicklung wider.

Amtliche Statistik

Die Anfänge der amtlichen Statistik reichen bis weit vor Christi Geburt zurück. Die ersten amtlichen Statistiken waren Volkszählungen (Ägypten zirka 3050 v. Chr., in der Stadt Mari in Mesopotamien zirka 1700 v. Chr., China zirka 1000 v. Chr.). Im alten Griechenland gab es zumindest in Athen Bürgerregister, Register zur Bevölkerungsbewegung, Einfuhrlisten zollpflichtiger Waren (wie Importe von Getreide) und Vermögenskataster. Bei römischen Volkszählungen wurden die Bürger und ihr Vermögen erfasst.

In Deutschland fand die erste Volkszählung 1449 in Nürnberg statt. Die Stadtverwaltung wollte die Bevölkerung und Vorräte erfassen, um zu entscheiden, ob man Flüchtlinge aus dem Markgrafenkrieg noch in die Stadt lassen konnte oder nicht. Den Anfang mit umfangreichen (amtlichen) statistischen Erhebungen machte der französische Staatsmann Colbert 1665 mit der Einrichtung einer Handelsstatistik. 1801 wurde in Frankreich die erste allgemeine Volkszählung durchgeführt.

In Preußen wurden seit 1683 auf Anordnung des Kurfürsten Friedrich Wilhelm Bevölkerungsstatistiken (Geburten, Eheschließungen und Todesfälle) erstellt und im Lauf der Zeit erweitert: 1719 der Hausbestand und Kommunalfinanzen, 1778 der Viehbestand, Aussaat, Getreidepreise, Flachs- und Tabakanbau, Fabriken, Hütten- und Bergwerke, Schifffahrt und Handel. Andere deutsche Staaten und Städte zogen nach, so Bayern im Jahre 1771 mit der Dachsbergschen Volksbeschreibung. Seit der Errichtung des Statistischen Amtes des Deutschen Reiches 1872 wird in Deutschland eine gesamte amtliche Statistik geführt. Auch in Österreich wurde 1753 durch Maria Theresia eine erste Volkszählung durchgeführt.

Im Gegensatz zu heutigen Ergebnissen der amtlichen Statistik wurden die erstellten Statistiken nicht veröffentlicht und galten als Staatsgeheimnisse.

Universitätsstatistik

Unabhängig von der amtlichen Statistik hat sich die sogenannte Universitätsstatistik, ein inzwischen kaum mehr geläufiger Begriff für die beschreibende Staats- und Länderkunde, entwickelt. Das Sammelwerk des Italieners Sansovino (1562) ist eine erste Auflistung der Regierungsformen von zwanzig Staaten. Ähnliche Werke entstanden unter anderem von dem Italiener Botero (1589), dem Franzosen d'Avitys (1616) und dem Niederländer de Laet (1624-1640). Der Hauptvertreter der Universitätsstatistik in Deutschland war der Statistiker Achenwall.

Die amtliche Statistik diente der Verwaltung und der Unterstützung von Regierungs- oder Verwaltungsentscheidungen. Die Universitätsstatistik sollte mehr eine allgemeine Informationsquelle für Staatsmänner sein und enthielt anfangs nur textuelle Beschreibungen. Dazu gehörten Regierungsform, Gesetzesbestimmungen und Einzeltatsachen, eben „Staatsmerkwürdigkeiten“ im Sinne von des Merkens würdig. Erst später kamen tabellarische Aufstellungen hinzu, wie bei Büsching. Die Universitätsstatistiker haben jedoch selbst keine Erhebungen durchgeführt, sondern durch den Zugang zu den amtlichen Statistiken diese bearbeitet und veröffentlicht.

Politische Arithmetik

Erst die politischen Arithmetiker begannen, nach Gesetzmäßigkeiten in den Daten zu forschen. Dies hatte ihren Ursprung in den populärer werdenden Tontinen, einer Art Rentenversicherung. Der Engländer Graunt analysierte 1660 Geburts- und Sterbelisten und wollte allgemeine Gesetzmäßigkeiten über das Geschlechterverhältnis, das Verhältnis von Sterbe- und Geburtsfällen, Sterbehäufigkeiten finden. Der englische Statistiker und Ökonom Petty übertrug diese Art von Analyse auf Wirtschaftsdaten. Der Hauptvertreter der politischen Arithmetiker in Deutschland ist der Statistiker Süßmilch mit seinem Werk Die Göttliche Ordnung in den Verhältnissen des menschlichen Geschlechts, aus der Geburt, dem Tode und der Fortpflanzung desselben erwiesen von 1741.

Diese Art von Statistiken hatte auch Einfluss auf philosophische Fragen, beispielsweise zur Existenz des freien Willens des Individuums. Quetelet stellte fest, dass die Zahl der Eheschließungen in belgischen Städten geringere Abweichungen vom Durchschnitt zeigt als die Zahl der Todesfälle. Und das, obwohl der Zeitpunkt der Eheschließung dem freien Willen unterliegt und der Todeszeitpunkt (in der Regel) nicht.

Wahrscheinlichkeitsrechnung

Aus Betrachtungen von Glücksspielen entstand die moderne Wahrscheinlichkeitsrechnung. Als Geburtsstunde der Wahrscheinlichkeitsrechnung gilt der Briefwechsel zwischen Pascal und Fermat im Jahr 1654. Das Fundament der modernen Wahrscheinlichkeitsrechnung wurde mit dem Erscheinen von Kolmogorovs Lehrbuch Grundbegriffe der Wahrscheinlichkeitsrechnung im Jahr 1933 abgeschlossen.

Grafische Analysen

Was für verschiedene Verfahren werden im Grundstudium vermittelt?

Die grundlegenden Verteilungen in den Wirtschaftswissenschaften

Testverfahren

Hypothesentests

Der t-Test

Der t-Test dient dem Testen von Hypothesen, welche die Erwartungswerte von zwei oder mehr normalverteilten Grundgesamtheiten betreffen. Es handelt sich um einen parametrischen Test, d.h. er wird unter der Annahme der Normalverteilung angewendet.

Beispiele

Dieser Test wird sehr oft angewendet, wenn zwei Stichproben schnell überprüft werden sollen:
Gibt es einen Unterschied zwischen den beiden Datensätzen?
Beipiel 1: Während eines Fertigungsprozesses erfolgt ein Schichtwechsel. Der Fertigunsleiter fragt sich nun, ob denn beide Mitarbeiter gleiche "Leistungen" erbringen. Der bloße Vergleich des Fertigungs-Outputs lässt keinen Unterschied erkennen.
Inhaltlich macht der Test nichts anderes als die Mittelwerte zu vergleichen.
Generell gilt wohl:
Sind für zwei Stichproben die Mittelwerte gleich, so liegt eine große Wahrscheinlichkeit vor, dass die unabhängige x Variable keinen Einfluss auf die abhängige Y Variable hat.

Beispiel 2: Die Bundesregierung überlegt im Januar 2009 intensiv, wie kann nach der "Rettung" der Banken nun die nächste gefährdete Gruppe - die Unternehmen des produzierenden und verarbeiteten Gewerbes - vor dem finanziellen Kollaps geschützt werden.
Einfach gesprochen: Kann x (Koalition) durch Sicherungsmaßnahmen, ähnlich den Hermesbürgschaften, die Situation der deutschen Unternehmen verbessern (gemessen durch gestiegene Auftragslage).

Formel kann dies in etwa so aussehen: Der Datensatz 1 gibt die Auftragslage im November 2008 wieder und der Datensatz 2 steht für die Auftragslage im November 2009. Dies macht Sinn, da ein Vergleich unterschiedlicher Monate nicht wirklich der Realität entspricht. Vergleicht die Regierung/ das Wirtschaftsministerium zum Beispiel den November 2008 mit dem März 2009, so sieht man sofort ein, dass es sich im Falle eines Anstiegs der Auftragslage um die "alt bekannte Frühjahrsbelebung" handelt. Anmerkung: Es bleibt zu hoffen, dass kein Politiker diesen Zusammenhang im Super-Wahlkampf 2009, so formulieren wird.

Die Hypothesen im Beispiel 2 lauten:
$Ho:$ Es gibt keinen Unterschied zwischen den Datensätzen (µ $0=$ µ $1$ ).
$H1:$ Die Bundesregierung hat die richtigen Maßnahmen eingeleitet.