Data Science

Aus Wikiversity

Einleitung[Bearbeiten]

Data Science (von englisch data „Daten“ und science „Wissenschaft“, im Deutschen auch Datenwissenschaft) bezeichnet generell die Extraktion von Wissen aus Daten, um daraus zu lernen.[1][2]

Data Science ist ein interdisziplinäres Wissenschaftsfeld, welches wissenschaftlich fundierte Methoden, Prozesse, Algorithmen und Systeme zur Extraktion von Erkenntnissen, Mustern und Schlüssen sowohl aus strukturierten als auch unstrukturierten Daten ermöglicht.[3][4]

Erweitert um die zentrale Bedeutung der Datenerfassung unserer Welt (siehe auch DIKW-Pyramide nach Kellerhey und Tierney[5]) und die Visualisierung gewonnener Informationen[6] beschäftigt sich Data Science mit der „exakten digitalen Erfassung, Analyse und Visualisierung vergangener, aktueller sowie zukünftiger Phänomene unserer realen Welt, um datengetrieben den Prozess der Wissensgenerierung als bestmögliche Entscheidungsbasis für menschliches Handeln zu optimieren.“[7]

Kurzer historischer Abriss[Bearbeiten]

Kurzer historischer Abriss I[Bearbeiten]

Die moderne Definition von Data Science wurde erstmals im Rahmen des zweiten japanisch-französischen Statistiksymposiums an der Universität Montpellier II (Frankreich) im Jahr 1992 entworfen.[8] Die Teilnehmer würdigten die Entstehung einer neuen Disziplin mit einem besonderen Fokus auf Daten aus verschiedenen Herkünften, Dimensionen, Typen und Strukturen. Sie prägten die Kontur dieser neuen Wissenschaft, die auf etablierten Konzepten und Prinzipien der Statistik und Datenanalyse basiert, unter weitgehender Nutzung der zunehmenden Macht der Computerwerkzeuge.

Kurzer historischer Abriss II[Bearbeiten]

Im November 1997 gab C. F. Jeff Wu den Eröffnungsvortrag mit dem Titel „Statistik = Datenwissenschaft?“[9] für seine Ernennung zum H. C. Carver Professor of Statistics an der University of Michigan.[10] In diesem Vortrag charakterisierte er die statistische Arbeit als eine Trilogie von Datenerfassung, Datenmodellierung und -analyse und die Entscheidungsfindung. Abschließend rief er den Begriff „Datenwissenschaft“ ins Leben und befürwortete, dass die Statistik in „Datenwissenschaft“ und Statistiker in „Datenwissenschaftler“ umbenannt werden.[9]

Kurzer historischer Abriss III[Bearbeiten]

2001 führte William S. Cleveland die Datenwissenschaft als eigenständige Disziplin in seinem Artikel „Data Science: An Action Plan for Expanding the Technical Areas of the Field of Statistics“ ein. In seinem Bericht stellte Cleveland sechs für ihn umfassende Gebiete der Datenwissenschaft vor: multidisziplinäre Untersuchungen, Modelle und Methoden für Daten, Rechnen mit Daten, Pädagogik, Werkzeug-Bewertung und Theorie.

Kurz darauf begann die Columbia University 2003 die Zeitschrift „The Journal of Data Science“[11] zu veröffentlichen, welche eine Plattform für alle Datenanbieter zur Verfügung stellte, um ihre Ansichten und Ideen zum Austausch zu präsentieren. Die Zeitschrift wurde größtenteils der Anwendung von statistischen Methoden und der quantitativen Forschung gewidmet.

Kurzer historischer Abriss IV[Bearbeiten]

2005 veröffentlichte das National Science Board den Bericht „Long-lived Digital Data Collections: Enabling Research and Education in the 21st Century“, in welchem unter dem Begriff Data Scientists verschiedene Experten aufgeführt werden, die von entscheidender Bedeutung für das erfolgreiche Management digitalen Daten sind. Genannt werden unter anderem Informatiker, Datenbankexperten, Programmierer, Domänenexperten, Bibliothekare, Archivare sowie Experten im Bereich Software Engineering. Als Teil der Verantwortlichkeiten von Data Scientists wird insbesondere die Entwicklung innovativer Konzepte in den Bereichen Datenbanktechnologie und Informationswissenschaft betont. Hierunter fallen auch Methoden der Informationsvisualisierung, Datenanalyse und Wissensentdeckung in Datenbanken.[12]

Ausbildung[Bearbeiten]

Der Studiengang Data Science verwendet Techniken und Theorien aus den Fächern Mathematik, Statistik und Informationstechnologie, einschließlich der Signalverarbeitung, verwendet Wahrscheinlichkeitsmodelle des maschinellen Lernens, des statistischen Lernens, der Programmierung, der Datentechnik, der Mustererkennung, der Prognostik, der Modellierung von Unsicherheiten und der Datenlagerung.

Berufsfeld[Bearbeiten]

Personen, die im Bereich Data Science arbeiten, werden als Data Scientist bzw. Datenwissenschaftler bezeichnet, wobei meist speziellere oder Spezialisierungen anderer, übergeordneter Berufsbezeichnungen üblich sind (z. B. Statistiker, Informatiker).

Weltweit besteht ein Mangel an Experten in dem Bereich der Data Science.[13][14]

Anforderungen I[Bearbeiten]

Ein Data Scientist sollte überzeugend und kreativ sein, aber auch ein gewisses Kommunikationstalent mitbringen, um sich mit verschiedenen Ebenen einer Organisation austauschen zu können. Er ist das Bindeglied und der Vermittler zwischen allen Ebenen eines Unternehmens und nimmt somit die Rolle des „Übersetzers“ ein, indem er die Ergebnisse für die einzelnen Fachabteilungen genauso verständlich aufbereitet wie für das Top Management. Zudem sollte ein Data Scientist aufgeschlossen genug sein, um neue Analysetools und innovative Analyseverfahren zu erforschen und zu nutzen.

Anforderungen II[Bearbeiten]

Unvoreingenommen sollte ein Data Scientist nach anderen Ansätzen suchen wollen und immer neue Fragen stellen. Zusätzlich setzt dieser Beruf ein gewisses Koordinationstalent voraus, nicht zuletzt weil bestimmte Aufgaben, wie zum Beispiel die Beschaffung der Daten, an andere Mitarbeiter delegiert werden können. Kontrolle und Steuerung sollten jedoch immer in der Hand des Data Scientisten bleiben.[15]

Aufgabenbereich[Bearbeiten]

Die Aufgabe eines Data Scientist ist es, aus großen Datenmengen Informationen zu generieren und Handlungsempfehlungen abzuleiten, die das Unternehmen befähigen, effizienter zu arbeiten. Dazu bedient er sich innovativer Analysetools und entwickelt Abfragen, die aus unübersichtlichen Datenmengen wertvolle Informationen destillieren. Anschließend werden Hypothesen abgeleitet, welche statistisch überprüft und für das Management als Entscheidungsgrundlage aufbereitet werden.

Wirtschaft[Bearbeiten]

In allen Wirtschaftszweigen werden heute große Datenmengen ausgewertet. Der Mangel an Data Scientists macht es für Unternehmen schwierig, die Daten richtig zu nutzen und konkret Erkenntnisse daraus zu ziehen. Daten werden als das „neue Gold“ gehandelt. Zudem ist der Markt an Spezialisten, die mit Datenarchitekturen und Datenmodellen umgehen können, fast nicht existent.[16]

Auch in der Logistikbranche werden zukünftig immer mehr Data Scientists gesucht.

Eine weitere Branche ist die Gesundheitsbranche. Durch die genaue Analyse von Daten aus einem Krankenhausaufenthalt könnten individualisierte Behandlungen (Personalisierte Medizin) durch Ähnlichkeitsanalysen von Patientendaten abgeleitet und Medikationspläne optimiert werden.

In der Handelsbranche kann das Kaufverhalten der Menschen analysiert werden, um im weiteren Verlauf die Ursachen für Retouren herauszuarbeiten. So kann die Anzahl an Warenrücksendungen reduziert werden.

Siehe auch[Bearbeiten]

Literatur[Bearbeiten]

Weblinks[Bearbeiten]

Einzelnachweise[Bearbeiten]

  1. Dhar, V. (2013): Data science and prediction. Communications of the ACM 56 (12): 64. doi:10.1145/2500499
  2. Jeff Leek (12. Dezember 2013): The key word in „Data Science“ is not Data, it is Science. Simply Statistics.
  3. Vasant Dhar: Data Science and Prediction | December 2013 | Communications of the ACM. In: acm.org. Dezember 2013, archiviert vom Original am 1. März 2017; abgerufen am 19. Juni 2018 (englisch).
  4. The key word in „Data Science“ is not Data, it is Science · Simply Statistics. In: simplystatistics.org. 12. Dezember 2013, abgerufen am 6. Februar 2022 (englisch).
  5. Kelleher, J. und Tierney, B. 2018. Data Science. MIT Press, Seite 55.
  6. Colin Ware, 2021. Information Visualization. Elsevier, Seite 4.
  7. Neue Dimensionen in Data Science, Was ist Data Science? 23. September 2022, abgerufen am 22. September 2022.
  8. Escoufier et al., editors: Data Science and its Application. Academic Press, Tokyo 1995, ISBN 0-12-241770-4, [ Preface] (englisch, Vorlage:Cite book/URL [abgerufen am -05-]).Vorlage:Cite book/URL
  9. 9,0 9,1 Wu, C. F. J. (1997): Statistics = Data Science?. Abgerufen am 9. Oktober 2014.
  10. Identity of statistics in science examined. The University Records, 9. November 1997, The University of Michigan. Abgerufen am 12. August 2013.
  11. The Journal of Data Science. (2003, January). Contents of Volume 1, Issue 1, January 2003. Abgerufen von Journal of Data Science (Memento vom 5. März 2016 im Internet Archive)
  12. National Science Board: Long-Lived Digital Data Collections Enabling Research and Education in the 21st Century, National Science Foundation, abgerufen am 7. Juli 2016.
  13. Große Nachfrage nach Data Scientists. In: derstandard.at. 26. Februar 2015, abgerufen am 13. Mai 2022 (österreichisches Deutsch).
  14. Mathias Brandt: Infografik: Traumberuf Data Scientist. In: statista.com. 19. Februar 2015, abgerufen am 13. Mai 2022.
  15. Data Scientists – Die begehrtesten Alleskönner des 21. Jahrhunderts (Memento vom 28. Februar 2015 im Internet Archive), capgemini.com vom 20. Januar 2014, abgerufen am 28. Februar 2015.
  16. Steigender Bedarf an Data Scientists | Presseinformation | Bitkom e.V. Abgerufen am 16. Januar 2023.

Diese Lernressource zu Data Science in der Wikiversity hat das Ziel, ...

Ethischer[Bearbeiten]

Die Zielgruppe der Lernressource zum Thema Data Science ist

Die Zielgruppen der Lernressource zum Thema Data Science sind

  • Studierende im Fach
  • Schüler:innen im Fach

Aufgaben für Lernende / Studierende[Bearbeiten]

Mit den folgenden Aufgaben zum Thema Data Science werden

Literatur/Quellennachweise[Bearbeiten]


Siehe auch[Bearbeiten]

Seiteninformation[Bearbeiten]

Diese Lernresource können Sie als Wiki2Reveal-Foliensatz darstellen.

Wiki2Reveal[Bearbeiten]

Dieser Wiki2Reveal Foliensatz wurde für den Lerneinheit Kurs:Statistik für Anwender' erstellt der Link für die Wiki2Reveal-Folien wurde mit dem Wiki2Reveal-Linkgenerator erstellt.