Kurs:Top10Fair

Aus Wikiversity

Inhalte aus "Top 10 Fair Data & Software Things"[Bearbeiten]

Humanities: Historical Search[Bearbeiten]

  • In der historischen Forschung bestehen Forschungsdaten meist aus Datenbanken (Spreadsheets, relationale Datenbanken), Textkorpora, Bildern, Interviews, Tonaufnahmen oder Videomaterialien
  • Damit Datensätze gefunden werden können, müssen die Datensätze mit dazugehörigen Metadaten in einem Repository hinterlegt werden, welche persistente Identifikationen zuweist

Datenrepositories[Bearbeiten]

  • Folgende Repositories akzeptieren Datensätze aus dem historischen Bereich: DANS EASY, Figshare, Zenodo, B2SHARE
  • Repositories, die die CoreTrustSeal-Kriterien erfüllen, gewährleisten eine dauerhafte Auffindbarkeit der Daten
  • Frage: Was versteht man unter dem CoreTrustSeal-Kriterium genau?

Metadaten[Bearbeiten]

  • Metadaten sind Daten über Daten
  • Die meisten Repositories erfordern einen minimalen Satz an Metadaten (wie Namen, Titel und Jahr der Erstellung)
  • Metadaten werden mit einem festen Schema erfasst (vorgegeben vom Repository)

Persistenter Identifikator[Bearbeiten]

  • Datensätze müssen auf persistente Identifikatoren (PID) zuweisen, damit Online Verweise auch in Zukunft verfügbar sind
  • PID als bestimmter Typ einer URI
  • Akademische Zeitschriften arbeiten meistens mit DOIs
  • DOI: weltweit einziger Identifikator, der dauerhaften Zugriff ermöglicht
  • DOI seit 2012 ISO-Standard
  • PIDs können auch für Personen erstellt werden
  • Open Researcher and Contributor Identifier (ORCID): internationals System zur dauerhaften Identifizierung wissenschaftlicher Autoren

Open Data[Bearbeiten]

  • FAIR-Grundsätze besagen, dass Daten und Metadaten zugänglich sein sollten (ein Protokoll, welchem Benutzer folgen können, um den Datensatz zu erhalten)
  • Viele Gründe, den Zugriff einzuschränken
  • Daten sind manchmal in einem proprietären Format gespeichert
  • DANS-EASY arbeitet deshalb z.B. mit einer Liste bevorzugter Formate
  • Viele Historiker erfassen Daten in Tabellen
  • Es gibt wichtige Prinzipien beim Arbeiten in Tabellen: konsequente Arbeit, Leere Zellen vermeiden, keine Farben verwenden und einige mehr
  • Wenn ein Datenmodell entwickelt ist, sollte man ein Daten-Wörterbuch anlegen, welches das Modell dokumentiert

Kontrolliertes Vokabular und Ontologie[Bearbeiten]

  • Es gibt 5 Ebenen offener Daten (laut Tim Berners-Lee), 5 Sterne können verdient werden
  • 1 Stern: Datensatz wurde veröffentlicht (Bsp. via open license)
  • 2 Stern: Daten als maschinenlesbare Daten (Bsp. durch Zugriff auf Excel Tabelle)
  • 3 Stern: Anstelle von Excel offene Formate wie CSV oder TXT
  • 4 Stern: wenn die Entitäten mittels PID identifiziert werden
  • 5 Stern: wenn die Daten mittels PIDs mit Entities anderer Datensätze verknüpft sind
  • Durch RDF und PIDs können Datensätze noch weiter verbessert werden
  • Historische Forschung konzentrieren sich meistens auf Menschen, Veranstaltungen, Organisationen und weiteres
  • Es gibt Ontologien und gemeinsame Vokabulare, die sich auf solche Entitäten beziehen, wie z.B. The CIDOC Conceptual Reference Model

FAIR Datenmodellierung[Bearbeiten]

  • 4. Und 5. Stern: wenn die Daten in einem Format gespeichert sind, in dem die Themen, Eigenschaften etc. mit URIs identifiziert werden
  • Daten also mit RDF aufzeichnen
  • RDF ermöglicht es den Inhalt einer Datenbank über das Web zu veröffentlichen
  • Einfaches Datenmodell, das davon ausgeht, dass alle Aussagen auf ein Subjekt, Prädikat und Objekt gekürzt werden können (auch Triple genannt)
  • FAIR Datenmodell ist eine grafische Darstellung an Daten
  • Bestehende Datensätze können mit der FAIRifier-Software in RDF konvertiert werden

Lizenzierung[Bearbeiten]

  • Lizenz beschreibt die Bedingungen, unter denen die Daten verwendbar sind
  • Copyright-Experte kann bei der Wahl der richtigen Lizenz helfen

Daten Zitation[Bearbeiten]

  • Wenn Daten anderer Ersteller verwendet werden, müssen diese zitiert werden
  • Datenzitate erhalten i.d.R. Autor, Jahr, Titel, Verlag, persistente Kennung

Policies[Bearbeiten]

  • Richtlinien können von Verlagen, Geldgeber und Universitäten ausgehen
  • Richtlinien sind auf der jeweiligen Webseite aufgelistet
  • FAIRsharing ist ein Repository für Standards, Datenbanken, Richtlinien

Aufgaben[Bearbeiten]

1. Aufgabe[Bearbeiten]

Study the data set that can be found via https://doi.org/10.17026/dans-zw3-fkxb. How can the dataset be downloaded? Which formats are available?

Datensatz: Anglo-African trade, 1699 - 1808 Folgende Informationen sind enthalten:

  • Zitation
  • Metadaten: Titel, Ersteller, PID (URN und DOI), Beschreibung, Erscheinungsjahr

Beschreibung des Datensatzes:

  • Zahlen über den Handel zwischen England und Afrika im Zeitraum 1699 - 1808
  • verschiedene Handelsströme werden aufgeführt
  • Datensatz wurde zu Forschungszwecken erstellt
  • der ursprüngliche Datensammler war M. Johnson, nach seinem Tod ging die Dokumentation an das NHDA

Download

  • Download der Beschreibung als CSV oder XML möglich
  • die hinterlegten Dateien können als .txt Datei heruntergeladen werden, dafür ist ein Login jedoch erforderlich

2. Aufgabe[Bearbeiten]

1. Start by going to FAIRsharing 2. Click on the blue “Policies” button at the top 3. In the left side menu under “Subjects”, click on “show more” and select “Humanities”. 4. Scroll down to the Taylor and Francis Data Policy 5. Which databases and standards are mentioned in this policy? 6. Go to the specific policy for the “European Review of History” journal. 7. Does it differ from the general Taylor and Francis policy? 8. Try to find the data policy for your favorite journal.


Screenshot Policies von Taylor and Francis Data

Publizieren in allen Bereichen der Geistes-, Sozial-, Verhaltens-, Natur-, Technik- und Medizin.

Databases:

  • 4TU.Centre for Research Data
  • Code Ocean
  • Dryad
  • FAIRsharing
  • figshare
  • Harvard Dataverse
  • Mendeley Data
  • Open Science Framework
  • re3data
  • Research Data Australia
  • Zenodo

Policies:

  • Digital Object Identifier
  • The FAIR Principles

Die “European Review of History” Zeitschrift wendet die Taylor & Francis Basic Data Sharing Policy an.