Zum Inhalt springen

Top10FAIR ToDe2710

Aus Wikiversity

Was ist FAIR?

[Bearbeiten]

FAIR ist ein Überblick über 10 Themen, die für Geschichtswissenschaftler, die ihre Daten unter Rücksichtsnahme der "FAIR Prinzipien" veröffentlichen wollen, essentiell ist. In Geschichtswissenschaften bestehen Daten meist aus: Datenbanken, Textsammlungen, Bildern, Interviews, Tonaufnahmen oder Videometerialien.

FAIR Bedeutung

[Bearbeiten]

FAIR steht für Findable, Accessible, Interoperable, Reusable

Findable

[Bearbeiten]

Um sicherzustellen, dass Datensätze gefunden werden können, sollten Wissenschaftler ihre Datensätze und Metadaten in einem Repositorium hinterlegen, welches permanente Identifikatoren vergibt.

Die ersten 3 FAIR Abschnitte: "Thing 1: Data repositories", "Thing 2: Metadata", "Thing 3: Persistent identifiers" beschreiben, wie so etwas möglich ist und geben Informationen zu diesem Abschnitt.

Thing 1 gibt einige Beispiele für Repositorien an, die Datensätze im Bereich Geschichte zulassen. Thing 2 erklärt kurz Metadaten und das bestimmte Metadaten für Repositorien benötigt werden und somit die Auffindbarkeit verbessern. Thing 3 hebt nochmal hervor, wie wichtig es ist, dass Permanente Identifikatoren für die eigenen Datensätze zugewiesen werden. Erwähnte Identifikatoren sind: URI(Uniform Resource Identifier), DOI(Digital Object Identifier) und ORCID(Open Researcher and Contributor Identifier)

Accessible

[Bearbeiten]

Thing 4: Open Data behandelt, dass Daten und Metadaten per Identifier und über standardisierte Kommunikationsprotokeolle gefunden werden können. Dies heißt jedoch nicht automatisch Open Access, sondern nur, dass jeder, der einem bestimmten Protokoll folgt, Zugriff auf die Daten erlangen kann.

Interoperable

[Bearbeiten]

Thing 5: Data structuring and organisation, dieser Abschnitt beschäftigt sich mit Vorlagen zur einheitlichen Datenstrukturierung. Häufig verwendet werden sogenannte "Spreadsheets", Vorgaben zu diesen und den dazugehörigen Datenwörterbüchern, welche Spreadsheets erklären, werden hier angegeben.

Der 6. Abschnitt: Thing 6: Controlled vocabularies and ontologies gibt 5 Level von Open Data an, in denen Wissenschaftler ihre Datensätze hochladen können: 1. Level: Datensätze sind öffentlich, 2. Level: Datensätze sind maschinenlesbar, 3. Level: Datensätze wurden als "open format"(txt, csv) gespeichert, 4. Level: Entitäten haben permanente Identifikatoren, 5. Level: Daten werden zu Entitäten in anderen Datensätzen verlinkt. Die ersten 3 Level können mit Thing 6 bestanden werden. Es wird hervorgehoben, dass geteilte Vokabulare und Onthologien sehr wichtig für das Verständnis der Datensätze sind, dazu werden einige Beispiele genannt.

Thing 7: FAIR data modelling, mit diesem Abschnitt können die letzten 2 Level bestanden werden. Dafür sollte man die Datensätze im RDF-Format speichern, da Eigenschaften und Properties permanente Identifikatoren, in diesem Fall URIs, zugewiesen bekommen. Zusätzlich wird noch auf die RDF-Tripel-Struktur eingegangen und es wird erwähnt, dass bestehende Datensätze mit einem Tool nach RDF konvertiert werden können.

Reusable

[Bearbeiten]

Thing 8: Licensing schneidet kurz das Thema Lizensierung an und warum man seine Daten lizensieren sollte.

Thing 9: Data citation geht kurz auf die Zitation von Daten ein und welche grundlegenden Angeben enthalten sein müssen.

Context (extra)

[Bearbeiten]

Thing 10: Policies beschäftigt sich mit den Regeln für Datenverfügbarkeit und verweist auf "FAIRsharing", ein Repositorium für Standards, Regeln und Datenbanken.

Aufgaben

[Bearbeiten]

Aufgabe 1

[Bearbeiten]

Study the data set that can be found via https://doi.org/10.17026/dans-zw3-fkxb.

How can the dataset be downloaded? Which formats are available?


Es gibt 3 Reiter: bei "Overview" gibt es eine Vorlage zum Zitieren und eine Zusammenfassung des Inhaltes.

Bei "Description" gibt es umfangreiche Metadaten, diese Metadaten können im CSV oder XML-Format heruntergeladen werden.

Der dritte Reiter "Data Files" beinhaltet die Dateien für den Datensatz, die Dateien haben das TXT-Format, können jedoch nur nach einem Login heruntergeladen werden.

Aufgabe 4

[Bearbeiten]

Consider the following three articles.

To what extent can the data sets that are mentioned in the articles be accessed?

Are the data sets also in preferred formats?


Auf den ersten Artikel kann voll zugegriffen werden, die Daten sind einsehbar. -> Open Data

Der Text selber kann als PDF(nicht PDF/A ?) heruntergeladen werden, die Daten und Figuren können als CSV heruntergeladen werden. -> Preferred Data bei Figuren und Daten


Auf den zweiten Artikel kann ebenfalls voll zugegriffen werden, die Daten sind einsehbar. -> Open Data

Der Text kann als PDF(nicht PDF/A ?) heruntergeladen werden, die Daten und Figuren können als TIFF und PNG heruntergeladen werden. -> Preferred Data bei Figuren und Daten


Auf den dritten Artikel kann man nicht zugreifen, ohne vorher einen Zugang gekauft zu haben. -> Closed Data

Der Text kann als PDF(nicht PDF/A ?) heruntergeladen werden, auf die Daten und Figuren kann man nicht zugreifen. -> Non-preferred Data


Look at the data set that can be found via https://doi.org/10.17026/dans-x5u-usxj. What is needed to access the data?

Man benötigt eine bewilligte Zugriffsanfrage, für einen Zugriff auf den Datensatz.