Kurs:Top10FairZusammenfassung

Description - Historical Research

Das Dokument "Top 10 Fair Data & Software Things" bietet einen Überblick über zehn bedeutsame Themen, die für Wissenschaftler der historischen Forschung wichtig sind, wenn diese ihre Datensätze nach Fair-Grundsätzen veröffentlichen wollen. Forschungsdaten bestehen in der historischen Forschung meist aus Datenbanken (z.B. Tabellenkalkulationen, Datenbanken), Textkorpora, Bildern, Interviews, Tonaufnahmen oder Videomaterial.

Data Repositories

Data Repositories ermöglichen Forschern, Datensätze zu teilen. Folgende Daten Repositories akzeptieren Datensätze aus dem Bereich "History":

DANS EASY
Figshare
Zenodo
B2SHARE

Metadaten

Nachdem ein bestimmtes Data Repository ausgewählt wurde, kann der Datensatz zusammen mit den Metadaten übermittelt werden. In diesem Fall handelt es sich bei Metadaten um Daten, die den Datensatz näher beschreiben. Hierbei werden Merkmale wie Qualität, Format und Inhalt beschreiben. Die meisten Repositories fordern einen Mindestsatz an Metadaten (z. B. den Namen des Erstellers, den Titel und das Erstellungsjahr). Das Erschließen von Metadaten hilft dabei, Datasets später besser aufzufinden. Die Erfassung von Metadaten verfolgt dabei einem bestimmten Schema.

Fragen

Warum benötigt nicht jedes Repository einen Mindestsatz an Metadaten?

Persistente Identifier

Datensätze müssen in Repositories hinterlegt werden, die persistente Kennungen (PIDs) zuweisen. Dies ist wichtig, damit sichergestellt werden kann, dass Online-Verweise auf Veröffentlichungen, Forschungsdaten und Personen auch zukünftig verfügbar sind. Eine PID ist eine Art URI (Uniform Resource Identifier). DOIs werden hauptsächlich von akademischen Zeitschriften genutzt. DOIs sind global eindeutige Kennungen.(Ermöglicht dauerhaften Zugriff auf z.B. Veröffentlichungen oder andere Forschungsdaten.) DOI ist seit 2012 ISO Standard. PIDs hingegen sind Erkennungen, die für Personen erstellt werden. Der Open Researcher and Contributor Identifier (ORCID) hingegen ist ein internationales System zur dauerhaften Identifizierung akademischer Autoren.

Open Data

Daten und Metadaten müssen laut FAIR-Grundsätzen anhand ihrer Kennung unter Verwendung eines standardisierten Kommunikationsprotokolls abrufbar sein. Im Großen und Ganzen ist damit gemeint, dass es ein Protokoll geben muss, dem Benutzer folgen können, um den Datensatz zu erhalten. Denn es gibt auch viele Gründe, um den Zugriff einzuschränken (z.B. Datenschutzbestimmungen). Die Zugänglichkeit zu den Daten kann erschwert werden, wenn diese im proprietären Format gespeichert wurden (Format, das ausschließlich einem Unternehmen gehört).

Datenstrukturierung und -organisation

Gut strukturierte und organisierte Daten werden eher wiederverwendet, zudem ist die Wiederverwendung einfacher. Zusammenfassend wird unter diesem Punkt erklärt, wie Forscher Daten so organisieren können, sodass sie mit datenwissenschaftlichen Tools effektiv analysiert werden können. Da viele Historiker Daten in Tabellenkalkulationen erfassen, haben Broman und Woo erläutert, was bei der Arbeit mit Tabellenkalkulationen beachtet werden muss. Dazu gehören z.B. folgende Punkte:

• (Fach)terminologie sollte konsequent genutzt werden • Leere Zellen in der Tabelle sollten vermieden werden uvm. (Eindruck: Hierbei handelt es sich um sehr viele Punkte, Umsetzung ist nicht einfach und umfangreich.)

Kontrolliertes Vokabular und Ontologien

Ersteller von Daten können fünf Sterne verdienen, indem sie die folgenden Schritte befolgen. (Tim Berners-Lee) 1. Ein Stern, wenn das Data Set veröffentlicht wurde. Hiermit sind vor allem Veröffentlichungen gemeint, die über eine offene Lizenz in einem Data Repository veröffentlicht wurden. 2. Zweiter Stern: Als maschinenlesbare Daten zur Verfügung stellen. (z.B. durch Zugriff auf Excel-Tabelle) 3. Der dritte Stern, wenn für Datensätze als offenen Formate wie .csv oder .txt erfasst werden. 4. Vierter Stern, wenn die Entitäten im Datensatz anhand persistenter Bezeichner identifiziert werden. (Zur effektiven Verknüpfung mit anderen Datensätzen) 5. Fünfter Stern, wenn die Daten über PIDs mit Entitäten in anderen Datensätzen verknüpft werden.

FAIR Datenmodellierung

Der 4. und 5. Punkt aus Berners-Lees Modell bezieht sich darauf, dass Daten im RDF-Format (Resource Description Framework) aufgezeichnet werden sollen. RDF ist eine Technologie mit der Inhalte einer Datenbank über das Web veröffentlicht werden können. Datensätze, die bereits bestehen, können mit FAIRifier-Software in RDF konvertiert werden.

Lizenzierung

Die Lizenzierung befasst sich mit der Frage unter welchen Bedingungen die Daten oder die Software (wieder)verwendbar sind.

Eindruck: Dass Auswählen der richtigen Lizenz, scheint nicht einfach zu sein. Das Unterstützung angeboten wird, halte ich für sinnvoll.

Zitation der Daten

Falls Daten genutzt werden, die nicht von einem selbst stammen, muss dies vermerkt werden. Datensätze und Softwareanwendungen können auf dieselbe Weise zitiert werden wie z.B. Artikel und Monographien. Unabhängig vom Zitierstil müssen folgende Angaben gemacht werden: Autoren, das Jahr, den Titel, den Herausgeber und eine dauerhafte Kennung.

Richtlinien

Die Richtlinien der Datenverfügbarkeit stammen z.B. von Verlagen, Geldgebern und Universitäten. Richtlinien sind auf der jeweiligen Website zu finden. FAIRsharing ist ein Repository für Standards, Datenbanken und Richtlinien. Dieses Repository bietet die Möglichkeit, Informationen für eine bestimmte Forschungsdomäne zu filtern.

Aufgaben

Aufgabe 1

Study the data set that can be found via https://doi.org/10.17026/dans-zw3-fkxb. How can the dataset be downloaded? Which formats are available?

Bei dem verlinkten Datensatz handelt es sich um "ANGLO-AFRICAN TRADE", 16-99-1808. Die Beschreibung kann als .xml und .csv heruntergeladen werden. Die hinterlegten Dateien aus der Ordnerstruktur können als .txt heruntergeladen werden.

Aufgabe 10

1. Start by going to FAIRsharing 2. Click on the blue “Policies” button at the top 3. In the left side menu under “Subjects”, click on “show more” and select “Humanities”. 4. Scroll down to the Taylor and Francis Data Policy 5. Which databases and standards are mentioned in this policy? 6. Go to the specific policy for the “European Review of History” journal. 7. Does it differ from the general Taylor and Francis policy? 8. Try to find the data policy for your favorite journal.

a) Databases

4TU.Centre for Research Data
Code Ocean
Dryad
FAIRsharing
figshare
Harvard Dataverse
Mendeley Data
Open Science Framework
re3data
Research Data Australia
Zenodo

Standards

Digital Object Identifier
The FAIR Principles

b) Das "European Review of History" Journal befolgt die Taylor & Francis Basic Data Sharing Policy.

Annmerkung/Eindrücke

Die zehn vorgestellten Leitlinien sind sehr umfangreich und benötigen viel Zeit und Arbeit für ihre Umsetzung. Jedoch scheinen diese sinnvoll zu sein, da der Umgang mit verschiedenen Datensätzen vereinfacht wird. Besonders positiv finde ich das Sterne-Modell zum Thema Datenstrukturierung und -organisation, wobei Punkt 4 und 5 doch sehr komplex wirken.