OpenKnowledge2020/10FAIR Software-Data-Things

Top10FAIR Data & Software Things: Erkenntnisse + Fragen

FAIR-Daten sind Forschungsdaten, wenn sie die den Grundprinzipien der Auffindbarkeit, Zugänglichkeit, Interoperabilität und Wiederverwendbarkeit entsprechen.
Die im Text genannten „Things“ lassen sich verschiedenen dieser Prinzipien zuordnen:

Prinzip der Auffindbarkeit („Findable“)

Thing 1: Datenrepositiorien

Repositorien mit dauerhaften Identifikatoren bieten Forscherinnen und Forschern eine einfache Möglichkeit, die eigenen Daten gut auffindbar zu machen. Dadurch kommt den Repositorien aber auch eine besondere Verantwortung zu, wenn es um die Archivierung, also die langfristige Bereitstellung der Daten, geht. Sie müssen daher unbedingt vertrauenswürdig sein und nachhaltig arbeiten. Zertifikate wie das CorTrustSeal sind dafür sinnvoll und hilfreich.

Thing 2: Metadaten

Als Studierende des Informationsmanagement ist uns bekannt, dass Metadaten eine entscheidende Rolle spielen, um Medien zu sortieren und sie auffindbar zu machen. Dies macht eine sinnvolle Recherche und gezielte Suche nach Informationen erst möglich. Mit vorgeschriebenen Formaten und Standards können die Repositorien sicherstellen, dass keine wichtigen Informationen fehlen und die vorliegenden Daten optimal durchsuchbar sind. Bei Repositorien für bestimmte Forschungsgebiete können zudem ggf. die spezifischen Anforderungen und Besonderheiten der jeweiligen Fachbereiche berücksichtigt werden.

Thing 3: Persistent Identifiers

Identifier wie die DOIs machen das Zitieren aus und Verweisen auf Texte und ähnliches einfacher. In meiner persönlichen Erfahrung besonders praktisch ist aber die ORCID-ID, mit der Personen identifiziert werden. Personen können ähnliche oder gleiche Namen haben und ihre Namen ändern. Auch wechseln sie mitunter den Arbeitgeber oder es kommen neue Informationen über die Person hinzu. Das erschwert manchmal eine korrekte Zuordnung. Dadurch dass die Angaben bei ORCID von den jeweiligen Personen selbst gepflegt werden, sind sie oft aktueller als die Informationen aus anderen Quellen.

Prinzip der Zugänglichkeit („Accessible“)

Thing 4: Open Data

Forschungsdaten sollten frei zugänglich gemacht werden, soweit es rechtlich möglich ist und keine anderen gewichtigen Gründe Einschränkungen nötig machen (z.B. Datenschutz, Urheberrecht). Die Benutzung von proprietärer Software bei der Erstellung von Datensätzen erschwert das und gefährdet außerdem insbesondere ihre langfristige Nutzung und Archivierung.

Prinzip der Interoperabilität („Interoperable“)

Thing 5: Data structuring and organisation

Ein Grundgedanke bei dem Prinzip der Nachnutzbarkeit ist, der, dass man eben nicht unbedingt weiß, wofür diese Daten später noch verwendet werden könnten. Es ist daher sehr wichtig, die Daten so zu strukturieren und zu organisieren, dass sie nicht einzig und allein für die eigenen, spezifischen Forschungsfragen verwendbar sind. Zudem soll Forschung ja nachprüfbar sein.

Thing 6: Kontrolliertes Vokabular und Ontologien („Controlled vocabularies and ontologies“)

Wie frei/offen (open) Daten sind, lässt sich in fünf Abstufungen einteilen, die Tim Berners-Lee mit eins bis fünf Sternen auszeichnet. Die höchsten Einstufungen lassen sich nur erreichen, wenn Daten nicht nur zugänglich und strukturiert sind, sondern auch das RDF-Datenmodell verwenden und mit dauerhaften Identifikatoren oder URIs arbeiten (vgl. Thing 7). Wenn es vorhanden ist, sollte zudem ein kontrolliertes Vokabular oder eine Ontologie für das jeweilige Fachgebiet benutzt werden, womit sich Terminologien klar definieren lassen und die Daten mit Entitäten in anderen Datensätzen verlinkt werden können.

Thing 7: FAIR-entsprechendes Daten-Modell („FAIR data modelling“)

Idealerweise werden die Daten dem Resource Description Framework (RDF) entsprechend abgespeichert.

Prinzip der Wiederverwendbarkeit („Reusable“)

Thing 8: Lizensierung („Licensing“)

Durch die Angabe einer Lizenz wird festgelegt, unter welchen Bedingungen die eigenen Datensätze nachgenutzt werden dürfen und ermöglichst so diese Wiederverwendung erst.

Thing 9: Zitieren von Daten („Data citation“)

Das Angeben und genaue Ausweisen von Quellen ist zentraler Bestandteil wissenschaftlicher Arbeit. Auch verwendete Datensätze sollen und können zitiert werden. Die zu nennenden Metadaten entsprechen im Wesentlichen denen, die bei Textquellen auch genannt werden (Autor*innen, Jahr, Titel, Verlag, DOI od. ähnliches).

Thing 10: Richtlinien („Policies“)

Konkret geht es hier um Richtlinien für die Verfügbarkeit/das zur Verfügung stellen von Daten. Hier machen Verlage, Förderer und Universitäten oft konkrete Vorgaben, die Forscherinnen und Forscher berücksichtigen müssen. Die Richtlinien werden auf den jeweiligen Websites dieser Institutionen veröffentlicht. Eine Übersicht über Standards, Datenbanken und solche Richtlinien bietet das Repositorium FAIRsharing.

Aufgaben

Activity zu Thing 5 Thing 5: Data structuring and organisation

(Read Karl Broman and Kara H. Woo, “Data organization in spreadsheets”.)

Der Text von Broman and Woo wurde mir bereits während meinem Praktikum an der SUB Göttingen im vergangenen Jahr von einer Mitarbeiterin zur Lektüre empfohlen. Im weiteren Verlauf des Praktikums führte ich in der Bereichsbibliothek Kulturwissenschaften als Praktikanten-Projekt eine Umfrage unter den Nutzern durch. Bei der Auswertung der Fragebögen hatte ich so Gelegenheit, die Prinzipien aus dem Text direkt selbst anzuwenden: Dabei fiel mir schnell auf, dass die Einhaltung dieser Regeln sinnvoll ist und den Daten eine klare Struktur gibt. Ich konnte einige Fehler vermeiden, die später Probleme verursacht hätten, beispielsweise leere Felder, wenn Daten fehlen. Auch hatte ich mir vorher nie Gedanken darüber gemacht, warum es ungünstig sein könnte, Felder nur durch farbliche Markierungen hervorzuheben. Besonders ist mir aber im Gedächtnis geblieben, wieviel praktischer es ist, wenn die Berechnungen in einer separaten Datei angestellt werden. So konnte ich mir immer nochmal die „rohen“ Daten anschauen und verlor nicht den Überblick bei der Analyse. Durch das Dictionary wusste ich auch Monate später, als der Praktikumsbericht geschrieben werden musste, wieder genau, was mit welcher Abkürzung gemeint war und worum es ging. Selbst bei diesem sehr kleinen Projekt hat sich also schon gezeigt, wie nützlich die Einhaltung dieser Grundregeln ist. Bei größeren Projekten und entsprechend auch größere Datenmengen ist es sogar noch wichtiger, diese einheitliche, klare Strukturierung einzuhalten, um den Überblick behalten zu können. Bei großen Datenmengen ist eine effektive Analyse nur noch mit Data Science Tools möglich, für die es unabdingbar ist, dass die Daten in passender Form vorliegen.

Activity zu Thing 10 Richtlinien („Policies“)

(1. Start by going to FAIRsharing 2. Click on the blue “Policies” button at the top 3. In the left side menu under “Subjects”, click on “show more” and select “Humanities”. 4. Scroll down to the Taylor and Francis Data Policy 5. Which databases and standards are mentioned in this policy? 6. Go to the specific policy for the “European Review of History” journal. 7. Does it differ from the general Taylor and Francis policy? 8. Try to find the data policy for your favorite journal.)

Taylor and Francis Data Policy(Daten-Richtlinien) (doi:10.25504/fairsharing.d6xzzg):

Datenbanken:

4TU.Centre for Research Data
Code Ocean
Dryad
FAIRsharing
figshare
Harvard Dataverse
Mendeley Data
Open Science Framework
re3data
Research Data Australia
Zenodo

Erwähnte Standards:

Digital Object Identifier
The FAIR Principles

In der grundlegenden Basis-Policy werden Autor*innen angehalten, möglichst für Datensätze Repositorien zu wählen, die auch DOIs oder andere Identifikatoren vergeben und Konzepte für Langzeitarchivierung (LZA) haben.

Daten-Richtline des „European Review of History”: In der spezifischen Richtline des Journals “European Review of History” werden die Autorinnen und Autoren angehalten, ihre Datensätze möglichst frei zur Verfügung zu stellen und auch hier wird auf Repositorien mit DOIs und LZA verwiesen. Außerdem gibt es aber auch den Hinweis, dass, wenn man bei der Einreichung angibt, dass es einen zum Paper zugehörigen Datensatz gibt, dieser Datensatz mit einer anzugebenden DOI identifiziert werden muss.

Daten-Richtlinie meines Lieblingsjournals: Die Journale „Informationspraxis“ und „Forum Bibliothek und Information“ hatten leider jeweils keine Daten-Richtlinie, die ich finden konnte. Das dürfte wohl den darin behandelten Themenbereichen geschuldet sein, dass diese Frage (noch) nicht so eine große Rolle spielt.

Daten-Richtlinie von PLOS ONE (https://journals.plos.org/plosone/s/data-availability): Es wird zunächst auf die zahlreichen Vorteile offener Forschung und damit auch Forschungsdaten hingewiesen: bessere Verbreitung, Sichtbarkeit, Nachprüfbarkeit, Vorteile bei der LZA, Vernetzung der Daten. PLOS ONE definiert dann ein „Minimal Data Set“ also das, was mindestens verfügbar sein muss, um die jeweilige Forschung überprüfbar zu machen. Zu diesem Zweck wird die Nutzung eines öffentlichen Repositoriums empfohlen mit Angabe der DOI zu den Datensätzen. Einschränkungen der Zugänglichmachung von Forschungsdaten aufgrund von Gesetzen und andern nachvollziehbaren gewichtigen Gründen (Datenschutz etc.) werden aber anerkannt.