FAIR Grundsätze

Wenn Wissenschaftler, Forscher oder andere Personen wollen, dass ihre Forschungen und Datensätze auffindbar sind, müssen sie diese auffindbar machen. Wie sie das erreichen und nichts dabei vergessen, wird in den 10 FAIR Grundsätzen beschreiben.

Grundsatz 1: Repositories

Repositories bieten Forschern die Möglichkeit ihre Datensätze hochzuladen und der breiten Masse zur Verfügung zu stellen. r3data hilft Forschern dabei ein geeignetes Repository zu finden, denn es gibt für verschiedene Forschungsgebiete unterschiedliche Anlaufstellen. Wenn man möchte, dass Datensätze dauerhaft auffindbar sind, sollte man auf das CoreTrustSeal achten.

Aufgabe

Der Metadatensatz unter diesem Link kann in CSV und XML heruntergeladen werden. Der Datensatz selbst besteht aus .txt-Dateien und wird (vermutlich) als Zip-Datei heruntergeladen.

Grundsatz 2: Metadaten

Metadaten werden innerhalb der Repositories benutzt um die Datensätze zu beschreiben; sozusagen Daten über Daten. Durch Metadaten kann einiges an Informationen über die Datensätze/den Datensatz übermittelt werden - vorausgesetzt sie werden richtig verwendet. Oft geben Repositories eine Struktur und eine Mindestanzahl von Feldern vor, in der Metadaten eingepflegt werden sollen. Dies führt zu einer, innerhalb des Repositories, einheitlichen Verwendung und erleichtert das Auffinden von Datensätzen im Nachhinein.

Grundsatz 3: Persistent Identifier

Datensätze, die in Repositories hinterlegt werden müssen, um auch dauerhaft auffindbar zu sein, mit einem Persistent Identifier versehen werden. Was genau ein Persistent Identifier (PDI) ist, lesen sie hier. Diese Indentifier werden jedoch nicht nur für Datensätze oder Publikationen benutzt, sondern auch für Personen. ORCID ist ein System, bei dem man einen, für die eigene Person, PDI erstellen kann. Es gilt als Standard in der Publikationswelt für Wissenschaftler über Gebiets- und Repositorygrenzen hinweg. Man behält dabei immer komplette Kontrolle über die eigene ORCID ID und ist somit abgesichert gegenüber bspw. Identitätsdiebstahl im Forschungsbereich.

Grundsatz 4: Open data

Durch die FAIR Grundsätze oder Prinzipien sollen Forschungsdaten und deren Metadaten zwar für jeden aufrufbar über ein einheitliches Protokoll sein, aber es bedeutet nicht, dass alles was nach diesen Grundsätzen veröffentlicht wird auch Open Access zur Verfügung steht. Durch Copyright-Richtlinien, die Zusammenarbeit mit Unternehmen oder andere (guten) Gründe kann der Zugriff auf bestimmte Dokumente - oder Teile dessen - beschränkt sein.

Viele Repositories arbeiten zudem mit einer Liste von präferierten Datenformaten, da nicht alle Formate auch eine lange Zugänglichkeit garantieren.

Grundsatz 5: Datenstrukturierung und -organisation

Eine gute Strukturierung und Organisation der Daten ist besonders wichtig um diese - auch für Analysetools - auffindbar zu machen. Für eine solches Format der Strukturierung sind einige wichtige Prinzipien zu beachten, wie beispielsweise:

eine gleichbleibende Terminologie
die Vermeidung von leeren Feldern
ein einheitliches Datumsformat

usw. (Broman und Woo)

Wenn man ein solches Format entwickelt hat, ist es ebenso wichtig dieses Format zu dokumentieren und ggf. auch bereitzustellen.

Grundsatz 6: Reguliertes Vokabular und Ontologien

Damit es für alle Forscher und Wissenschaftler klar ist, worüber ein bestimmter Beitrag handelt und jeder auch das gleiche meint, werden gleiche Ontologien und gemeinsames Thesauri genutzt. Man sollte sich somit eine Ontologie suchen, die für den Forschungsbereich genutzt wird in dem man sich bewegt, und sich an dieser bedienen.

Zu Grundsatz 6: 5-Sterne-Bewertung von Veröffentlichungen

Laut Tim Berners-Lee können Veröffentlichungen offener Wissenschaft in einem 5-Sterne-Modell bewertet werden. Diese Bewertung umfasst unter anderem die Zugänglichkeit, das Format und die Verlinkung mit PDI's. Genaueres dazu hier.

Grundsatz 7: Datenmodellierung nach FAIR

Datensätze sollten in einem Format gespeichert werden, in dem Eigenschaften, Themenbereiche und Charakteristiken über Uniform Resource Identifier (URIs) identifizierbar sind. Das bedeutet, dass man die Daten im Resource Description Framework (RDF) Format festhält. In diesem Datenmodell werden Statements auf das Minimum reduziert; sogenannte Triple. Um Daten in das RDF Format von FAIR zu konvertieren, kann man FAIRifier nutzen.

Grundsatz 8: Lizenzierung

Über eine Lizenz werden Bedingungen der Nutzung von Daten festgehalten. Welche Lizenz die richtige ist, ist nicht unbedingt leicht festzustellen. Hierbei kann Copyright-Experte helfen. Bei creativecommons.org findet man weniger Professionelle, aber fürs erste sehr gute Hilfe.

Grundsatz 9: Zitation

So wie auf Artikel, Bücher & Websites, ist auch auf Datensätze, die von Außerhalb kommen, zu verweisen. Ebenso ist oftmals ein Verweis auf die genutzte Software notwendig. Der Verweis auf Quellen beinhaltet dabei, egal wie man es strukturiert, immer

den Autor
den Titel
das Jahr
den Herausgeber
und den Persistent Identifier.

Grundsatz 10: Richtlinien

Richtlinien zur Datenverfügbarkeit können von Herausgebern, Forschern/Gründern und Universitäten kommen. Das Finden dieser Richtlinien ist nicht immer einfach. In dem Repository von FAIRshare werden Informationen zu Richtlinien, filterbar, für verschiedene Forschungsbereiche bereitgestellt.

Aufgabe

Allgemein

Databases:

4TU.Centre for Research Data
Code Ocean
Dryad
FAIRsharing
figshare
Harvard Dataverse
Mendeley Data
Open Science Framework
re3data
Research Data Australia
Zenodo

Standards:

Digital Object Identifier
The FAIR Principles

European Review of History

European Review of History folgt der Taylor & Francis Basic Data Sharing Policy.

Favorisiertes Journal

Da ich kein Favorisiertes Journal habe, hab ich mich für das Journal "Open Research Data and Data Management Plans - Information for ERC grantees by the ERC Scientific Council" entschieden.

Databases:

Archaeology Data Service
BioStudies
Crystallography Open Database
Dryad
FAIRsharing
figshare
FlyBase
Global Biodiversity Information Facility
Harvard Dataverse
High Energy Physics Data Repository
Image Data Resource
Incorporated Research Institutions for Seismology Data
National Database for Autism Research (NDAR)
Open Science Framework
ProteomeXchange
PRoteomics IDEntifications database
SIMBAD Astronomical Database
The Cambridge Structural Database
The Zebrafish Information Network
UNAVCO Data
UniProt Knowledgebase
Worldwide Protein Data Bank
WormBase
Zenodo

Standards:

Dublin Core Metadata Element Set

Erkenntnisse

Mit der Publikation von Forschungsdaten sind einige - teilweise sehr aufwendige - Schritte verbunden, die jedoch alle dazu führen, dass eine große Community entsteht und man als Forscher nur bestehen kann, wenn man sich dieser Community anschließt und mitzieht. Durch diese Community werden zudem viele Dinge dauerhaft überarbeitet und durch den wissenschaftlichen Zusammenhang hat jeder auch das Interesse, gut zu Arbeiten und diese Zusammenarbeit zu stärken.

Siehe auch