FAIR Grundsätze

Aus Wikiversity

Wenn Wissenschaftler, Forscher oder andere Personen wollen, dass ihre Forschungen und Datensätze auffindbar sind, müssen sie diese auffindbar machen. Wie sie das erreichen und nichts dabei vergessen, wird in den 10 FAIR Grundsätzen beschreiben.

Grundsatz 1: Repositories[Bearbeiten]

Repositories bieten Forschern die Möglichkeit ihre Datensätze hochzuladen und der breiten Masse zur Verfügung zu stellen. r3data hilft Forschern dabei ein geeignetes Repository zu finden, denn es gibt für verschiedene Forschungsgebiete unterschiedliche Anlaufstellen. Wenn man möchte, dass Datensätze dauerhaft auffindbar sind, sollte man auf das CoreTrustSeal achten.

Aufgabe[Bearbeiten]

Der Metadatensatz unter diesem Link kann in CSV und XML heruntergeladen werden. Der Datensatz selbst besteht aus .txt-Dateien und wird (vermutlich) als Zip-Datei heruntergeladen.

Grundsatz 2: Metadaten[Bearbeiten]

Metadaten werden innerhalb der Repositories benutzt um die Datensätze zu beschreiben; sozusagen Daten über Daten. Durch Metadaten kann einiges an Informationen über die Datensätze/den Datensatz übermittelt werden - vorausgesetzt sie werden richtig verwendet. Oft geben Repositories eine Struktur und eine Mindestanzahl von Feldern vor, in der Metadaten eingepflegt werden sollen. Dies führt zu einer, innerhalb des Repositories, einheitlichen Verwendung und erleichtert das Auffinden von Datensätzen im Nachhinein.

Grundsatz 3: Persistent Identifier[Bearbeiten]

Datensätze, die in Repositories hinterlegt werden müssen, um auch dauerhaft auffindbar zu sein, mit einem Persistent Identifier versehen werden. Was genau ein Persistent Identifier (PDI) ist, lesen sie hier. Diese Indentifier werden jedoch nicht nur für Datensätze oder Publikationen benutzt, sondern auch für Personen. ORCID ist ein System, bei dem man einen, für die eigene Person, PDI erstellen kann. Es gilt als Standard in der Publikationswelt für Wissenschaftler über Gebiets- und Repositorygrenzen hinweg. Man behält dabei immer komplette Kontrolle über die eigene ORCID ID und ist somit abgesichert gegenüber bspw. Identitätsdiebstahl im Forschungsbereich.

Grundsatz 4: Open data[Bearbeiten]

Durch die FAIR Grundsätze oder Prinzipien sollen Forschungsdaten und deren Metadaten zwar für jeden aufrufbar über ein einheitliches Protokoll sein, aber es bedeutet nicht, dass alles was nach diesen Grundsätzen veröffentlicht wird auch Open Access zur Verfügung steht. Durch Copyright-Richtlinien, die Zusammenarbeit mit Unternehmen oder andere (guten) Gründe kann der Zugriff auf bestimmte Dokumente - oder Teile dessen - beschränkt sein.

Viele Repositories arbeiten zudem mit einer Liste von präferierten Datenformaten, da nicht alle Formate auch eine lange Zugänglichkeit garantieren.

Grundsatz 5: Datenstrukturierung und -organisation[Bearbeiten]

Eine gute Strukturierung und Organisation der Daten ist besonders wichtig um diese - auch für Analysetools - auffindbar zu machen. Für eine solches Format der Strukturierung sind einige wichtige Prinzipien zu beachten, wie beispielsweise:

  • eine gleichbleibende Terminologie
  • die Vermeidung von leeren Feldern
  • ein einheitliches Datumsformat

usw. (Broman und Woo)

Wenn man ein solches Format entwickelt hat, ist es ebenso wichtig dieses Format zu dokumentieren und ggf. auch bereitzustellen.

Grundsatz 6: Reguliertes Vokabular und Ontologien[Bearbeiten]

Damit es für alle Forscher und Wissenschaftler klar ist, worüber ein bestimmter Beitrag handelt und jeder auch das gleiche meint, werden gleiche Ontologien und gemeinsames Thesauri genutzt. Man sollte sich somit eine Ontologie suchen, die für den Forschungsbereich genutzt wird in dem man sich bewegt, und sich an dieser bedienen.

Zu Grundsatz 6: 5-Sterne-Bewertung von Veröffentlichungen[Bearbeiten]

Laut Tim Berners-Lee können Veröffentlichungen offener Wissenschaft in einem 5-Sterne-Modell bewertet werden. Diese Bewertung umfasst unter anderem die Zugänglichkeit, das Format und die Verlinkung mit PDI's. Genaueres dazu hier.

Grundsatz 7: Datenmodellierung nach FAIR[Bearbeiten]

Datensätze sollten in einem Format gespeichert werden, in dem Eigenschaften, Themenbereiche und Charakteristiken über Uniform Resource Identifier (URIs) identifizierbar sind. Das bedeutet, dass man die Daten im Resource Description Framework (RDF) Format festhält. In diesem Datenmodell werden Statements auf das Minimum reduziert; sogenannte Triple. Um Daten in das RDF Format von FAIR zu konvertieren, kann man FAIRifier nutzen.

Grundsatz 8: Lizenzierung[Bearbeiten]

Über eine Lizenz werden Bedingungen der Nutzung von Daten festgehalten. Welche Lizenz die richtige ist, ist nicht unbedingt leicht festzustellen. Hierbei kann Copyright-Experte helfen. Bei creativecommons.org findet man weniger Professionelle, aber fürs erste sehr gute Hilfe.

Grundsatz 9: Zitation[Bearbeiten]

So wie auf Artikel, Bücher & Websites, ist auch auf Datensätze, die von Außerhalb kommen, zu verweisen. Ebenso ist oftmals ein Verweis auf die genutzte Software notwendig. Der Verweis auf Quellen beinhaltet dabei, egal wie man es strukturiert, immer

  • den Autor
  • den Titel
  • das Jahr
  • den Herausgeber
  • und den Persistent Identifier.

Grundsatz 10: Richtlinien[Bearbeiten]

Richtlinien zur Datenverfügbarkeit können von Herausgebern, Forschern/Gründern und Universitäten kommen. Das Finden dieser Richtlinien ist nicht immer einfach. In dem Repository von FAIRshare werden Informationen zu Richtlinien, filterbar, für verschiedene Forschungsbereiche bereitgestellt.

Aufgabe[Bearbeiten]

Allgemein[Bearbeiten]

Databases:

  • 4TU.Centre for Research Data
  • Code Ocean
  • Dryad
  • FAIRsharing
  • figshare
  • Harvard Dataverse
  • Mendeley Data
  • Open Science Framework
  • re3data
  • Research Data Australia
  • Zenodo

Standards:

  • Digital Object Identifier
  • The FAIR Principles

European Review of History[Bearbeiten]

European Review of History folgt der Taylor & Francis Basic Data Sharing Policy.

Favorisiertes Journal[Bearbeiten]

Da ich kein Favorisiertes Journal habe, hab ich mich für das Journal "Open Research Data and Data Management Plans - Information for ERC grantees by the ERC Scientific Council" entschieden.

Databases:

  • Archaeology Data Service
  • BioStudies
  • Crystallography Open Database
  • Dryad
  • FAIRsharing
  • figshare
  • FlyBase
  • Global Biodiversity Information Facility
  • Harvard Dataverse
  • High Energy Physics Data Repository
  • Image Data Resource
  • Incorporated Research Institutions for Seismology Data
  • National Database for Autism Research (NDAR)
  • Open Science Framework
  • ProteomeXchange
  • PRoteomics IDEntifications database
  • SIMBAD Astronomical Database
  • The Cambridge Structural Database
  • The Zebrafish Information Network
  • UNAVCO Data
  • UniProt Knowledgebase
  • Worldwide Protein Data Bank
  • WormBase
  • Zenodo

Standards:

  • Dublin Core Metadata Element Set

Erkenntnisse[Bearbeiten]

Mit der Publikation von Forschungsdaten sind einige - teilweise sehr aufwendige - Schritte verbunden, die jedoch alle dazu führen, dass eine große Community entsteht und man als Forscher nur bestehen kann, wenn man sich dieser Community anschließt und mitzieht. Durch diese Community werden zudem viele Dinge dauerhaft überarbeitet und durch den wissenschaftlichen Zusammenhang hat jeder auch das Interesse, gut zu Arbeiten und diese Zusammenarbeit zu stärken.

Siehe auch[Bearbeiten]