Zum Inhalt springen

Kurs:Linked Open Data (Uni Potsdam, 2021)

Aus Wikiversity
Linked Open Data

Offene Kulturdaten für die Forschung: strukturiert & linked open

Etherpad zum Kurs

Etherpad

Ziele

LOD als Konzept und Wikidata als praktisches Beispiel für die offene (Forschungs-)Arbeit mit (Kultur-)Daten verstehen

Zielpublikum

Forscher*innen der Uni Potsdam, DH-Netzwerk

Methoden

Methodischer Input, hands on in Wikisource & Wikidata, um Die Datenlaube selbst zu erleben, Fragen, Gegenfragen, Gespräch, ...

Autoren

Jens Bemme (SLUB Dresden), Christian Erlinger (Wien) und Janna Kienbaum (Uni Potsdam), 2021

Ort

#vDHd2021- Workshop im "Kulturdaten / Datenkulturen. Kolloquium"

Datum

21. Mai 2021, 10-16 Uhr, online

Persönliches Wiki~versity, ~data, ~source, ~~-Login ist Grundlage für diesen Kurs, bitte vor Beginn selbst anlegen!
Accounts gelten global für alle Wikimediaportale und Sprachversionen.

Linked Open Data - Offene Kulturdaten für die Forschung

Datensätze der Forschung unter offener Lizenz zu publizieren und mit maschinenlesbaren Schnittstellen lesbar oder editierbar zu halten, nimmt in immer mehr Disziplinen und Projekten Raum ein. Mit dem Konzept von Linked Open Data können unterschiedliche Datenbestände mit einander in Verbindung gebracht werden, wodurch eine gegenseitige Anreicherung mit Wissen ermöglicht wird, aber auch neue Ideen und Fragestellungen entstehen können. Mit Wikidata besteht ein offener Knowledge-Graph, der ein idealer Ort zur Erfassung unterschiedlicher Datensätze ist, aber auch als zentraler (Normdaten-/Forschungsdaten-)Hub für jedwede Forschungsanwendung oder jedweden Datenbestand verwendet werden kann.

Am Beispiel der Illustrierten Die Gartenlaube demonstrieren wir, wie offene Kulturdaten mit Wikidata für die Forschung funktionieren. Die Datenlaube ist ein Citizen Science-Projekt für die offene Erschließung der Gartenlaube-Transkriptionen in Wikisource: strukturiert und linked open. Deutlich werden dabei mögliche Verknüpfungen zu anderen offenen Kulturdatenprojekten, wie beispielsweise der Erschließung und Beschreibung des Jüdischen Friedhofs Berlin-Mitte. Dieses Projekt verknüpft biographische Datensätze in Wikidata mit der Begräbnisstätte und reichert die Einträge mit Verweisen in externe Datenbestände, wie epidat oder zu digitalisierten Archivalien im Internet Archive an. Durch das Zusammenspiel in Wikidata können diese beiden - grundsätzlich voneinander getrennten - Projekte auch miteinander durch Abfrage in Verbindung gebracht werden.

Neben theoretischen Inputs und Vorstellung von bestehenden Projekten und Datenbeständen in Wikidata, werden auch Methoden zur Datenanreicherung und zur Abfrage vorgestellt.


Themenslot I: Theorie zu Wikidata/LOD als Konzept

[Bearbeiten]

Semantic Web und Linked Open Data

[Bearbeiten]

Unter Semantic Web wird ein Netz verstanden, deren Verbindungen semantisch und standardisiert definiert sind, und somit auch für Maschinen interpretierbar.[1] Linked Open Data ist ein Teil des Semantic Web bei dem die miteinander in maschinenlesbarer Form verlinkten Daten auch offen (bspw. unter freier Lizenz) verfügbar und nutzbar sind.[2]

Wikidata

[Bearbeiten]
Wikidata-Broschüre

Wikidata (online seit Oktober 2012) ist ein offener und kollaborativ gestalteter und genutzter multilingualer Knowledge Graph zur strukturiertern und verlinkten Speicherung von Informationen jeglicher Art.[3]

  • Benutzung von Wikidata (Daten schreiben/lesen) ist frei und offen. (Lizenziert unter CC-0)
  • Wikidata ist multilingual
  • Wikidata ist verlinkt und Wikidata verlinkt
  • Wikidata liefert Daten für andere Wikimediaprojekte (Inter-Wikilinks, Structured Data on Commons) oder kann diese liefern (Infoboxen, Listen)[4]

Wikidata wächst rasant - hör dabei zu - Mitte April 2021 gab es über 93.000.000 Items (davon sind übrigens ca. 32 % Bibliographische Metadatensätze zu wissenschaftlichen Artikeln)[5][6]

Auf Wikimedia Commons oder YouTube[7] finden sich zahlreiche interessante und informative Unterlagen oder Videos zur Einführung rund um Wikidata. Beispiel Wikidata in knapp 8 Minuten erklärt.[7]

Wikipedia 20: Wikidata, animiert

Datenmodell

[Bearbeiten]

Wikidata besteht aus einer Sammlung an Items (identifiziert mit der QID). Diese Items werden durch multilinguale Labels, Beschreibungen (descriptions) und Verweisformen (alias) näher definiert.

Die weitere (verlinkte) Beschreibung eines Items erfolgt durch Tripel: Subject_Item - Property - Object_Item

Beispiel: Q2 (Erde)P610 (hat einen höchsten Punkt)Q513 (Mt. Everest)

Ein Tripel kann durch zusätzliche Angabe von Qualifiers (weiteren Properties) näher spezifiziert werden. (Beispielsweise kann die Gütligkeitsdauer oder der Zeitpunkt einer Aussage dadurch angegeben werden - Beispiel Literaturpreis oder Angabe des Archivs mit genauer Fundstelle/Signatur

Um die Überprüfbarkeit einer Aussage zu ermöglichen, kann jedes Statement noch mit References belegt werden. Dies kann bspw. durch eine Reference URL oder durch Verweis auf eine andere Quelle nachgewiesen in erfolgen.

Die Datenlaube
Wikisource-Broschüre, zu Wikidata ab S. 20, 2019.

Abfragen via SPARQL

[Bearbeiten]

Der Wikidata Query Service (Wikidata SPARQL-Endpoint) ist unter query.wikidata.org verfügbar.

Wikidata und Kulturdaten

[Bearbeiten]

Die Bedeutung von Wikidata für Kulturdaten wie bspw. jenen in den GLAM-Institutionen (Galeries, Libraries, Archives and Museums) kuratierten Daten wird immer häufiger disktuiert und erkannt. Ein großes Potential steckt neben der unmittelbaren strukturierten Erfassung von Datenobjekten vor allem auch in der Verknüpfung unterschiedlicher Datenbanken wie Normdatenpools,[8], weiters in der Nutzung von Wikidata als Speicherort bibliographischer Metadaten und Zitationsdaten WikiCite oder als Knowledge-Base zur Recherche oder Tiefenerschließung der Bestände.[9]

Normdaten

[Bearbeiten]

Mehr als 1.690 (Stand: 21. Mai 2021) Normdaten-Kennungen (für Personen-Normdaten oder universale Normdatenkorpora) können aktuell in Wikidata verzeichnet und somit auch gemappt werden.

SELECT ?Wikidata_Eigenschaft_f_r_Normdaten ?Wikidata_Eigenschaft_f_r_NormdatenLabel ?NormdatenLabel WHERE {
  SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". }
  VALUES (?Normdaten) {
    (wd:Q18614948)
    (wd:Q19595382)
  }
  ?Wikidata_Eigenschaft_f_r_Normdaten wdt:P31 ?Normdaten.
}

Try it!


Beispiel für ein Normdaten-Mapping: Personen mit GND und ORCID:

SELECT ?item ?itemLabel ?GND_Kennung ?ORCID WHERE {
  SERVICE wikibase:label { b
d:serviceParam wikibase:language "[AUTO_LANGUAGE],en". }
  ?item wdt:P227 ?GND_Kennung.
  ?item wdt:P496 ?ORCID. 
}
LIMIT 100

Try it!

Bibliographische Metadaten

[Bearbeiten]

In drei Wiki-Projekten wird ein guter Überblick über Datenmodelle und strategische Ideen rund um die Erfassung bibliographischer Metadaten geboten.

Abfrage nach ausgewählten Identifikatoren bibliographischer Datenbanken

SELECT ?BibIDLabel (COUNT(DISTINCT ?s) AS ?anzahl) WHERE {
  
  SERVICE wikibase:label { bd:serviceParam wikibase:language "[AUTO_LANGUAGE],en". }
  VALUES (?BibIdentifier) {
    (wdt:P6201) #AC-Nummer
    (wdt:P1292) #DNB-ID
    (wdt:P1044) #SWB-ID
    (wdt:P4109) #URN
  }
  ?s ?BibIdentifier ?o.
  ?BibID wikibase:directClaim ?BibIdentifier.
}
GROUP BY ?BibIDLabel
ORDER BY DESC(?anzahl)

Try it!

Abfrage nach Items mit DOI


SELECT ?description ?count WITH {
  SELECT (COUNT(*) AS ?count) WHERE { [] wdt:P356 []. }
} AS %dois
WITH {
  SELECT (COUNT(*) AS ?count) WHERE { [] wdt:P4109 []. }
} AS %urn
WHERE {
  {
    INCLUDE %dois
    BIND("Items with a DOI" AS ?description)
  }
  UNION
  {
    INCLUDE %urn
    BIND("Items with an URN" AS ?description)
  }
}

Try it!

Themenslot II: Projekt DieDatenlaube mit hands on-Beispielen

[Bearbeiten]

Wikisource + Wikidata

[Bearbeiten]
 Wikisource: Wikisource:Digital Humanities – Quellen und Volltexte

Beispiele

Industriekultur

[Bearbeiten]

Bäume

[Bearbeiten]
 Wikisource: Bäume – Quellen und Volltexte
  • Karte mit den Orten der Reihe Deutschlands merkwürdige Bäume zwischen 1883 und 1899++, vgl. Solvejg Nitzke: Sachsens arboreale Merkwürdigkeiten, oder: Wie man Geschichte(n) verwurzelt, Blogpost über die Reihe Deutschlands merkwürdige Bäume in Die Gartenlaube mit Wikisource und Wikidata, saxorum.hypotheses.org/2396, 24. Mai 2019.

Hands on

[Bearbeiten]
  • Wähle aus https://w.wiki/43s drei Artikel-Items der Gartenlaube und verschlagworte sie: main subject.
Artikel (an-)lesen, relevante Schlagworte suchen (Wikidata, Wikipedia)
  • Bitte ergänze ggf. den Link einer Artikelillustration im Artikel-Item: image sowie ggf. einen Illustrator und Bildunterschriften: media legend.
  • Ergänze mglw. in der Textdatenbox in Wikisource Heftnummer, Seitenzahlen und einen relevanten inhaltlich engen Wikipedialink.
  • Bitte erst- oder zweitkorrigiere eine beliebige Zeitschriftenseite in Die Gartenlaube zwischen 1853 und 1899:
 Wikisource: Die Gartenlaube – Quellen und Volltexte
Wikisource-Artikeltextseite: Bearbeiten
OCR korrigieren
Artikelstatus auf GELB oder GRÜN änders > Speichern

Einstiege

[Bearbeiten]
 Wikisource: Die Gartenlaube, 1895 – Quellen und Volltexte
 Wikisource: Themenseite Schule – Quellen und Volltexte
 Wikisource: Thema Bäume – Quellen und Volltexte
 Wikisource: Thema Judaica/Jüdisches_Leben – Quellen und Volltexte
 Wikisource: Albert Fränkel – Quellen und Volltexte

Oder artikelweise:

 Wikisource: Eine hochherzige Stiftung – Quellen und Volltexte
 Wikisource: Gefrorene Schellfische – Quellen und Volltexte
 Wikisource: Wirren in Kamerun – Quellen und Volltexte
 Wikisource: Professor Heinrich Hertz † – Quellen und Volltexte
 Wikisource: Farbiges Fühlen – Quellen und Volltexte
 Wikisource: Neue Gedichte von Anton Ohorn – Quellen und Volltexte
 Wikisource: Tätowierte Lords – Quellen und Volltexte
 Wikisource: „Ausgeblasene“ Kinder – Quellen und Volltexte
 Wikisource: Dienstbotenmarkt im Elsaß – Quellen und Volltexte
 Wikisource: Das Grab der Marlitt – Quellen und Volltexte

Queries

[Bearbeiten]
  • Bocknetz: Zitationsnetz, Verweise auf eigene Artikel C. E. Bocks zu relevanten Gesunheitthemen; und: Bocknetz aller erschlossenen Artikel von Carl Ernst Bock (zitierte und nicht zitierte).
  • ... weitere folgen.

Digital Humanities?

[Bearbeiten]
  • Forschungsfrage: Welche Forschungsfragen können mit den Daten der Gartenlaube/Datenlaube beantwortet werden?
  • Das Vokabular der Schlagworte in Wikidata ist offen, nicht standardisiert, flexibel, fluid, ...
  • ...?
  • Wer hilft mit?
  • Wer publiziert auch, mit oder über diese Daten aus dem 19. und 21. Jahrhundert?

Themenslot III: Digitalisierung und Erschließung des Gesamtarchivs der deutschen Juden, Pilotprojekt Jüdischer Friedhof Große Hamburger Straße in Berlin

[Bearbeiten]
[Bearbeiten]
Open-Educational-Resources-Logo

Gallerie

[Bearbeiten]
Open Science
 ... hören wir gerade der deutschen und englischen @Wikipedia beim Wachsen zu: http://listen.hatnote.com Sehr beeindruckend vor allem im Vergleich zum Sound von @wikidata, wo richtig viel passiert. ...

Listen to Wikipedia

Einzelnachweise

[Bearbeiten]
  1. Tim Berners-Lee, James Hendler u. Ora Lassila: The Semantic Web. In: Scientific America. 2001 (scientificamerican.com).
  2. Tim Berners-Lee et. al: Linked Data - The Story So Far. In: Int. J. Semantic Web Inf. Syst. 2009 (Volltext).
  3. Q18507561
  4. Q56876997
  5. Wikidata:Statistics. Abgerufen am 21. April 2021.
  6. Grafana Dashboard. Abgerufen am 21. April 2021.
  7. a b Asaf Bartov: Wiki + data = Wikidata (and why you should care). Abgerufen am 26. Februar 2019.
  8. Joachim Neubert: Wikidata as a Linking Hub for Knowledge Organization Systems? Integrating an Authority Mapping into Wikidata and Learning Lessons for KOS Mappings. 2017 (Volltext).
  9. Christian Erlinger: Semantische Suchabfragen mit der Linked Open Data Cloud generieren. In: SocietyByte. 2018, abgerufen am 15. Februar 2019.