Kurs:Open Government und Open Data (HdM 2022)/Projekt ZfS-SchallenderRauch

Projekt Zeitschrift für Sozialforschung

Projektidee

Die ursprüngliche Idee des Projekts bestand darin, die gemeinfrei gewordenen Aufsätze aus der Zeitschrift für Sozialforschung in der WikiSource zu erschließen. Dabei ging es zu allererst um die Verfügbarmachung der Texte. Das heißt, im Vordergrund standen Recherche nach geeigneten Lichtbildern (Scans) für die WikiCommons oder nach Zugriff auf die Originalausgaben der Zeitschrift um selbst passende Dateien zu erstellen und die Transkription der Texte. Im Laufe des Projekts und mit fortschreitenden Kompetenzen, die aus der Lehrveranstaltung gezogen werden konnten, stellte sich aber heraus, dass eine sinnvolle Umsetzung des Vorhabens die Erschließung in möglichst vielen Teilen des Wikiversums zum Ziel haben musste.

Die Verfügbarmachung in den WikiCommons erfüllt eine Archivierungsfunktion der digitalisierten Zeitschrift
Die Transkription in der WikiSource macht den Text digitalisiert verfügbar und nutzbar.
Aber auch Verlinkungen innerhalb der WikiSource bieten Nutzer:innen die Möglichkeit eine für ihre Zwecke geeignete Darstellungsweise zu finden.
Die Erschließung in WikiData macht die Texte auffindbar und bildet Metadaten zu den Aufsätzen ab, außerdem ermöglicht sie den Nutzer:innen Abfragen über die Abfragesprache SPARQL.
Schließlich sollten die Verlinkungen der verschiedenen Wikiseiten ein intuitives Navigieren zwischen den zusammengehörenden Inhalten ermöglichen.

Planung

Die Planungsphasen des Projekts gliedern sich in zwei Hauptplanungsphasen auf. Zuerst sollten die geeigneten Lichtbilddateien gefunden oder erstellt werden und dann die Transkription vorangetrieben werden. Zum Zweiten wurde die automatisierte Erfassung aller Aufsätze und Rezensionen aus der ZfS in Wikidata geplant und umgesetzt.

Planungsphase 1

Persönlicher Mehrwert des Projektes, neben dem Erlernen verschiedener Techniken zum Editieren im Wikiversum, sollte sein, sich mit den Texten der ZfS zu befassen. Eine Originalausgabe der ZfS in den Händen zu halten und haptisch zu erfahren war ein nicht zu vernachlässigendes Motiv, nach Originalausgaben der ZfS zu recherchieren um in Erfahrung zu bringen ob eine Bibliothek im stuttgarter Umfeld diese Ausgaben besitzt. Ziel war es eigene Scans der Originale anzufertigen, da frei online verfügbare Scans von archive.org auf der Grundlage eines photomechanischen Nachdrucks von 1980 ^[1] erstellt wurden, also Abbilder von Abbildern waren.

Die Ausgaben des KIM Hohenheim erwiesen sich leider als Reprint, daher wurde von der Erstellung eigener Lichtbilder abgesehen und die oben genannten bereits verfügbaren Scans verwendet. Zur Rechtslage des Downloads der Dateien von archive.org und des Uploads auf Wikicommons wurde Bezug auf § 68 UrhG genommen „Vervielfältigungen gemeinfreier visueller Werke werden nicht durch verwandte Schutzrechte nach den Teilen 2 und 3 geschützt“ ^[2]. Auch wenn es sich nicht um visuelle Werke handelt sind die in Frage stehenden Texte gemeinfrei und der gestalterische Spielraum beim Anfertigen von Scans ist so gering, dass vermutlich weder Urheber- noch Leistungsschutzrechte an den Scans geltend gemacht werden könnten.

Die Klärung der Verfügbarkeiten der benötigten Dateien bildeten das Ende dieser ersten Planungsphase. Zum Umfang des Projektes wurde bewusst keine Zielvorgabe gemacht, da das Gesamtprojekt, die Erschließung aller gemeinfreien Aufsätze aus der ZfS über das Semester hinausgehen würde und als Hobbyprojekt weitergeführt werden sollte. Zudem war die Lehrveranstaltung so aufgebaut, dass mit dem Kennenlernen neuer Methoden sich bezüglich des übergeordneten Ziels, Editieren im Wikiversum, neue Aufgabenfelder ergeben könnten, die mit in das Semesterprojekt einfließen könnten. Die Reihenfolge der Transkriptionen sollte chronologisch erfolgen, eine solche Systematik wäre für eventuelle Nutzer nachvollziehbar und wirkt der Gefahr entgegen sich zuerst die „Sahnestückchen“ herauszusuchen und danach mit nachlassender Motivation kämpfen zu müssen.

Planungsphase 2

Eine zweite Planungsphase ergab sich aus der, während des Semesters, gelernten neuen Techniken. Der seit Januar 2022 gelaunchte Dienst OpenAlex bietet die Möglichkeit über eine API die gesamten Titel der Aufsätze und Reviews der ZfS mit einigen Metadaten als JSON-file herunterzuladen. Dies ermöglichte eine Bearbeitung in OpenRefine um von dort aus, automatisiert, Datenobjekte und Metadaten in Wikidata zu erzeugen. Hier bezog sich die Planung hauptsächlich auf das Vorbereiten der Daten in OpenRefine und überschnitt sich somit mit der Umstzungsarbeit.

Umsetzung

Einfach mal loslegen

Ausgangspunkt des Projekts war die bereits existierende WikiSorce-Seite der Zeitschrift für Sozialforschung. Hier wurde das Verzeichnis der Aufsätze, welches bis dahin aus einer einfachen Liste der Aufsätze, alphabetisch nach Autoren geordnet, bestand, in eine Tabelle umgewandelt, die nach Jahrgängen, Autoren, Aufsatztiteln und Seitennummer sortieren lässt. (die Idee dazu kam nach dem Erstellen einer Episodenliste für den Podcast Hoaxilla in der Wikipedia - angeregt durch das Podcastprojekt von Schlobido)

Um erste Erfahrungen zu sammeln und einen sichtbaren Fortschritt des Projekts zu generieren wurde der erste Aufsatz, Die Wert-Preis-Transformation bei Marx und das Krisenproblem noch in einem Texteditor transkribiert, dann aber ohne theoretische Grundlegung für die Editionsrichtlinien als Wikisorce-Seite erstellt. Die Fußnoten wurden in dieser ersten Version noch unkonventionell unter hr-Tags in den Fließtext eingebunden (um die Nummerierung des Originals beizubehalten) und die Seite wurde als Wikisorce-Seite angelegt. Dieses pragmatische, unstrukturierte Vorgehen stellte sich als gute Praxis heraus Fortschritte zu erzielen, die deutschsprachige WikiSource-Community zeigte sich als aufmerksam und hilfsbereit und die Seite wurde von einem Nutzer in eine Form gebracht, die den Konventionen der WikiSource besser entsprach, sowie die Funktionalität verbesserte (allein die Fußnotennummerierung viel dieser Änderung zum Opfer).

Projekt anmelden

Die Diskussionsseite der deutschsprachigen Wikisource-Projekte schreibt für Vorhaben deren Umfang 50 Seiten überschreitet eine Anmeldefrist vor. Obwohl die WikiSource, wie die Erfahrungen in diesem Projekt zeigen, ein freundliches und hilfsbereites Umfeld darstellt, können die Hemmungen, sich an eine unbekannte Öffentlichkeit zu wenden, groß sein. Daher wurde in dem beschriebenen Projekt die Anmeldung verzögert und diese Verzögerung mit dem Argument gerechtfertigt, ein Aufsatz für sich genommen umfasse keine 50 Seiten. Diese Argumentation lies sich aber in Anbetracht der Ziele des Projekts nicht aufrecht erhalten, sollten doch, die Gemeinfreiheit der Texte vorausgesetzt, möglichst umfassende Teile der ZfS für die WikiSource editiert werden und zu einem Gesamtwerk, das auf der Zeitschriftenseite zusammenläuft gefasst werden.

Daher bestand der nächste Schritt in der Anmeldung des Projekts und einer zehntägigen Wartefrist für mögliche Einwände. Auch hier wurde die Hilfsbereitschaft der WikiSource-Comunity wieder sichtbar indem Indexseiten verbessert und verschoben wurden.

Die Diskussionsseite fordert für das Anlegen neuer Projekte "Vor oder während der Arbeit [...] eine Gegenleistung ähnlichen Umfangs in anderen Projekten [...] (z. B. Korrekturlesen)[zu erbringen]". Daher wurden in anderen Projekten auf der genannten Diskussionsseite nach Interessenlage Projektseiten ausgewählt, um parallel zum Erstellen eigener Transkriptionen die Projekte Anderer durch Korrekturlesen zu unterstützen.

Transkriptionen

In den darauffolgenden Wochen wurden folgende Texte transkribiert:

Die Wert-Preis-Transformation bei Marx und das Krisenproblem
Zum Problem der Freizeitgestaltung.
Family Sentiments.
Rassenideologie und Rassenwissenschaft.
Arbeitsmarkt und Strafvollzug.
aktuell in Arbeit: Zum gegenwärtigen gesellschaftlichen Standort des französischen Schriftstellers von Walter Benjamin

Hierzu wurde eine Indexseite für das Heft der ZfS angelegt, die auf eine PDF-Datei in WikiCommons verwies, in welcher die Texte der Autoren, deren Sterbedatum noch weniger als 70 Jahre zurückliegt (Stand 2022) abgedeckt wurden. Aus den Transkriptionen auf der Indexseite wurden dann die Aufsätze aufgebaut. Die fertiggestellten Aufsätze wurden dann in WikiData angelegt und verlinkt.

Für Inhalte aus der ZfS bestanden bisher noch keine Objekte in WikiData, daher bot es sich an diese automatisiert zu erstellen.

automatisierte Erfassung in WikiData

In der Vorlesung wurde der Dienst OpenAlex vorgestellt, über den sich 1426 Aufsätze und Besprechungen aus der ZfS abrufen ließen, diese Abfrage wurde in der Vorlesung vom Lehrenden erstellt und zunächst leider übersehen, bis sich der Wert für dieses Projekt erschloss. Nun wurde die Query erneut mittels eines Python-Skripts abgerufen und in einer JSON-Datei gespeichert um sie in OpenRefine zu öffnen und zu bearbeiten. Interessant für WikiData waren die Einträge zu OpenAlex-ID, DOI, Titel, Veröffentlichungsdatum, Autor:in, Bandnummer, Heftnummer und Seitenangaben. Weniger brauchbar schien die Verschlagwortung, die zwar schon als WikiData-Objekte angelegt waren, die aber allem Anschein nach automatisiert erzeugt und nicht überprüft wurden. Indiz hierfür war eine Verschlagwortung mit den Major Atmospheric Gamma Imaging Cherenkov Telescopes, die im Jahre 2004 errichtet wurden, während die Publikationsgeschichte der ZfS sich in den Jahren 1932-1941 abspielt.

Zur Nutzung in WikiData wurden die Titel und die Autor:innenamen mit bestehenden WikiData-Objekten abgeglichen (reconcile). Die Zeile "instance of" wurde automatisch mit "review" vergeben und als WikiData-Objekt erfasst, die Aufsätze wurden dann händisch als "scientific article" umgeschrieben. Zur Übertragung des Publikationsdatums wurde dieses formatiert. Aus den Daten über Start- und Endseite wurde eine neue zusammenfassende gebildet. Nun folgte die "Fleißarbeit", die Abgleichungsvorschläge zu Titeln und Autor:innennamen für jeden Eintrag zu überprüfen, und bei gleich oder ähnlich lautenden Autor:innennamen oder fehlenden Vorschlägen die Autor:in zu recherchieren zu versuchen.

Nun sollte der Massenupload auf WikiData mittels Quickstatements erfolgen, OpenRefine bietet hierfür eine automatisierte Erzeugung der Befehle. Der erste Versuch der Umsetzung schlug jedoch fehl, da die kompletten Daten dem WikiData-Objekt Titel zugeschrieben wurden, was glücklicherweise nach wenigen Statements erkannt und abgebrochen wurde. Der zweite Versuch Quickstatements mit Hilfe eines erfahrenen WikiData-Editors zu nutzen, ergab eine Anzahl an Errors (von 1426 Datensätzen wurden nur 170 angelegt einige davon doppelt). Dies führte zum Erfordernis die bereits erzeugten Objekte nochmals mit dem Corpus in OpenRefine abzugleichen und nun den Massenupload direkt aus OpenRefine zu erzeugen (was nun reibungslos funktionierte). Die erzeugten Aufsätze sind hier, die Reviews hier abrufbar.

Ausblick

Die Transkription der weiteren Aufsätze der ZfS wird vermutlich noch einige Zeit in Anspruch nehmen. Trotzdem wurden schon während des Semesters einige Ideen für Anschlussprojekte gefunden:

Bearbeitung vesrchiedener Judaica in WikiSource aus der Quelle ANNO z.B.
- Freies Blatt
- Der Jüdische Arbeiter
Nach Rücksprache mit der Gedenksättte Grafeneck evtl. Erfassung von "Euthanasie"-opfern in Wikidata. Bei der Recherche nach Autor:innen der ZfS wurden einige WikiData-Objekte gefunden, die Opfer der Shoa bezeichnen und ihnen damit einen digitalen Gedenkort erschaffen. Als größer angelegtes Projekt könnte dies in Absprache mit der Gedenkstätte Grafeneck auch für die 9.600 Opfer der als Euthanasie bezeichneten Ermordung von Kranken und unangepassten Menschen durch die Nazis Objekte angelegt werden.
Vermittlung des im Kurs Gelernten an die Nutzer:innen der Stadtbücherei Esslingen während des Praxissemesters.

Zentrale Learnings aus der Veranstaltung

Neben der Bearbeitung der Projekte wurde in der Veranstaltung weitere Skills erworben um das Wikiversum zu nutzen und zu bearbeiten, sowie kleinere Aufgaben bearbeitet. Die für den Verfasser dieses Beitrags zentralsten Learnings seien im Folgenden kurz beschrieben. Da es sich um einen Persönlichen Erfahrungsbericht handelt und individuelle Motivlagen erläutert werden, wird für den folgenden Abschnitt in die Ich-Form gewechselt.

Bearbeitung der Hep-Hep-Krawalle in der WikiSource

Zu Beginn des Kurses herrschte unter den Teilnehmer:innen eine Art Paralyse da, so meine Wahrnehmung, niemand so recht wusste mit was beginnen. Da das Konzept des Kurses sich nach dem Motto "Schwimmen lernt man am besten im Wasser" zu richten schien, war ein geschickter Einfall seitens der Dozenten, das damals ganz neue Projekt zu den Hep-Hep-Kravallen im Wikiversum vorzustellen und die Teilnehmer:innen zu motivieren hier aktiv zu werden. Die Aufgabe war nicht besonders komplex und die Ressourcen standen alle schon auf WikiCommons zur Verfügung. Zudem wurde ich durch persönliches Interesse am Thema beflügelt, sowie dem Gedanken einem wichtigen Thema Öffentlichkeit zu verschaffen. Tatsächlich waren mir die Hep-Hep-Unruhen als wichtigem Teil der langen Geschichte des europäischen Antisemitismus schon länger bekannt, um so verwunderter war ich in der Twitter-Diskussion des Initiators dieses Projekts zu lesen, dass die Progrome selbst in der geschichtsinteressierten Twittergefolgschaft des Initiators weitgehend unbekannt waren. Die Bearbeitung der Zeitungsartikel zu den Hep-Hep-Unruhen war eine gute Übung für das Anlegen von Seiten und das Editieren in WikiSource.

Anwendungszentriertes (Neu)-Erlernen von OpenRefine und SPARQL

Die Abfragesprache SPARQL und die Software OpenRefine waren bereits aus dem Kurs Metadatenmanagement bekannt, allerdings wurden sie dort nur vorgestellt und der tatsächliche Gebrauchswert der Werkzeuge war mir nicht in vollem Umfang ersichtlich. Durch die Arbeit im Wikiversum wurde der Nutzen der Werkzeuge ersichtlich und im Umgang mit realen Anwendungsfällen wurde die Nutzung der Software bzw. Abfragesprache verinnerlicht.

Mix'n'Match

Mix'n'Match ist ein Beispiel für eine Anwendung mit der, ohne großen Aufwand, Objekte in WikiData mit Informationen angereichert werden können und dabei Themengebiete durchstöbert, um interessante sowie unterhaltsame Informationen zu erhalten (so entstand die Projektidee zur Transkription von Judauica s.o.). Neben dem, in der Dokumentation des Werkzeugs beschriebenen spielerisch kompetitiven Ansatz, ist für mich die Möglichkeit interessant, in einer Mischung aus Müßiggang und Produktivität ^[3] durch Einträge und Informationen zu navigieren, und dies je nach Bedarf mit dem Anspruch auf Vollständigkeit, oder durch einzelne Selektive (kleinst-)Beiträge. Dies steht für mich beispielhaft für mein Bild des Wikiversums, in dem wie in einer materiellen Bibliothek gewandelt aber auch gestöbert so wie konzentriert und zielorientiert gearbeitet werden kann. Je nach Bedarf oder (Tages)Laune der Nutzer:in.

↑ Horkheimer, M. & Institut Für Sozialforschung (Frankfurt Am Main, G. (1980). Zeitschrift für Sozialforschung. Deutscher Taschenbuch Verlag.
↑ § 68 UrhG(2021). Abgerufen am 10. August 2022.
↑ Eigentlich eine contradictio in adiecto - Dialektik des Wikiversums

[1] Horkheimer, M. & Institut Für Sozialforschung (Frankfurt Am Main, G. (1980). Zeitschrift für Sozialforschung. Deutscher Taschenbuch Verlag.

[2] § 68 UrhG(2021). Abgerufen am 10. August 2022.

[3] Eigentlich eine contradictio in adiecto - Dialektik des Wikiversums

[1]

[2]

[3]