Wikiversity:Fellow-Programm Freies Wissen/Einreichungen/Open Editorial Boards/Projekttagebuch
Projekttagebuch (Open Editorial Boards)[Bearbeiten]Mai 2021[Bearbeiten]Predatory Journals hinzugefügt[Bearbeiten]Nun fügte ich 20.000 Datenpunkte von fünf (als "predatory" bekannten) Verlagen, die 750 Journals umfassen, zum Datensatz hinzu.
Vier dieser Verlage (alle außer SCIRP) gehören zu OMICS. Datenspende an Wikidata[Bearbeiten]Bei Wikidata fragte ich nun an, wie eine Datenspende initiiert werden kann. April 2021[Bearbeiten]Nature Index berichtete über das Projekt. März 2021[Bearbeiten]Ein Pre-Print des Projekts (gemeinsam verfasst mit beiden Mentorinnen Kerstin und Tamara) ist nun online auf SocArXiv. Die Codes und Daten sind auf GitHub. Auch ist eine eigene Seite zu Open Editors auf https://openeditors.ooir.org/ sichtbar, wo man in den Daten umhersuchen kann. Mehrere von der Community fügten kleinere Verbesserungen hinzu. Bianca Kramers Beitrag übertrifft aber alles bei weitem: Sie integrierte die Daten mit ROR. Jänner 2021[Bearbeiten]Namensänderung[Bearbeiten]Das Projekt heißt nun "Open Editors", und nicht "Open Editorial Boards". Das scheint mir semantisch übergreifender und griffiger. Datensammlung[Bearbeiten]Inzwischen sammelte ich Daten von fast einer halben Million Editor_innen von 5.991 Journals bei 17 wissenschaftlichen Verlagen. Das ist um ein Vielfaches mehr, als das Projekt jemals anvisierte. Wie kam es dazu? Grund dafür ist der unten erwähnte 'Strategiewechsel'. Das Scraping auf Basis von Verlagen (statt auf Basis einer wissenschaftlichen Disziplin) schien viel effizienter zu sein. Mit weniger Codes kann man mehr erreichen. Und das also ist das Ergebnis.
Dezember 2020[Bearbeiten]Erster Package-Code-Entwurf fertig[Bearbeiten]Die bisherigen drei Funktionen (für Cambridge University Press, Elsevier und SAGE) habe ich inzwischen in eine einzige Funktion umgewandelt. Zudem habe ich ich sie mithilfe der R-Pakete "devtools", "roxygen2" und "testthat" zu einem einheitlichen Paket, betitelt openeditors, geschnürt. Allerdings ist dieser Code noch nicht publik. Zum Zwecke der Publikation habe ich drei Ziele für die nächste Zeit:
Beide Schritte scheinen noch eine längere Einarbeitungszeit zu benötigen - möge dies bis Weihnachten gelingen! Strategiewechsel?[Bearbeiten]Ich überlege laut, ob es nicht sinnvoll wäre, die Vorgehensweise zu ändern: Der Fokus sollte nicht auf die Disziplin (bisher: Sozialwissenschaften) gerichtet sein, sondern auf Verlage; und zwar auf solche Verlage, die auf ihren Webseiten ihre editorial boards homogen strukturieren. Ich prüfte daher weitere akademische Verlage mit vielen Fachzeitschriften, wie etwa die folgenden:
Dies würde bedeuten, dass ich für die Journals der Verlage Interscience, Emerald, Hindawi, MDPI webscraping-Codes verfassen könnte, um deren editorial boards systematisch zu erfassen. Das wäre gewiss überlegenswert, da ich dadurch mit weniger Zeit mehr Daten erlange: Ich müsste nicht mehr Zeit damit aufwenden, heterogene Webseiten über komplexe RegEx-Codes zu erfassen, und bekomme aber dennoch Daten von über 1.200 neuen, bisher nicht anvisierten Journals. November 2020[Bearbeiten]Integration mit den PIDs ORCID & ROR[Bearbeiten]Die Webscraping-Codes für Journals der Verlage SAGE, Elsevier und Cambridge University Press habe ich inzwischen in R-Funktionen umgewandelt, so dass man in einem Loop die Redaktionsteams einer großen Anzahl von Journals scrapen kann. Damit wäre ein großer Schritt in Richtung eines eigenen R-Pakets getätigt. Getestet wurden die Codes mit je vier Fachzeitschriften pro Verlag. Bei den Variablen handelt es sich um role (zB "Editor in Chief", "Associate Editor"), editor (Vor- und Nachname), affiliation, journal, und date (Datum des Webscrapings). Bei SAGE kommt noch issn hinzu. Ich habe nun probiert, ob man nicht die Namen (in der Variable editor) bzw. die institutionelle Zugehörigkeit (in der Variable affiliation) nutzen kann, um deren ORCID bzw. ROR herauszufinden. Dazu nutzte ich zum einen das R-Paket rorcid, zum Anderen die API von ROR. Das Ergebnis ist leider eher ernüchternd - bei keinem der Dutzenden Versuche gelang es, den richtigen Identifikator mit der ersten Suche zu erlangen. So wird eine automatisierte Attributierung der PIDs zu den Webscraping-Daten wohl nicht so leicht möglich sein. Erstes Gespräch mit den Mentorinnen[Bearbeiten]Am 24. November 2020 traf ich erstmals seit Beginn des Fellowships meine beiden Mentorinnen (Kerstin & Tamara) sowie meine Co-Mentee (Charlotte) über Zoom. Wir besprachen den aktuellen Stand unserer Projekte. Verschiedene Themen kamen auf, wie etwa: Wie soll man Diversität kodieren? Welche Faktoren von Diversität sind relevant (Disziplin, Region, Demographie, etc.)? Könnte man vielleicht die Editor_innen selbst fragen, welche Variablen ihrer Meinung nach relevant seien? Wie sieht es mit Datenschutz aus? Laufende Angelegenheiten[Bearbeiten]Mitte November beschäftigen mich zwei Angelegenheiten:
Oktober 2020[Bearbeiten]Sichtung der Verlage und Journals[Bearbeiten]Zunächst galt es, die Grundgesamtheit jener Verlage und Journals zu definieren, deren editorial boards einem webscraping unterzogen werden sollen. Zur ersten Orientierung nahm ich jene Journals zurate, die auch in OOIR verzeichnet sind, also 792 Fachzeitschriften aus den Web of Science-Kategorien Political Science, Sociology, Geography, History, Law, Communication und Area Studies. Ich sichtete jene Verlage, die mindestens zehn Zeitschriften in dieser Auswahl beherbergen, und sah nach, ob deren Webseite die editorial boards gemäß einer homogenen Struktur auflisten. Dies ist das Ergebnis:
Lediglich drei Verlage weisen somit eine homogene Struktur ihrer Editorial Board-Seiten auf, so dass hier nur ein Webscraping-Code erforderlich sein wird; bei den heterogenen Verlagen werden Variationen erforderlich sein. Erste Code-Entwürfe[Bearbeiten]Für die drei als homogen attributierten Verlage schrieb ich sogleich funktionierende Webscraping-Codes in R. Für SAGE beispielsweise sieht der erste Code-Entwurf (betrifft exemplarisch das Journal American Sociological Review) so aus: library('rvest')
library('tidyverse')
library('stringr')
today <- Sys.Date()
webpage <- read_html(url("https://journals.sagepub.com/editorial-board/asr")) %>%
html_nodes(xpath='//*[@id="5dfa7b11-3157-4585-b786-54aa88233446"]/div/div/div')
#=====================
# (1) parse editors &affiliations
#=====================
people <- webpage %>%
html_nodes(xpath = "//div[@class='editorial-board']/descendant::table") %>%
html_table(fill = TRUE)
#=====================
# (2) parse roles
#=====================
roles <- webpage %>%
html_nodes(xpath="//div[@class='ed-board-name']") %>%
html_text()
#=====================
# (3) merge the lists of editors, affiliations & roles
#=====================
EdB <- do.call(rbind, Map(data.frame, people=people, roles=roles))
EdB$date <- today
colnames(EdB) <- c("editor", "affiliation", "role", "date")
Für Elsevier und Cambridge University Press schrieb ich ähnliche Codes. Autor/in[Bearbeiten]
|