Projekttagebuch (Open Editorial Boards)

Mai 2021

Predatory Journals hinzugefügt

Nun fügte ich 20.000 Datenpunkte von fünf (als "predatory" bekannten) Verlagen, die 750 Journals umfassen, zum Datensatz hinzu.

Publisher	Editors
Allied Academies	2154
iMedPub	3216
Longdom	6623
SCIRP	5863
SciTechnol	1401

Vier dieser Verlage (alle außer SCIRP) gehören zu OMICS.

Datenspende an Wikidata

Bei Wikidata fragte ich nun an, wie eine Datenspende initiiert werden kann.

April 2021

Nature Index berichtete über das Projekt.

März 2021

Ein Pre-Print des Projekts (gemeinsam verfasst mit beiden Mentorinnen Kerstin und Tamara) ist nun online auf SocArXiv.

Die Codes und Daten sind auf GitHub.

Auch ist eine eigene Seite zu Open Editors auf https://openeditors.ooir.org/ sichtbar, wo man in den Daten umhersuchen kann.

Mehrere von der Community fügten kleinere Verbesserungen hinzu. Bianca Kramers Beitrag übertrifft aber alles bei weitem: Sie integrierte die Daten mit ROR.

Jänner 2021

Namensänderung

Das Projekt heißt nun "Open Editors", und nicht "Open Editorial Boards". Das scheint mir semantisch übergreifender und griffiger.

Datensammlung

Inzwischen sammelte ich Daten von fast einer halben Million Editor_innen von 5.991 Journals bei 17 wissenschaftlichen Verlagen. Das ist um ein Vielfaches mehr, als das Projekt jemals anvisierte. Wie kam es dazu?

Grund dafür ist der unten erwähnte 'Strategiewechsel'. Das Scraping auf Basis von Verlagen (statt auf Basis einer wissenschaftlichen Disziplin) schien viel effizienter zu sein. Mit weniger Codes kann man mehr erreichen. Und das also ist das Ergebnis.

Publisher	Editors
APA	3.740
ASCE	1.019
Brill	5.961
Cambridge Univ Press	12.146
Elsevier	108.961
Emerald	18.486
Frontiers	174.294
Hindawi	13.424
IGI Global	9.921
Inderscience	16.961
John Benjamins	2.522
MDPI	35.063
Pleiades	3.143
PLOS	10.643
RSC	2.722
SAGE	56.136

Dezember 2020

Erster Package-Code-Entwurf fertig

Die bisherigen drei Funktionen (für Cambridge University Press, Elsevier und SAGE) habe ich inzwischen in eine einzige Funktion umgewandelt. Zudem habe ich ich sie mithilfe der R-Pakete "devtools", "roxygen2" und "testthat" zu einem einheitlichen Paket, betitelt openeditors, geschnürt.

Allerdings ist dieser Code noch nicht publik. Zum Zwecke der Publikation habe ich drei Ziele für die nächste Zeit:

Veröffentlichung des Codes in einer üblichen Plattform für R-Pakete, etwa bei CRAN oder, wenn möglich, bei rOpenSci
Nutzung von Git und GitHub
Entwurf eines Papers, das den Code und den Zweck des Codes vorstellt

Beide Schritte scheinen noch eine längere Einarbeitungszeit zu benötigen - möge dies bis Weihnachten gelingen!

Strategiewechsel?

Ich überlege laut, ob es nicht sinnvoll wäre, die Vorgehensweise zu ändern: Der Fokus sollte nicht auf die Disziplin (bisher: Sozialwissenschaften) gerichtet sein, sondern auf Verlage; und zwar auf solche Verlage, die auf ihren Webseiten ihre editorial boards homogen strukturieren. Ich prüfte daher weitere akademische Verlage mit vielen Fachzeitschriften, wie etwa die folgenden:

Publisher	Journals	Struktur
Interscience	428	Homogen
Emerald	350	Homogen
Hindawi	230	Homogen
MDPI	200	Homogen
IEEE	?	Heterogen
de Gruyter	?	Heterogen
MIT Press	42	Heterogen
Edward Elgar	12	Homogen

Dies würde bedeuten, dass ich für die Journals der Verlage Interscience, Emerald, Hindawi, MDPI webscraping-Codes verfassen könnte, um deren editorial boards systematisch zu erfassen. Das wäre gewiss überlegenswert, da ich dadurch mit weniger Zeit mehr Daten erlange: Ich müsste nicht mehr Zeit damit aufwenden, heterogene Webseiten über komplexe RegEx-Codes zu erfassen, und bekomme aber dennoch Daten von über 1.200 neuen, bisher nicht anvisierten Journals.

November 2020

Integration mit den PIDs ORCID & ROR

Die Webscraping-Codes für Journals der Verlage SAGE, Elsevier und Cambridge University Press habe ich inzwischen in R-Funktionen umgewandelt, so dass man in einem Loop die Redaktionsteams einer großen Anzahl von Journals scrapen kann. Damit wäre ein großer Schritt in Richtung eines eigenen R-Pakets getätigt. Getestet wurden die Codes mit je vier Fachzeitschriften pro Verlag.

Bei den Variablen handelt es sich um role (zB "Editor in Chief", "Associate Editor"), editor (Vor- und Nachname), affiliation, journal, und date (Datum des Webscrapings). Bei SAGE kommt noch issn hinzu.

Ich habe nun probiert, ob man nicht die Namen (in der Variable editor) bzw. die institutionelle Zugehörigkeit (in der Variable affiliation) nutzen kann, um deren ORCID bzw. ROR herauszufinden. Dazu nutzte ich zum einen das R-Paket rorcid, zum Anderen die API von ROR. Das Ergebnis ist leider eher ernüchternd - bei keinem der Dutzenden Versuche gelang es, den richtigen Identifikator mit der ersten Suche zu erlangen. So wird eine automatisierte Attributierung der PIDs zu den Webscraping-Daten wohl nicht so leicht möglich sein.

Erstes Gespräch mit den Mentorinnen

Am 24. November 2020 traf ich erstmals seit Beginn des Fellowships meine beiden Mentorinnen (Kerstin & Tamara) sowie meine Co-Mentee (Charlotte) über Zoom. Wir besprachen den aktuellen Stand unserer Projekte.

Verschiedene Themen kamen auf, wie etwa: Wie soll man Diversität kodieren? Welche Faktoren von Diversität sind relevant (Disziplin, Region, Demographie, etc.)? Könnte man vielleicht die Editor_innen selbst fragen, welche Variablen ihrer Meinung nach relevant seien? Wie sieht es mit Datenschutz aus?

Laufende Angelegenheiten

Mitte November beschäftigen mich zwei Angelegenheiten:

Sichtung der verschiedenen Varianten der Darstellung von Editorial Boards bei Taylor & Francis, da dieser Verlag die meisten Journals in meinem Sample aufweist, mit dem Ziel, für häufig vorkommende Varianten webscraping-Codes zu erstellen;
Überlegungen dazu, die bereits entworfenen Codes für die Journals von SAGE, Cambridge University Press und Elsevier allgemein zugänglich zu machen (über GitHub, und eventuell sogar als R-Library im Rahmen von rOpenSci).

Oktober 2020

Sichtung der Verlage und Journals

Zunächst galt es, die Grundgesamtheit jener Verlage und Journals zu definieren, deren editorial boards einem webscraping unterzogen werden sollen.

Zur ersten Orientierung nahm ich jene Journals zurate, die auch in OOIR verzeichnet sind, also 792 Fachzeitschriften aus den Web of Science-Kategorien Political Science, Sociology, Geography, History, Law, Communication und Area Studies.

Ich sichtete jene Verlage, die mindestens zehn Zeitschriften in dieser Auswahl beherbergen, und sah nach, ob deren Webseite die editorial boards gemäß einer homogenen Struktur auflisten. Dies ist das Ergebnis:

Publisher	Journals	Struktur
Taylor & Francis	196	Heterogen
SAGE	127	Homogen
Wiley	94	Heterogen
Cambridge Univ Press	66	Homogen
Oxford Univ Press	63	Heterogen
Springer	46	Heterogen
Elsevier	35	Homogen
Univ of Chicago Press	13	Heterogen
Brill	12	Heterogen
Project MUSE	10	Heterogen

Lediglich drei Verlage weisen somit eine homogene Struktur ihrer Editorial Board-Seiten auf, so dass hier nur ein Webscraping-Code erforderlich sein wird; bei den heterogenen Verlagen werden Variationen erforderlich sein.

Erste Code-Entwürfe

Für die drei als homogen attributierten Verlage schrieb ich sogleich funktionierende Webscraping-Codes in R.

Für SAGE beispielsweise sieht der erste Code-Entwurf (betrifft exemplarisch das Journal American Sociological Review) so aus:

library('rvest')
library('tidyverse')
library('stringr')

today <- Sys.Date()

webpage <- read_html(url("https://journals.sagepub.com/editorial-board/asr")) %>%
  html_nodes(xpath='//*[@id="5dfa7b11-3157-4585-b786-54aa88233446"]/div/div/div')

#=====================
# (1) parse editors &affiliations
#=====================
people <- webpage %>% 
  html_nodes(xpath = "//div[@class='editorial-board']/descendant::table") %>%  
  html_table(fill = TRUE)


#=====================
# (2) parse roles
#=====================
roles <- webpage %>%
  html_nodes(xpath="//div[@class='ed-board-name']") %>%
  html_text()

#=====================
# (3) merge the lists of editors, affiliations & roles 
#=====================
EdB <- do.call(rbind, Map(data.frame, people=people, roles=roles))
EdB$date <- today
colnames(EdB) <- c("editor", "affiliation", "role", "date")

Für Elsevier und Cambridge University Press schrieb ich ähnliche Codes.

Autor/in

Name: Andreas Pacher
Institution: TU Wien Bibliothek & Diplomatische Akademie Wien
Kontakt: andreas.pacher@da-vienna.at