Wikiversity:Fellow-Programm Freies Wissen/Einreichungen/Datenschutz, Forschungsethik und Reidentifikationsrisiko bei frei zugänglichen Daten

Aus Wikiversity
Wechseln zu: Navigation, Suche

Rechtliche, ethische und pragmatische Bedingungen bei der Nutzung öffentlicher, personenbezogener Daten[Bearbeiten]

Projektbeschreibung[Bearbeiten]

Das hier skizzierte Forschungsvorhaben gliedert sich in zwei Teile und ergänzt inhaltlich wie methodisch die Arbeit der Freigeist-Forschungsgruppe „Entrepreneurial Group Dynamics“ an der TU Berlin, die Anfang Januar 2017 ihre Arbeit aufgenommen hat und von der VolkswagenStiftung für fünf Jahre gefördert wird. Die Forschungsgruppe nimmt die längerfristige Entwicklung gemeinschaftlicher Gründungen in den Blick. Unter „entrepreneurial groups“ verstehen wir Personengruppen, die kollektiv als unternehmerischer Akteur handeln und gemeinsam Zeit, Geld und Mühe in ein unternehmerisches Projekt investieren. Diese Gruppe kann im Verlauf der Zeit mehrere Unternehmen gründen und sich wieder von ihnen lösen. Wir interessieren uns für die Entwicklungsdynamiken dieser Gruppen, z.B. Veränderungen in der Gruppenzusammensetzung. In einem Teilprojekt soll ein Datensatz für die Untersuchung der Verlaufsbahnen unternehmerischer Gruppe über 15 bis 20 Jahre hinweg aufgebaut aus einer Reihe öffentlich zugänglicher Quellen generiert werden. Für die Ziehung unserer Ausgangsstichprobe wird bspw. auf öffentliche Bekanntmachungen aus dem Handelsregister zurückgegriffen; für die Recherche der Personenkonstellationen innerhalb der Gruppen sollen weitere öffentliche Quellen wie z.B. Zeitungsartikel aber auch Informationen aus sozialen Netzwerken wie LinkedIn oder Xing genutzt werden. Der finale Datensatz dient rein wissenschaftlichen Zwecken und wird nach Abschluss des Projekts in anonymisierter Form der scientific community zur Verfügung gestellt. 1) Forschungsethik und Datenschutz bei der Verwendung öffentlich verfügbarer, personenbezogener Daten zu Forschungszwecken In diesem ersten Schritt soll die datenschutzrechtliche und forschungsethische Situation der Nutzung und Zusammenführung öffentlich verfügbarer, aber personenbezogener Daten für Forschungszwecke untersucht werden. Die grundsätzliche Problematik ergibt sich an dieser Stelle aus dem Umstand, dass personenbezogene Daten datenschutzrechtlich einen besonderen Schutz genießen, diese jedoch entweder aufgrund gesetzlicher Bestimmungen oder freiwilliger Preisgabe öffentlich verfügbar sind. Diese Problematik wird weder in der einschlägigen Literatur, noch in bestehenden forschungsethischen Leitlinien bisher angemessen berücksichtigt. Im Zuge unseres Projektes möchte ich mich besonders auf zwei unterschiedliche Datenquellen fokussieren: öffentliche verfügbare, auf gesetzlicher Grundlage erhobene Registerdaten am Beispiel des Handelsregisters sowie der Nutzung von Informationen aus sozialen Netzwerken wie LinkedIn oder Xing, die freiwillig öffentlich zugänglich gemacht werden. Hierbei ergeben sich u.a. folgende Fragen: • Inwieweit ist die Nutzung personenbezogener, aber öffentlich verfügbarer Daten für die sozialwissenschaftliche Forschung möglich und gestattet? • Inwieweit ist die Zusammenführung von personenbezogenen Daten aus unterschiedlichen Quellen datenschutzrechtlich und forschungsethisch möglich und unbedenklich; in welchen Situationen ist sie es nicht? Zur Erforschung dieser Fragen sind Interviews mit Expertinnen und Experten aus unterschiedlichen Bereichen geplant: Jurist/innen, Mitglieder von Ethikkommissionen in den Sozialwissenschaften, Datenschutzbeauftragte von Forschungsinstitutionen und Sozialwissenschaftler/innen, die solche Daten bereits zu Forschungszwecken genutzt haben. Ziel des Vorhabens ist es, bis Juni 2018 datenschutzrechtliche und forschungsethische Richtlinien und Handreichungen für unser Projekt zu erstellen. Die Ergebnisse der Experteninterviews sowie die daraus abgeleiteten Schlussfolgerungen sollen veröffentlicht und in der Wissenschaftsgemeinschaft zur Diskussion gestellt werden.

2) Frei verfügbares Zusatzwissens und das Re-Identifikationsrisiko bei faktisch anonymisierten Daten In den Sozialwissenschaften wird die Bereitstellung von zunächst personenbezogenen Daten z.B. aus Befragungen ermöglicht, indem solche Daten durch bestimmte Verfahren anonymisiert werden und dadurch ihren Bezug zu einer natürlichen Person verlieren. Im Zuge der formalen Anonymisierung werden zunächst alle direkten Identifikatoren wie Namen und Adressen von den eigentlichen Befragungsdaten getrennt. Weitere Schritte der Anonymisierung umfassen z.B. die Entfernung besonders sensibler Informationen oder die Vergröberung von Angaben, die die Zusammenfassung von Altersangaben zu Alterskategorien. Diese Schritte führen allerdings zu einem Informationsverlust in den Daten selbst. Gleichzeitig ist eine absolute Anonymisierung, die eine Re-Identifikation von Untersuchungspersonen zu 100 % ausschließt, praktisch nicht möglich bzw. würde dazu führen, dass aufgrund des hohen Informationsverlustes die Daten für Forschungszwecke keinen Wert mehr hätten. Beim Mittelweg der faktischen Anonymisierung werden die Daten nur so weit verändert, dass eine Re-Identifikation nur unter sehr hohem Aufwand möglich ist. Die in den Sozialwissenschaften häufig angebotenen Scientific Use Files (SUF) basieren auf diesem Prinzip. Das verbleibende Re-Identifikationsrisiko in solchen SUFs ist gleichzeitig nicht allein von den erhobenen Daten selbst abhängig, sondern vom verfügbaren Zusatzwissen über die in dem Datensatz enthaltenen Personen, das einem möglichen Datenangreifer potenziell zur Verfügung steht. Diesem Zusatzwissen kommt bei der Beurteilung des Re-Identifikationsrisikos damit entscheidende Bedeutung zu; gleichzeitig wird die Rolle und die tatsächliche Verfügbarkeit dieses Zusatzwissens in der einschlägigen sozialwissenschaftlichen Literatur bisher vernachlässigt. Dies dürfte u.a. zwei Gründe haben: (1) eine systematische Überprüfung des frei verfügbaren Zusatzwissens über eine Person ist arbeits- und zeitintensiv; (2) üblicherweise sind die persönlichen Informationen von Studienteilnehmer/innen aus Datenschutzgründen nicht verfügbar und können daher nicht für eine Recherche über das Ausmaß des verfügbaren Zusatzwissens genutzt werden. Insofern bietet sich im Rahmen unseres Projektes die einmalige Chance, dieser Frage empirisch auf den Grund zu gehen, da hier Personeninformationen der ausgewählten Stichprobe aus öffentlichen Quellen vorliegen und die Form der Datenerhebung bereits einer systematischen Recherche über frei verfügbares Zusatzwissen entspricht. Das methodische Vorgehen ist wie folgt geplant: Die aus öffentlichen Quellen, dem Handelsregister, bekannten Informationen zu Personen (in unserem Fall: Unternehmensgründer/innen), werden durch systematische Recherchen in Zeitungsdatenbanken, den erwähnten sozialen Netzwerken sowie von Internetauftritten der zugehörigen Firmen ergänzt. Das Ergebnis dieser Recherchen (durch geschulte studentische Hilfskräfte) erlaubt eine Abschätzung über den Umfang von frei verfügbaren Zusatzwissen bei Unternehmensgründer/innen, über die ein Datenangreifer potenziell verfügen könnte. Abschließend erfolgt eine Risikobewertung des gesammelten Wissens über einzelne Personen und eine Abschätzung des Re-Identifikationsrisikos auf Basis dieses Zusatzwissens. Diese Ergebnisse sollen ebenfalls bis Juni 2018 feststehen und entsprechend publiziert werden. Bezugspunkte zu Freiem Wissen und Open Science ergeben sich in diesem Forschungsvorhaben auf vielfältige Art und Weise. Zunächst nutzt das Ausgangsprojekt „Entrepreneurial Group Dynamics“ selbst bestehendes freies Wissen zur Verfolgung der eigenen Fragestellung und ist gleichzeitig bestrebt, nicht nur die Forschungsergebnisse frei zugänglich zu machen, sondern auch den geplanten Datensatz der Wissenschaftsgemeinschaft zur freien Nutzung zur Verfügung zu stellen. Die im Rahmen des Fellowships geplanten und oben dargestellten Ergänzungen dieses Projekts befassen sich darüber hinaus explizit mit den pragmatischen, rechtlichen und forschungsethischen Bedingungen der Nutzung und Weitergabe von freiem Wissen und darauf basierender Datenbestände für die Sozialwissenschaften.


Michael Weinhardt[Bearbeiten]

  • Name: Michael Weinhardt
  • Institution: TU Berlin
  • Kontakt: m.weinhardt@campus.tu-berlin.de