Uncertainty detection für politische Texte

Projektbeschreibung

Projektziele

Entwicklung eines frei verfügbaren uncertainty dictionary für deutschsprachige politische Texte
Gewährleistung der Nachnutzbarkeit durch verbreitete technische Standards (R, plain text) und Nutzungsdemonstration (z.B. in einem Blogbeitrag)

Forschungsgegenstand

Mit der zunehmenden Zahl online frei verfügbarer Texte ist das Interesse der Sozialwissenschaften an einer maschinenbasierten Auswertung dieser Texte stark gestiegen (Twitter: Jungherr 2014, Positionspapiere: Klüver 2012, Wahlprogramme: Laver, Benoit und Gary 2003). Die Analyse großer Textmengen wird als Text Mining bezeichnet, wobei das Spektrum der Analysemethoden von Wortfrequenzanalysen bis zu lernenden Algorithmen reicht. Uncertainty detection ist eine Aufgabe des Text Mining, bei der es um die Unterscheidung von sicheren und unsicheren Informationen geht. Ein Sprecher kann eine Information als sicher oder spekulativ kennzeichnen:

a. Wir wissen, dass das Klimagas CO2 zu einem Klimawandel beiträgt.

b. Möglicherweise trägt das Klimagas CO2 doch nicht zu einem Klimawandel bei.

Unsicherheit kann durch lexikalische Stichwörter („möglicherweise“) oder durch Negation („wissen“ vs. „nicht wissen“) ausgedrückt werden. In der Computerlinguisitik sollen Textminingverfahren durch die Erkennung von Unsicherheit reliabler werden (für einen Überblick siehe Sporleder und Morante 2012), auch wenn etablierte Verfahren spekulative Sprache bisher nicht berücksichtigen. Angewendet wird uncertainty detection auch in den Wirtschaftswissenschaften. Hier dient politökonomische Unsicherheit in Zeitungsartikeln als Indikator um Bewegungen am Aktienmarkt vorherzusagen (Baker et al. 2013). Die Texte werden dabei auf Basis von Wortlisten, sog. Wörterbüchern, oder automatischen Klassifikatoren gruppiert (Loughran and McDonald 2011, Tobback et al. 2014).

Projektbeitrag

Unsicherheit ist bei politischen Entscheidungen eine zentrale Kategorie. Fehlendes oder unvollständiges Wissen wird vor allem in Wissenskonflikten (z.B. Klimapolitik, Gentechnik, Nanotechnologie) thematisiert und ausgehandelt. Der politische Umgang mit Nichtwissen ist im Bereich der Wissenssoziologie sogar zu einem eigenen Forschungsfeld avanciert. Dabei wird auch der strategische Charakter von Unsicherheit und die damit verbundene Durchsetzung von Interessen betont (z.B. Stocking und Holstein 1993). Uncertainty detection wird dazu beitragen, die bisher vor allem in Einzelfallstudien erforschten Diskurse vergleichbar zu machen und langfristige Trends zu identifizieren.

Allerdings ist das Verfahren für die Belange der Politikwissenschaft zurzeit aus mehreren Gründen nicht nutzbar:

Die meisten Forschungsbeiträge beziehen sich auf englischsprachige Texte, weshalb eine Adaption für die deutsche Sprache notwendig ist.

Uncertainty detection ist textsorten- und themenabhängig.

Trainierte Algorithmen erzielen bisher bereichsübergreifend nur moderate Erfolge (Szarvas et al. 2012) und die Hürden zum Erlernen algorithmenbasierter Analyseverfahren für Sozialwissenschaftler sind nicht zu unterschätzen.

Deshalb wird uncertainty detecion im Projekt für die Politikwissenschaft so erschlossen, dass sie für Fachwissenschaftler verständlich und nachnutzbar ist. Das Projekt umfasst folgende Schritte:

Manuelle Annotation eines Korpus: In einem Sample aus Bundestagsdebatten werden Sätze als sicher/unsicher gekennzeichnet und lexikalische Stichworte identifiziert. Das Korpus wird im Sinne von Open Data veröffentlicht, damit es zukünftig für maschinelles Lernen zur Verfügung steht.

Erstellung des Dictionary: Die gesammelten lexikalischen Stichworte dienen als Grundlage für eine Wortliste, die durch Synonyme ergänzt wird. Neben einzelnen Wörtern (Unigramme) werden Bi- und Trigramme zur Erfassung von Negation integriert.

Überprüfung: Ein weiteres Korpussample wird manuell annotiert. Anschließend werden die Ergebnisse der menschlichen und der (halb-)automatischen Performance verglichen.

Veröffentlichung des Dictionary als nachnutzbare Ressource und Nutzungsdemonstration.

Literatur

Baker, Scott R., Nicholas Bloom und Steven J. Davies (2013) Measuring economic policy uncertainty. Chicago Booth Research Paper. Online: policyuncertainty.com/media/EPU_BBD_2013.pdf

Jungherr, Andreas (2014) The Logic of Political Coverage on Twitter: Temporal Dynamics and Content. Journal of Communication 64(2): 239–259.

Klüver, Heike (2012) Measuring interest group influence using quantitative text analysis. In: Goodwin, John (Eds) SAGE Secondary Data Analysis. London: Sage.

Laver, Michael, Kenneth Benoit und John Gary (2003) Extracting Policy Positions from Political Texts Using Words as Data. American Political Science Review 97(2): 311-331.

Loughran, T., und B. McDonald (2011). When Is a Liability Not a Liability? Textual Analysis, Dictionaries, and 10-Ks. The Journal of Finance LXVI(1): 35–65.

Sporleder, Caroline und Roser Morante (2012) Modality and Negation: An Introduction to the Special Issue. Computational Linguistics 38(2): 223-260.

Stocking, S. Holly und Lisa W. Holstein (1993) Constructing and Reconstructing Scientific Ignorance. Knowledge: Creation, Diffusion, Utilization 15(2): 186-210.

Szarvas, György, Veronika Vincze, Richárd Farkas, György Móra und Iryna Gurevych (2012) Cross-Genre and Cross Domain detection of semantic uncertainty. Computational Linguistics 38(2): 335-367.

Tobback, Ellen, Walter Daelemans, Enric Junqué de Fortuny, Hans Naudts and David Martens (2014) Belgian Economic Policy Uncertainty Index: Improvement through text mining. Online: https://doi.org/10.1016/j.ijforecast.2016.08.006

Autor/in

Name: Madeline Kaupert
Institution: Georg-August-Universität Göttingen
Kontakt: madeline.kaupert@sowi.uni-goettingen.de