Das Redenradar

Das Redenradar

„Sag mir, wie Du sprichst, und ich sag´ Dir, wen Du wählst.“

„Sag mir, wie Du sprichst, und ich sag´ Dir, wen Du wählst.“

Politische Reden sind ein zentrales Mittel, mit dem Parteien ihre Werte, Ziele und Visionen ausdrücken. Doch lassen sich darin charakteristische Muster erkennen, die eine Rede eindeutig einer bestimmten Partei zuordnen? Wie präzise unterscheiden diese sprachlichen Merkmale die Parteien voneinander – und finden sich dieselben Muster auch in ihren offiziellen Wahlprogrammen wieder?

Um diese Fragen zu untersuchen, haben wir ein Modell trainiert, das vorhersagen kann, von welcher Partei eine Rede stammt. Dabei geht es nicht nur um inhaltliche Positionen, sondern auch um die sprachlichen Strategien, die eine Partei kennzeichnen. Ein solches Modell eignet sich nicht nur für die Kategorisierung politischer Texte, sondern könnte auch auf Beiträge aus der freien Presse und den sozialen Medien angewendet werden. So ließe sich analysieren, inwieweit diese die Sprache und Inhalte einer bestimmten Partei aufgreifen.

Methodik

Um ein Sprachmodell eine neue Aufgabe lernen zu lassen -  hier die Klassifikation der Reden anhand ihrer Partei - bedarf es einer Menge Trainingsdaten. Wir nutzten als Datengrundlage die frei verfügbaren Protokolle der Plenarsitzungen des deutschen Bundestages, aus denen wir Redebeiträge der Bundestagsmitglieder extrahierten und sie anschließend vorverarbeiteten (siehe Abbildung 1). Schlussendlich bestanden unsere Trainingsdaten aus 29.064 Rede-Samples, gewonnen aus 13.025 Reden, die in gleicher Anzahl eines von sechs Partei-Labels SPD, CDU/CSU, FDP, Bündnis 90/Die Grünen, Die Linke, oder AfD trugen. Wir beschränkten den Trainingsdatensatz zeitlich auf die Jahre 2022 bis 2023, in denen die Ampel-Koalition regierte (die verbleibende Regierungszeit 2024/ Anfang 2025 diente als Validierungs-Datensatz). Eine Berücksichtigung früherer Legislaturperioden erbrachte keine Verbesserung des Modells.

Als Sprachmodell nutzten wir GottBERT, das erste deutsche Transformer-Modell des Typs RoBERTa, das anhand eines umfassenden deutschen Text-Korpus vortrainiert ist und in der verwendeten Base-Version 12 Layer und 125 Millionen Parameter  umfasst. Im Vergleich zu anderen deutschen Transformer-Modellen (GBERT/ Gelectra) soll es verbesserte Natural Language Processing (NLP) - Leistungen erbringen (Scheible et al., 2024), was wir in eigenen Vergleichs-Trainings bestätigen konnten. 

Auf Basis der tokenisierten Trainingsdaten erfolgte unser Fine-Tuning des GottBERT-Modells für die Klassifikation der Reden. Wir wählten hierbei ein sequenzielles Vorgehen, bei dem das Modell zunächst mit den Reden aus 2022 und anschließend mit jenen aus 2023 trainiert wurde. In jeder Sequenz trainierten wir das Modell in drei Epochen und validierten seine Klassifikationsleistung anhand der Reden des Folgejahres.

Schließlich untersuchten wir die Klassifikationsleistung des finalen Modells für einen weiteren Testdatensatz,  den wir aus den Wahlprogrammen der Parteien zur Bundestagswahl 2025 gewannen. Für die Vorverarbeitung der Wahlprogramme nutzten wir das in Abbildung 1 beschriebene Vorgehen.

Ergebnisse & Learning

Reden (Trainings- und Validierungsdaten)

Das oben beschriebene Modell konnte die Parteien mit einer Genauigkeit von 67% vorhersagen. Dabei zeigte sich, dass einige Parteien deutlich besser klassifiziert werden konnten als andere. Die Confusion-Matrix (Abbildung 2) zeigt, dass AfD und Linke am besten vorhergesagt werden konnten. Wenn man die Parteinamen vor dem
Training nicht aus den Reden entfernte, wurde eine höhere Accuracy von 71%
erreicht.

Wahlprogramme (Testdaten)

Das trainierte Modell konnte die Testdaten, die Wahlprogramme der Parteien, mit einer Accuracy von 59% vorhersagen. Anders als bei den Bundestagsreden sticht hier die CDU/CSU als die am schlechtesten vorhersagbare Partei hervor. Die große Mehrheit der Absätze aus dem Wahlprogramm wurde der SPD (32) oder der FDP (26) zugeordnet. 0 Absätze konnten richtig zugeordnet werden. Wir konnten keine Gründe in der Datenvorverarbeitung finden, die zu dieser schlechten Vorhersagbarkeit führten. Möglicherweise sind die Reden der CDU von 2022 und 2023 sehr unterschiedlich zu dem Wahlprogramm von 2024.  

Einige der Verwechslungen des Modells, sowohl bei den Trainingsdaten als auch bei den Testdaten, lassen sich gut mit den politischen Ähnlichkeiten zwischen den Parteien erklären (z.B. Verwechslungen der Grünen und der SPD). Hervor sticht dabei die AfD, die am wenigsten Ähnlichkeit mit anderen Wahlprogrammen zu haben scheint und am wenigsten verwechselt wird.

Ausblick

Für eine Erweiterung des Projekts wäre es interessant, ein größeres und noch aktuelleres Large Language-Modell zu benutzen. Dadurch könnte die Accuracy erhöht werden. Des Weiteren könnte man die Ergebnisse von Modellen vergleichen, die anhand von Reden aus unterschiedlichen Zeiträumen trainiert wurden, um die Generalisierbarkeit der Ergebnisse über Legislaturperioden hinweg besser einschätzen zu können. Zudem könnte das Modell auf Pressetexte angewandt werden, um mögliche Biases im Journalismus zu identifizieren.

Link zum GitHub Repository
https://github.com/katrija/redenradar

Literatur 
Scheible, R., Frei, J., Thomczyk, F., He, H., Tippmann, P., Knaus, J., Jaravine, V., Kramer, F., & Boeker, M. (2024). GottBERT: a pure German Language Model. In Y. Al-Onaizan, M. Bansal, & Y.-N. Chen (Eds.), Proceedings of the 2024 Conference on Empirical Methods in Natural Language Processing (pp. 21237–21250). Association for Computational Linguistics. https://doi.org/10.18653/v1/2024.emnlp-main.1183

Team & Rollen

Elena Kosakowski

In alle Schritte des Projekts eingebunden.

Eva Herter

In alle Schritte des Projekts eingebunden.

Katrin Jansen

In alle Schritte des Projekts eingebunden.

Nele Bögemann

In alle Schritte des Projekts eingebunden.

Richard Woermann

In alle Schritte des Projekts eingebunden.

Mentor:in

Thomas Viehmann

Unsere Partner

Unsere Partner

Unsere Partner