Vorhersage von Wahlergebnissen dank maschinellem Lernen

Am 27. September stimmt die Schweiz zum ersten Mal seit Beginn der COVID-19-Pandemie ab, unter anderem über eine umstrittene Initiative zur Beendigung der Arbeitnehmerfreizügigkeit mit der Europäischen Union. Predikon wird das Endergebnis innerhalb weniger Minuten nach der Veröffentlichung der ersten kommunalen Teilergebnisse des Bundesamtes für Statistik vorhersagen.
Schweiz stimmt © 2020 iStock

In der vergangenen halben Dekade haben sich viele Vorabstimmungen und erste Stimmauszählungen in der ganzen Welt als unzuverlässig erwiesen. Die beiden vielleicht berüchtigtsten Beispiele aus jüngster Zeit sind die Abstimmung zum Brexit in Grossbritannien und die Wahl von Donald Trump zum Präsidenten der Vereinigten Staaten. In beiden Fällen war nicht nur die Mehrheit der vor der Wahl durchgeführten Umfragen falsch, sondern viele von uns gingen mit einer ersten Auszählung ins Bett, die zeigte, dass Grossbritannien in der EU bleiben und Hillary Clinton die 45. amerikanische Präsidentin werden würde. Die Ergebnisse des nächsten Morgens waren verwirrend.

In den vergangenen sechs Jahren hat eine Gruppe von Forschern am Information and Network Dynamics Lab (INDY) der EPFL, das zur Fakultät für Computer- und Kommunikationswissenschaften gehört, mit Hilfe von probabilistischen Modellen, gross angelegten Datenanalysen und maschinellem Lernen Predikon entwickelt. Ziel dieses Instruments ist es, die Endergebnisse von Wahlen und Referenden auf der Grundlage einer voraussichtlichen Teilauszählung besser vorherzusagen. Im August legten die Forscher an der Knowledge Discovery and Data Mining Conference (ACM KDD) ein Paper vor, in dem sie ihre statistische Methode und ihre Ergebnisse darlegten.

Mit einem offensichtlichen anfänglichen Fokus auf die Schweiz haben der Doktorand Victor Kristof und der Masterstudent Alexander Immer (heute Doktorand an der ETH Zürich) unter Leitung der Professoren Matthias Grossglauser und Patrick Thiran Wahldaten analysiert und nach einer Struktur im Wahlverhalten der 26 Kantone und rund 2200 Gemeinden des Landes gesucht. «Wir brauchen natürlich historische Daten, um etwas Interessantes zu erfahren, und in der Schweiz verfügen wir dank der direkten Demokratie über eine Menge Daten. Für diese 2200 Gemeinden konnten wir nun die Ergebnisse von mehr als 300 verschiedenen Abstimmungen bis zurück ins Jahr 1981 eingeben. Dabei war das Bundesamt für Statistik sehr transparent und hilfreich beim Verständnis der Daten», sagt Victor.

Die Gemeinden sind zwar unterschiedlich, aber auch nicht völlig unabhängig. Die Forscher haben einen Algorithmus entwickelt, der lernt, wie Wahlvoreingenommenheiten (wie kulturelle, demografische und historische Faktoren) die Umfrageergebnisse beeinflussen, und haben diesen Algorithmus verwendet, um aus Teilauszählungen genaue Vorhersagen zu machen. In einem Land mit vier offiziellen Sprachen (Deutsch, Französisch, Italienisch und Rätoromanisch) wurde in der ersten Version von Predikon, 2014, tatsächlich festgestellt, dass die Sprache einer Gemeinde das Wahlverhalten beeinflusst. Seither haben sich die Algorithmen des Tools weiterentwickelt, und für die vier letzten Abstimmungen konnte es das Ergebnis anhand sehr früher Ergebnisse aus einer kleinen Anzahl von Gemeinden mit einer Fehlermarge von etwa 1 % vorhersagen. «Wir nehmen die vergangenen nationalen Abstimmungsergebnisse jeder Gemeinde und entwickeln ein Modell dafür, wie sie sich zueinander verhalten. Wenn wir all diese Ergebnisse berechnen, wird der Durchschnitt ziemlich stark variieren, aber unser Algorithmus ist in der Lage, verschiedene sprachliche, kulturelle und demografische Verzerrungen zu korrigieren. Das erlaubt uns, mit einigen Teilergebnissen und in welcher Reihenfolge auch immer, eine bessere Vorhersage zu treffen, als einfach den Durchschnitt zu nehmen, wie es normalerweise von den Nachrichtenagenturen gemacht wird», erklärt Victor.

Bei der letzten nationalen Abstimmung, die am 9. Februar vor der Coronavirus-Krise stattfand, sagte Predikon die Ergebnisse sowohl der Änderung des Strafgesetzbuches und des Militärstrafgesetzbuches (Diskriminierung und Aufstachelung zum Hass aufgrund der sexuellen Orientierung) als auch der Volksinitiative für erschwinglichere Wohnungen innerhalb weniger Minuten nach den ersten Teilergebnissen nahezu punktgenau voraus. Am 27. September erwarten wir, dass uns Predikon sehr früh mitteilen wird, ob der freie Personenverkehr zwischen der Schweiz und der EU eingeschränkt wird.

© 2020 EPFL

Das zugrundeliegende Modell ist allgemein gehalten und wurde erfolgreich angewendet, um zusätzlich zu den Schweizer Referenden auch die Ergebnisse der deutschen Bundestagswahlen und die Volksabstimmung der US-Wahl 2016 vorherzusagen. Was künftige Anwendungen betrifft, so kann sich Matthias Grossglauser vorstellen, dass sich Predikon weiterentwickelt, um beispielsweise Umfragedaten vor einer Abstimmung in bessere Ergebnisprognosen zu verwandeln. «Wir könnten versuchen, unser Modell zu nutzen, um Vorhersagen aus Crowdsourcing- oder Umfragedaten zu verbessern. Wir könnten auch die Dynamik untersuchen, wie sich die Meinungen in verschiedenen Bereichen im Laufe der Zeit aufgrund von Bevölkerungs- und/oder demographischen Umschichtungen verändern.»

Und was ist mit der Frage nach den Auswirkungen von Predikon? «Wir entwickeln unsere statistischen Modelle und Algorithmen, um Vorhersagen und Schlussfolgerungen zu treffen, und dann ist man immer auf der Suche nach neuen Anwendungsbereichen und Wirkungsmöglichkeiten. Victor war perfekt dafür geeignet, die weitere Entwicklung von Predikon anzuführen. Er kümmert sich um die Umwelt und die Gesellschaft, und ich denke, dass dies ein Projekt ist, das es uns ermöglicht hat, etwas Sinnvolles zu tun und vielleicht den demokratischen Prozess zu fördern», schliesst Matthias.

Besuchen Sie Predikon unter www.predikon.ch