Blogg

Kommunalpolitik och machine learning

I Finland hölls nyligen kommunalval, där nästan alla som på allvar strävade efter platser i kommunfullmäktige svarade på väljarbaromenterns frågor. Eftersom Yle har publicerat kandidaternas svar i väljarbarometern som öppna data (Källa: Yle, http://yle.fi/uutiset/3-9526290), tänkte jag tillämpa maskininlärning, eller machine learning på materialet.

Mitt syfte är att bygga en förutsägelsemotor som ska tala om, vilket partis mål och värderingar som bäst återspeglas i röstmagneternas svar. Jag begränsar materialet till Helsingfors, och till de partier som har flest kandidater. Efter denna begränsning blir det kvar 760 kandidaters svar på 38 frågor.

Visualisering förtydligar bilden

Det är lämpligt att visualisera data innan den egentliga modelleringen och ur den beräkna allmänna statistikvärden, så jag arbetar först med grafik. För mitt försök med machine learning vore det önskvärt, att skillnaderna mellan de olika partiernas svar skulle vara tydliga, och att variationerna inom partierna skulle vara små, och svaren enhetliga. Om svaren går i kors för mycket, kan det vara svårt att avgöra, vem som tillhör vilket parti.

Jag börjar analysen med frågan om flyktingarnas sysselsättning (Bild 1). Ur modelleringens synpunkt infrias mina farhågor: skillnaderna mellan partierna är små, men inom partierna stora. I praktiken innebär detta, att grundat på kandidatens svar "helt av annan åsikt" kan ingen slutsats om partitillhörighet dras.

Bild 1: Partiernas svarsfördelning för fyra av valkompassens frågor.
Bild 1: Partiernas svarsfördelning för fyra av valkompassens frågor.

Jag fortsätter med frågan om stadens boulevarder. I denna fråga skiljer sig de gröna och sannfinländarna: de som har samma åsikt är mer sannolikt gröna än sannfinländare. För de övriga partierna kan inga direkta slutsatser dras grundat på denna fråga. Jag fortsätter tolkningen av de olika frågorna och får en någorlunda uppfattning om skillnaderna mellan de olika partierna. För att kunna förutsäga varje kandidats partitillhörighet grundat på svaren övergår jag till machine learning, alltså att utnyttja prognos- och sannolikhetsmodeller.

Förutsägelse- och sannolikhetsmodellerna når målet

Jag gör den första avgränsningen i inlärnings- och testmaterialet i proportionerna 75 %–25 %. Då kommer modellen inte att överinlära det givna materialet. Röstmagneternas parti ska förutsägas blint utan att använda kandidaternas svar i modelleringen. Jag lär in förutsägelsemallen med IBM SPSS Modeler genom att gå igenom hela klassificeringsmodellpaletten. Som slutligt verktyg väljer jag en modell, där en tillräcklig mängd av testmaterialets kandidater får rätt parti i förutsägelsemodellen.

Modellen blir mycket bra (Bild 2): av inlärningsmaterialet 73 % och av testmaterialet förutsäger modellen rätt parti. Som jämförelsetal kan Samlingspartiets andel kandidater på 16 % betraktas. Alla större procenttal är ett plus.

Bild 2: Antal kandidater partivis (vänster) samt verkligt och förutspått parti (blandningsmatris) (höger).
Bild 2: Antal kandidater partivis (vänster) samt verkligt och förutspått parti (blandningsmatris) (höger).

Den diskriminantanalys (discrimininant analysis) som valts till modelleringsalgoritm, bildar diskriminantfunktioner som fördelar materialet grundat på diskrimineringsförmågan och bildar av dem nya scoring-variabler med vissa viktningsvärden.

Prognosmodellen för röstmagneternas del är god

När modellen har lärts in grundat på de andra kandidaternas svar, så förutsägs röstmagneternas sannolikaste parti grundat på deras svar. Resultaten kan anses vara mycket intressanta: Resultaten anger bland annat hur stor andel av kandidaternas svar som motsvarar partilinjen. Det mest intressanta är dock svaret på den ursprungliga frågan, alltså om den kampanj som partiernas röstmagneter driver, ligger i linje med det övriga partiet. Resultatet för röstmagneternas del är mycket bra och modellen mycket noggrann (Bild 3) det vill säga modellen kunde förutsäga röstmagneternas parti – trots att svaren från SFP:s Eva Biaudet till stor del liknade åsikterna hos SDP:s kandidater.

Bild 3: Det parti som partiernas röstmagneter tillhör samt det förutspådda partiet.
Bild 3: Det parti som partiernas röstmagneter tillhör samt det förutspådda partiet.

Kanske kan slagordet "Folket vet!" bytas ut mot "Den artificiella intelligensen vet!".