Riigikogu stenogrammid osa 1. Teemade dünaamika 2010–2022

Risto Hinno
8 min readJul 28, 2022

--

Teemad tulevad ja lähevad, Riigikogu jääb

Toompea lossi lõunatiib. Allikas

Käesolevas postituses võtan vaatluse alla Riigikogu stenogrammide lõikude teemade dünaamika aastatel 2010-2022 (viimasest aastast on stenogrammid kuni 9. juunini). Näitan, kas ja kui palju masinõppemudeliga leitud teemad ja nende dünaamika langeb kokku päris elus toimunud sündmustega. Masinõppe eeliseks on kiirus (mudeli saab valmis olenevalt andmete mahust ja arvuti võimsusest mõne minuti kuni paari tunni jooksul) ning kvantifitseeritavus (lihtne on arvutada, kui palju tekste mingis teemas on).

Postitusest saad näiteks teada, milline teema on aastases võrdluses kõige enam kasvanud (vihjeks võin öelda, et selleks ei ole koroona) ning kuidas paistab teemadest välja eelmise majanduskriisi mõju.

Andmete kogumise ja töötlemise kirjelduse leiad siit. Postituse graafikud koos koodiga nende genereerimiseks on kättesaadav siit. Kõik teemad ja trendid on leitud automaatselt ilma minupoolse korrigeerimiseta.

Teemade klastrid

Enne konkreetsete teemade analüüsi keskendusin 20 teema klastrile (leitud teemad üritasin masinõppe abil klasterdada sarnastesse gruppidesse). See tundus efektiivsem strateegia kui alustada kõigi 1152 algselt leitud teema või “ainult” 246 sisulise teema analüüsiga. See võimaldab vaadata, kas mõni klaster on teistes rohkem kasvanud või kahanenud. Klastrite analüüsi miinuseks on fakt, et ilma klastri olevad teemasid analüüsimata pole võimalik aru saada, mis teemasid klaster hõlmab. Sisuline analüüs järgneb klastrite analüüsile.

Alljärgnevad kaks graafikut kujutavad kõikide ja ainult sisuliste teemade stenogrammi lõikude (edaspidi tekstide) arvu klastrite ning aastate lõikes.

Kõikide teemade klastrite tekstide arvu dünaamika
Sisuliste teemade klastrite tekstide arvu dünaamika

Üldjoontes on klastrite dünaamika sarnane vaatamata sellele, kas analüüsida kõiki või ainult sisulisi teemasid. Tekstide arv on kõige suurem aastatel 2016–2017 (üle 9000) ning madalam aastatel 2013 ja 2019 (5000 lähedal). Visuaalselt on näha, et klastrite proportsioonid on suhteliselt stabiilsed. Siiski on näiteks klastri 12 puhul näha, et 2022. aasta esimeses pooles selle osakaal kasvas (teiste teemade tekstide arvud on vähenenud, kuid selle oma jäänud suhteliselt samaks).

Saamaks aru, milliseid teemasid täpsemalt klastrid endas sisaldavad, analüüsin lähemalt nendest mõningate sisu.

Klastrite teemad

Klastrite puhul on näha, et nende proportsioonid muutusid vähe. Üksikute teemade puhul aga selline muster paika ei pea. Alljärgnevalt toon ära valiku minu jaoks huvitavamatest leidudest, mis puudutavad sisulisi teemasid (sisuliste teemade määramist olen kirjeldanud siin). Keda huvitavad kõik sisulised teemad, need võivad vaadata tulemusi siit. Iga teema nimetamiseks/määramiseks kasutan mudeli pakutud kolme esimest teemat kõige paremini iseloomustavat (eristavat) sõna. Minu poolt tehtud vea tõttu on teemade nimedest kadunud täpitähtede täpid, kuid see ei sega sisust arusaamist.

Teemad ei pruugi olla täpselt sellised nagu inimesena neid nimetaksime, kuid oluline on, et teemade sisu oleks enam-vähem arusaadav. Teemade mudeli eesmärk ei ole leida tekstidest filigraansete nimetustega teemasid vaid anda kiire ülevaade, milliseid teemasid üldse käsitletakse.

Klaster 19

Klaster 19 sisaldab endas teemasid, mis on otseselt ja kaudselt seotud tervise, tervishoiuga ning töötusega. Alltoodud joonisel on näidatud klastri teemade tekstide (stenogrammide lõikude) arvu proportsioonid (iga aasta tekstide proportsioonide summa on 1 ehk 100%). Siia kuulub teema “viirust vaktsineeritud viiruse”, mis kujutab endast koroonaviirust ja sellevastast vaktsineerimist. Nagu näha kasvas teema osakaal 2021. aastal ligikaudu 50%-ni kogu klastri tekstidest (2019. aastal oli selle teema osakaal väga väike). 2020. aastal jõudis koroona Eestisse ja oli mõnda aega üks enim arutatud teemasid nii ühiskonnas kui ka parlamendis (ja muud tervise/meditsiini teemad said selle tõttu vähem tähelepanu). Vaktsineerimine läks suurema hooga lahti 2021. aastal. Tasub tähele panna, et koroona teema võib sisalduda muudeski teemades (koroona puudutas nii majandus, haridust jms).

Klastri 19 teemade proportsioonide dünaamika

Lisaks sellele on klastrist 19 selgesti tuvastatav apteegireform (saavutas populaarsuse tipu 2019. aastal) ja töövõimereform (saavutas tipu 2014. aastal). 2010. aastal on selgelt näha, kuidas väga suur teema oli “tootuid tootute tootu” (veidi madalam osakaal kui koroona teemal 2021. aastal, kuid mitte eriti palju). See oli “pärandus” eelmisest majanduskriisist, kus töötuse tase oli kõrge. Majanduse elavnemisega muutus selle teema osakaal oluliselt väiksemaks. Omaette teema on eriarstiabi (“eriarstide eriarstiabi eriarsti”), mis on olnud märgatava osakaaluga aastani 2019 ning sealt edasi on andnud osa oma populaarsust arvatavasti apteegireformile ja koroonakriisile.

Klaster 17

Klaster 17 kujutab endast teemasid, mis on seotud pensioni, toetuste ja hüvitistega. Selgelt on näha lastetoetuste tõusu teema (“lapsetoetust lapsetoetus lapsetoetuse”) 2022. aastal. See oli Keskerakonna etenduse keskseks elemendiks, et saada võimalikult väikese valuga valitsusest minema (allikas). Teema oli populaarne ka aastatel 2012–2014. Selgelt eristub II pensionisamba reform (“samba sammas sambasse”), mille osakaal oli märgatavalt suurem varasemast aastatel 2019–2020. II samba reformi arutelu ja muudatuste vastuvõtmine jääb sellesse aega (allikas).

Klastri 17 teemade proportsioonide dünaamika

Selgelt on näha tulumaksuvaba miinimumi tõstmise teema kasvu (“tulumaksuvaba maksusüsteemi tulumaksu”) aastatel 2015–2018. See teema hõlmab endas lisaks maksumäära tõstmisele ka muid tulumaksualaseid muudatusi. Lisaks on näha, kuidas alates 2019. aastast on kasvanud pensionitõusu teema.

Klaster 11

Klaster hõlmab endas teemasid, mis on seotud eelarve, rahanduse ja laekumistega. Alljärgnevalt jooniselt on näha, kuidas eelarve ülejäägi/puudujäägi teema (“ulejaagis struktuurses struktuurse”) muutus populaarsemaks aastatel 2016–2017 (ning pärast seda on järk-järgult oma populaarsust kaotanud). Osaliselt võib see olla seotud 2016. aasta novembris ametisse nimetatud uue valitsusega, kus tasakaalus eelarve ei olnud väga oluline põhimõte. Sellel perioodil on olnud küsimusi, kas eelarve on struktuurses tasakaalus või mitte (allikas).

Klastri 11 teemade proportsioonide dünaamika

Lisaks eristub kodualuse maa maamaksu teema (“kodualuse maamaksu maamaksust”) aastatel 2011–2012. 2012. aastal võeti vastu seadus, millega vabastati koduomanikud maamaksust (allikas). Selgelt on paistab silma Kreeka finantsabi teema (“efsm esm kreekale”) aastatel 2011–2012 ja aastal 2015. Neil aastatel käis teema Riigikogust läbi (allikas, allikas). Olid vast ajad.

Klaster 12

Klaster 12 hõlmas endas algselt 38 teemat, siin on ära toodud ruumi kokku hoidmiseks 20 kõige populaarsemat. Sisuliselt tundub see klaster endas hõlmavat välispoliitika, kodakondsuse, riigikaitselisi teemasid. Silma hakkab Ukraina sõja teema (“krimmi agressiooni ukraina”) 2022. aastal ning koos sellega päevakorda kerkinud keskmaa õhutõrje. Eesti kaitsevõime tugevdamine (sh keskmaa õhutõrje) on käesoleval aastal arutelu all olnud korduvalt. Leitav on 2020. ja 2021. aastal poleemikat tekitanud vihakõne arutamine (“vagivallale vihakone ohutamine”) (allikas).

Teemade klastri 12 top 20 teema proportsioonide dünaamika

Lisaks leiab viiteid kodakondsusseaduse muutmisele 2019. aastal (“kodakondsust kodakondsuse kodanikuks”) ning pagulaskriisile 2015. aastal (“pagulasi pagulased pagulaste”). Rändekriisi põhirõhk langes aastatele 2015–2016 (allikas).

Klaster 6

Klaster 6 hõlmab endas 60 teemat, siin on toodud 20 kõige populaarsemat. See grupp hõlmab endas energeetika, põllumajanduse, haldusreformiga seotud teemasid. Tegemist on suhteliselt kirju klastriga. Selgelt on eristatavad LNG terminali teema (“lng terminali gaasi”), mis kerkis päevakorda 2022. aastal tänu Ukraina sõjast tingitud Vene gaasist loobumisele. Samuti on näha, kuidas tõusvad energiahinnad ja taastuvenergia on päevakorda tõusnud alates 2021. aastast (“elektri elektrit taastvuenergia”). Selgelt joonistub välja alkoholiaktsiisi temaatika (tipp 2019. aastal), mis tekitas samuti ühiskonnas teravat vastukaja (allikas).

Teemade klastri 6 top 20 teema proportsioonide dünaamika

Veel joonistuvad välja metsanduse teema (“metsa metsade mets”), mis on tekkinud tugevamalt pilti 2017. aastast. Metsanduse teema pole küll väga suure kasvuga, kuid siiski selgelt eristuva trendiga. Nn metsasõjad on kestnud mitu aastat ja ei näita erilisi vaibumise märke (allikas). Samuti on näha haldusreformi teema (“vallaga vald sauga”). Haldusreform toimus 2017. aastal (allikas). Graafikult on näha, kuidas selle teema osakaal on pärast seda vähenenud.

Igal aastal midagi uut

Eelnevalt vaatlesin üksikuid klastreid ja nendes sisalduvaid teemasid. Saamaks ühtset pilti, mille poolest iga aasta erineb eelnevast, otsisin üles teemad, mis konkreetsel aastal kasvasid võrreldes eelmise aastaga. Arvesse võetakse nii kasvamise maht kui ka kasvamise usaldusväärsus: mida madalama taseme pealt teema proportsioon kasvas, seda tõenäolisem on, et tegemist pole juhusliku kõikumisega. Näiteks kasvamine 0.01-lt 0.02-ni (ehk 1%-lt 2%-ni) on protsentuaalselt küll suurem, kuid ebakindlam (juhuslikum) kui 0.5-lt 0.7-ni (50%-lt 70%-ni). Selle tõttu ei ole alltoodud graafikul alati kõik teemad järjestatud kasvukordaja (mitu korda teema populaarsus kasvas võrreldes eelmise aastaga) järgi.

Kuna mõne teema kasvukordaja on ülimalt kõrge, ei pruugi teiste teemade kordajad graafikult välja paista, kuid kõik graafikul olevad teemad kasvasid.

Eelmise aastaga võrreldes populaarsust kasvatanud teemade esiviisik koos kasvukordajaga

Graafikult on näha, kuidas näiteks 2011. aastal võrreldes 2010. aastaga kasvas kodualuse maamaksu vabastuse teema (kordajaga 17.4) ning Kreekale finantsabi andmine (kordajaga 10.4). Vaadeldaval perioodil kõige suurema kasukordajaga on pagulaste teema (“pagulasi pagulased pagulaste”) 2015. aastal võrreldes 2014. aastaga (kordajaga 120.2). Sellele ei saa lähedale ka koroonapandeemia (“viirust vaktsineeritud viiruse”) 2020. aastal (kasvufaktor 20.9). Pandeemia puhul tuleb arvestada, et selle baasmäär hakkas kasvama juba 2019. aasta lõpus kasvas.

Igal aastal on iseloomulikud teemad (lisaks üldistele teemadel, mis korduvad aastast aastasse). Näiteks 2021. aastat iseloomustasid taastuvenergia, tõusvad elektrihinnad, mure huvihariduse pärast), 2020. aastat aga vaktsineerimine, koroona, eriolukord, 2019. aastat aga hoopis maaeluminister Järvik (täpsemalt lasti ta lahti: allikas), II samba pensionireform.

Eeltoodud meetodiga on võimalik iseloomustada erinevaid aastaid ning leida automaatselt teemad, mis konkreetsel aastal kerkisid esile. Jätan lugeja enda valideerida, kui eeltoodud teemad iseloomustavad neid aastaid.

Kokkuvõte

Kokkuvõtvalt näitasin, kuidas teemade mudeldamise abil on võimalik leida üles teemad, mis kerkivad esile (kui nende proportsioonid muutuvad). Sedasi on võimalik automaatselt tuvastada valitud perioodi trendid, muutused. Riigikogu andmete põhjal on näha, et mudeliga leitud trendid langevad suhteliselt hästi kokku reaalsete sündmuste või populaarsete teemadega ühiskonnas. Seda meetodit on võimalik kasutada teemade ja trendide leidmiseks peaaegu igasugustest tekstidest (sotsiaalmeedia postitused, kliendivestlused, ajalehed jne).

Analüüsi eristus selgelt koroonakriis, mis hõivas suure osa klastri 19 stenogrammide lõikude teemadest. Samas pole siiski tegemist kõige enam aastases võrdluses kasvanud teemaga. Pagulaskriisi kasvukordaja oli 2015. aastal 120 (koroonal 2020. aastal “ainult” 20). Iga kriisil ja teemal on erinev kasvamise määr ja ka aeg. Mõni kriis võib aja jooksul pikalt areneda (nagu koroona, mille kõiki mõjusid ja tagajärgi alles hakkame nägema), teine võib olla lühike aga kiire kasvu ja langusega.

Seeria järgmine postitus asub siin.

Kasutatud allikad

--

--