Riigikogu stenogrammid osa 3: meeste ja naiste sõnad
Soolised iseärasused Riigikogu sõnades
Sissejuhatus
Sõnades peitub vägi. Lisaks sellele peidavad sõnad endas meie eelarvamusi, hoiakuid ja stereotüüpe. Peale vaadates tunduvad sõnad olevat suhteliselt lihtsad asjad, kuid nende struktuur võib hoida mõndagi huvitavat. Järgnevalt analüüsin, millised sõnad Riigikogu stenogrammides on tugevamalt seotud mõistetega mees, mehelik ja millised mõistetega naine, naiselik. Aluseks ikka Riigikogu stenogrammid vahemikust 2010-2022. aasta mai.
Andmete kogumisest on juttu siin. Kui tahad analüüsi korrata, siis kood on kättesaadav siin (osad 0_5, 1_1, 1_2 ja 1_3).
Metoodika
Kui tahad kohe tulemusi näha, võid rahulikult selle peatüki vahele jätta.
Analüüsimiseks treenisin sõnadest vektormudelid (word2vec ja fastText). See võimaldab viia sõnad vektorruumi (lihtsustatult saab iga sõna ühe n-elemendilise rea exceli tabelis) ning leida seoseid nende vahel. Näiteks otsides sõnale “kool” lähemaid naabreid võib mudel pakkuda sõnu: “gümnaasium”, “lasteaed”, “õpilane”. Vektormudel on õppinud “aru saama”, et neid sõnu kasutatakse sarnases kontekstis.
Seejärel moodustasin sõnapaarid, millest üks pool iseloomustab naiselikku , teine mehelikku poolt. Kokku kasutasin 17 sõnapaari (miinimum peab olema vähemalt 8). Sõnapaarid aitavad luua kaks poolust, mis iseloomustavad suhteliselt mitmekülgselt mehelikku ja naiselikku külge/rolle. Suurem hulk paare aitab vähendada juhuslikkuse mõju tulemustele. Alloleval tabelis on toodud mõned paarid.
Seejärel võtsin ülejäänud Riigikogu stenogrammide sõnad ja arvutasin nende kalduvuse mehelikkuse või naiselikkuse poole. Valemina kasutasin SC-WEAT’i (Word Embedding Association Test), kus a tähistab naiste sõnu, b meeste sõnu ning w ülejäänud sõnu. cos(…) tähistab koosiinusnurka vektorite vahel, std_dev märgib standardhälvet.
Selle valemi abil saab välja selgitada, millised sõnad on tugevalt kaldu naiselikkuse või mehelikkuse poole. Kalduvust mõõdetakse ühikutes Cohen’i d, mille väärtusi üle 0.50 (või alla -0.5) loetakse mõõdukaks ning üle 0.80 (või alla -0.8) suureks (allikas). Lisaks tagastab mudel ka p-väärtuse, mis on tugevas seoses Cohen’i d-ga. Edasises analüüsis kasutatakse sõnu, mille Cohen’i d oli 0.5 ja üle selle ning p-väärtus väiksem võrdne kui 0.05.
Tulemused
Mõlema vektormudeli puhul olid tulemused veidi erinevad. Mudelite lõikes varieerus oluliselt, kui palju sõnu loeti naiselikuks või mehelikuks (näiteks word2vec leidis, et naiselikke on rohkem kui mehelikke sõnu, kuid fastText leidis vastupidi). Erisused tulenevad mudelite erinevast toimimise loogikast (loe rohkem siit). Peamine vahe on selles, et word2vec vaatleb sõnu väikseima tervikuna, fastText aga sõnaosi.
Keskmise või tugevama seosega sõnad (fastTexti mudeli põhjal) on alljärgneval joonisel. Sõnavektorid on viidud kahedimensioonilise ruumi (igal sõnal on ainult x- ja y-telje väärtus), et oleks lihtsam neid visualiseerida. Iga sõna värvi intensiivsus näitab Cohen’i d suurust. Nagu näha eristuvad selgelt meeste ja naiste sõnade klastrid (saad selle graafikuga mängida: suurendada mõnda osa).
Kellel on suurem huvi, siis siin on fastTexti naiselike sõnade vektorite automaatselt leitud klastrid. Sarnane graafik mehelike sõnade kohta asub siin.
Järgnevalt vaateleme konkreetselt sõnu, mis nii word2veci kui ka fastTexti vektorite põhjal olid naiselikumad. Värvid tähistavad automaatselt leitud sarnaste sõnade klastreid (kasutasin pythoni teeki HDBSCAN).
Silma hakkab, et sõnad “psüühikahäirega”, “ravi”, “sündima” on naiselikumad. Sama on sõnadega “kooli”, “põhikooli” ning muretsemisega. Psüühikahäired võivad olla seotud rohkem naistega, kuna see on siiski jätkuvalt meeste seas rohkem stigmatiseeritud teema (ja selle tõttu räägivad nemad sellest vähem).
Vaatleme nüüd sõnu, mis nii word2veci kui ka fastTexti sõnavektorite põhjal olid rohkem mehelikkusega seotud.
Meeste puhul hakkab silma nimede rohkus (isik on oluline), samuti “tugevus”, “uhkus”, “aplaus”, “tööplaan”, “patriotism”, “jalajälg” jne. Mehelikud sõnad tunduvad olevat rohkem seotud isiku ja tema tugevuse/mõjuga ning ka välisega.
Järgnevalt toon ära mõned kõige suurema naiselik ja meheliku kalduvusega sõnad (siit edasi kasutan fastText’i mudelit, kuna selle tulemused tundusid mulle selgemad). Naiste sõnade puhul pole üllatust, tulemus klapib paljuski eeltoodud nimekirjaga. Naiselikumad sõnad on psüühika, psüühikahäired, õppimine ning kehvus (“kehvemas”, “raskemasse”).
Meestegi puhul pole palju üllatusi eelnevaga võrreldes. Silma hakkavad sõnad “loosungiga”, “tormata” ning jällegi isikunimed:
Kuna sõnu on palju, klasterdasin nad sarnasuse alusel gruppidesse, millele panin oma äranägemise järgi nimed (kui nime panna ei osanud, võtsin sealt esimesed kaks sõna). Klastrid on reastatud, mitu korda nende sõnad esinesid Riigikogu stenogrammides kokku. Naiste puhul hakkavad silma tavalised teemad, mis ennegi (haigus, vananemine, õppimine):
Meeste puhul domineerivad edu, ülepeakaela, turg, veebileht, torm. Oluline on ka see, et meeste puhul on varieeruvus suurem, meeste sõnad jaotusid 35 klastrisse (ja oluline hulk oli neist klastris muu). Naiste sõnad jaotusid ainult 9 klastrisse).
Tundub, et vektormudelid on päris hästi suutnud leida naiselikkuse ja mehelikkuse poole kalduvaid sõnu. Väga šovinistlikult võiks teha järelduse:
- naised: psüühikahäirega õppurid, kes kannatavad ja on kehvemas seisus
- mehed: tähtsad isiksused, kes tegutsevad ülepeakaela, fokuseerivad edule ning pakatavad ideedest ning tegelevad majandusega.
Selliseid lihtsaid narratiive saaks nendest sõnadest palju luua. Tegelikult võib pilt olla veidi proosalisem. Naiste puhul domineerivad haigus, vananemine, kuna tihti kannavad nemad haigete ja vanade inimeste hooldamise koormust. Õppimise ja kooliga on sarnane lugu, et tihti on naised (emad) need, kes hoolitsevad, et lastel läheks koolis hästi (mingitel erialadel õpib naisi samuti rohkem kui mehi).
Ajalooliselt on meeste isiksust peetud domineerivaks ja edule orienteerituks. Sellest ka nimede rohkus nende sõnade grupis. Samuti on tehnoloogiat (klaster “veebileht”) peetud rohkem meeste alaks. Lisaks iseloomustatakse mehi rohkem kui naisi sõnadega tormakad (“tormata”) ja ülepeakaela tegutsejad. Samuti on varieeruvus meeste klastris suurem.
Lõplikku tõde mudel ei anna, kuid nagu näha, suutis mudel, mille eesmärk oli veidi “aru saada” sõnade vahelistest seostest, ära õppida erinevate soorollide poole kallutatuse. Aja jooksul võivad need seosed muutuda ning nende märkamiseks oleks vaja rohkem andmeid viimastest aegadest. Siit ka mõte masinõppe rakendamisel: ole ettevaatlik, et sinu ajaloolisetel andmetel treenitud mudel ei levitaks ning kinnistaks stereotüüpe edasi.
Kokkuvõte
Kokkvõtvalt on näha, kuidas suhteliselt lihtne vektormudel suutis üles leida soorollidele iseloomulikud sõnad ilma, et me seda selleks oleks otseselt õpetanud. Naised tegelevad rohkem hoolitsemise, õppimise teemadega, meestele on oluline isiksus ning edu. Oluline on meeles pidada, et tegemist on suhteliselt pikema perioodi andmetega.
Andmed on salakavalad. Meie sõnad kannavad kaasas meie soorolle ning hinnanguid, ilma, et me selleks midagi tegema peaks.
Kasutatud kirjandus
- Amit Chaudhary, A Visual Guide to FastText Word Embeddings, https://amitness.com/2020/06/fasttext-embeddings/
- Aylin Caliskan, Pimparkar Parth Ajay, Tessa Charlesworth, Robert Wolfe, Mahzarin R. Banaji, Gender Bias in Word Embeddings: A Comprehensive Analysis of Frequency, Syntax, and Semantics, https://arxiv.org/abs/2206.03390
- How HDBSCAN Works, https://hdbscan.readthedocs.io/en/latest/how_hdbscan_works.html
- Jay Alammar, The Illustrated Word2vec, https://jalammar.github.io/illustrated-word2vec/
- Kavita Ganesan, FastText vs. Word2vec: A Quick Comparison, https://kavita-ganesan.com/fasttext-vs-word2vec/