Kui tehistaibu arendajaga koolimajja jõudis, oli düstoopia juba alanud

Risto Hinno
11 min readApr 3, 2023

--

Tehisintellekti otseseim oht ei ole terminaatorid

Tehisintellekti/tehistaibu (mida ma siiski eelistan endiselt nimetada masinõppeks) võimekus on viimasel aastal teinud suure hüppe. Näiteks võime masina abil luua realistlikke pilte, kirjutada sidusat teksti või luua muusikat. See viib eksistentsiaalse küsimuseni: mis juhtub, kui ühel hetkel masin ongi intelligentsem kui inimene. Vastureaktsioonina kiirele tehistaibu arengule on välja pakutud pausi tegemist (allikas: “Pause Giant AI Experiments: An Open Letter”). Pausi saaks kasutada turvalisema tehisintellekti arendamise reeglite ja raamistiku loomiseks.

Tehistaibu turvalisuse küsimuste varju kipub jääma vähem seksikas koolkond, mis tegeleb tehisintellekti eetikaga. Selle oluliseks vaatenurgaks ei ole mitte niivõrd terminaatorrobotite vastu kaitse leidmine vaid juba olemasoleva tehistaibu negatiivsete kõrvalmõjude teadvustamine ja vähendamine. Alljärgnevalt on kokkuvõtlik ülevaade kahe koolkonna/lähenemise— turvalisus ja eetika — võrdlusest.

Tehistaibu turvalisuse ja eetika põhiküsimuste võrdlus erinevates valdkondades (allikas: “A misleading open letter about sci-fi AI dangers ignores the real risks”)

Turvalisus ja eetika on mõlemad olulised, kuid avalikus debatis kipub esimene rohkem tähelepanu saama (no inimkonda hävitav tapjarobot on tundub suurem kui oht ebatäpsest masinõppe mudelist). Võttes analoogia tuumaohutuse maailmast, siis turvalisuse koolkond tegeleb justkui sellega, et mõni pahalane endale tuumarelva ei saaks. Eetika koolkond aga tegeleb sellega, et tuumarelva arendamisel oleks tuumakütus turvaliselt hoitud ja keegi sellega pahatahtlikke ning rumalaid katseid ei teeks (näiteks, toppida radioaktiivseid aineid hambapastasse) ning vastutaks selliste katsete tulemuste eest. Eetika koolkonna üks kriitika turvalisuse koolkonnale on, et apokalüpsise juttude varjus jäetakse praegused probleemid tahaplaanile.

Järgnevalt avan oma nägemuse tehistaibu eetika koolkonna vaatest tehisintellekti ohtudele ja negatiivsetest mõjudest.

Pahalane nimega “andmed”

ChatGPT on tekitanud paljudes hirmu, et see tööriist võtab inimestelt töö ära. Selle varjus kipub tihti jääma märkamata, et mis on tehistaibu tegelik võimekus ja selle piirid ning kust need tulevad (vihje: ChatGPT ei mõtle, vaid annab soravaid vastuseid, mis võivad, kuid ei pruugi olla tõesed). Masin õpib andmetest: ka ChatGPT üheks edu saladuseks on massiivse hulga andmete kasutamine treenimisel.

Me arvame tihti, et andmed on objektiivsed, neutraalsed ja sisaldavad “tõde”. Andmeid loovad, koguvad ja töötlevad inimesed. Inimesed on aga ebatäiuslikud olendid: meil on eelarvamused, stereotüübid, kultuurilised hoiakud jne. Kõik see aga peegeldub vastu andmetes ja masin oskab neid suurepäraselt sealt üles leida. Me võime lapsele rääkida, et ropendada ei tohi, kuid kui me seda ise vanematena teeme, siis õpib laps selle ikkagi ära.

Lihtne näide Riigikogu stenogrammidest. Treenisin ühe väga lihtsa mudeli, mille ülesandeks on leida sõnadevahelisi seoseid. Mudeli sisendiks olid stenogrammid aastatest 2010–2022. Väljundiks pakub mudel minu sisendsõnaga tihedalt seotud sõnu. Näiteks sõnaga “koer” võiks tihedalt olla seotud sõnad “kutsikas”, “koeratoit” ning vähem seotud sõnad “riigieelarve”, “eelnõu”. Mudeli põhjalikumal analüüsil on võimalik tuvastada, millised sõnad on rohkem seotud mõistega “mees” ja millised rohkem mõistega “naine”. Tulemused on toodud alljärgnevas tabelis.

Kontseptsioon “mees” sõnad: loosungiga, tormata, ideena, nimekiri, toompea. Konteptsioon “naine” sõnad: psüühika, psüühikahäirega, õppe, psüühikahäire, kehvemasse
Riigikogu stenogrammide põhjal leitud kontseptsioonide “mees” ja “naine” lähimat TOP 5 sõna (allikas: “Riigikogu stenogrammid osa 3: meeste ja naiste sõnad”)

Seega stenogrammide andmetest ja seetõttu ka mudelist vaatavad vastu soolised stereotüübid. Mehed tegelevad loosungitega, tormamisega, ideedega (ja Toompea on üldse rohkem mehelik kant). Naised on seotud psüühikahäiretega, õppimisega. Ma ei suunanud mudelit soolisi stereotüüpe ära õppima. Kuna masinõpe on väga võimekas andmetest (peidetud) mustrite leidmisel, leitakse need üles ka ridade vahelt. Sarnaseid analüüse on tehtud palju ning see pole midagi harukordset (näiteks: “Gender Bias in Word Embeddings: A Comprehensive Analysis of Frequency, Syntax, and Semantics).

Rassistlikke näiteid ChatGPTst

ChatGPT on samuti leidnud üles andmetes olevad rassistlikud ja soolised stereotüübid. Järgnevalt näide, kus masinal paluti kirjutada pythoni programm, mis võtab sisendiks soo ning rassi ja vastab, kas ta on hea teadlane. Ainult siis, kui sisendiks on “valge” ja “mees” vastab programm, et tegemist on hea teadlasega.

Pythoni proggramm, mis võtab sisendiks soo ja rassi ning ütleb, et inimene on hea teadlane kui ta on valge mees
ChatGPT arvab, et ainult valged mehed on head teadlased (allikas: Twitter)

Teine näide, kus paluti kirjutada pythoni programm, mis võtab sisendiks soo ja rassi ning väljastab, kas lapse elu tuleks päästa. ChatGPT päästaks kõik teised peale afroameeriklastest poiste.

Pythoni programm, mis võtab sisendiks rassi ja soo ja ütleb, kas elu tuleb pääasta. Kõikidel muudel juhtudel tuleb välja arvatud meessoost afroameeriklaste puhul
ChatGPT arvab, et afroameeriklastest poiste elu pole vaja päästa (allikas: twitter)

Praegu ChatGPT sellistele küsimustele ei vasta, kuna mudeli kontrolle on täiendatud. See ei tähenda, et kallutatus ja stereotüübid oleksid kadunud, lihtsalt ligipääs neile on tehtud väga keeruliseks.

Kahju kallutatusest

Mis siis sellest, et seal on kallutatus: ühiskond ongi selline, keegi pole ideaalne. Probleem on selles, et masin võib oma kallutatust võimendada järjepidevalt. Eriti kui me kasutame selliseid süsteeme laialdaselt ja asjatundmatult. Kas me tahame, et tulevik oleks praeguse peegeldus? Mõned üksikud näited, kus tehistaibu kallutatus on sattunud/oleks sattunud töösüsteemidesse ja tekitanud pahandust:

  • Amazoni tehistaibut kasutav värbamistööriist diskrimineeris naisi, kuna ajalooliselt olid neist väga vähesed kandideerinud tehnilistele ametikohtadele. Tehistaibu õppis ära, et kui CV tuleb naiselt, siis ta ametikohale ei sobi (“Amazon scraps secret AI recruiting tool that showed bias against women). Õnneks seda tööriista enam ei kasutata (vist).
  • Amazoni näotuvastuse tehistaibu ülesandeks oli politseid aidata tuvastamaks isikud, keda võiks kontrollida (kuna nad on varasemalt seadusega pahuksis olnud). Testimine Kongressi liikmete peal muutus naljakaks (või kurvaks), kui masin tuvastas, et 28 liiget olid kunagi olnud arreteeritud. Tuvastatute seas oli ebaproportsionaalselt palju muu kui valge nahavärviga inimesi (“Amazon’s Face Recognition Falsely Matched 28 Members of Congress With Mugshots”). Tööriist õnneks kasutusse ei jõudnudki, kuid oleks praktikas suunanud politseid ebaproportsionaalselt rohkem teistsuguse nahavärviga inimesi kontrollima. Ajaloolistes andmetes on selge muster, kus mustanahaliste inimeste osakaal kurjategijate seas on kõrgem kui üldine populatsioon seda lubaks. Kuid vähemalt osaliselt on see pärand ajaloolisest diskrimineerimisest ja orjapidamisest.
Rassiline kallutatus Amazoni näotuvastuse tööriistas. 20% Kongressi liikmetest on värvilise nahaga, kuid 39% valesti tuvastatustes olid värvilise nahaga
Rassiline kallutatus Amazoni näotuvastuse tööriistas (allikas: “Amazon’s Face Recognition Falsely Matched 28 Members of Congress With Mugshots”)
  • Houstoni kooliõpetajate hindamise süsteemi kasutati kõike teadva musta kastina: masin andis õpetajale hinnangu ja madala hinnanguga inimene lasti lahti. Kellelgi ei olnud õigust näha kasti sisse, kuidas selline hinnang saadi ja veel vähem seda vaidlustada. Lihtsustatult hindas masin, kui häid tulemusi õpilased eksamitel said võrreldes teiste koolide keskmisega. Kohus keelas sellise süsteemi kasutamise ja õpetajate ametiühingule maksti hüvitist. (“Houston teachers to pursue lawsuit over secret evaluation system” ja “Houston ISD settles with union over controversial teacher evaluations”). Siin diskrimineeriti näiteks õpetajaid, kes õpetasid õpiraskustega lapsi, kelle keskmised tulemused kipuvad kehvemad olema. Lühiajaliselt hoiti sellega aega kokku õpetajate hindamiselt, kuid pikaajaliselt soositi, et õpiraskustega õpilastel oleks veelgi raskem (pole neid mõtet õpetada, mind lastakse lahti).
Houstoni õpetaja seisab kohtus, käes plakat, kus on valem, mille alusel õeptajate tööd hinnati
Ilus valem, kuid pime rakendamine tõi kaasa palju pahandust ja vallandamisi (allikas: “Houston ISD settles with union over controversial teacher evaluations”)

Need on vaid mõned näited. Kellel teema vastu laiem huvi, soovitan lugeda Cathy O’Neil’io raamatut “Weapons of Math Destruction” ja artiklite kogumikku “Your Computer Is on Fire”. Eeltoodud näidete puhul on näha, et kallutatuse tuvastamine on keeruline. Keegi pole programmi sisse kirjutanud viga. Kallutatuse mõju paistab välja alles mõne aja pärast, sedagi alles siis, kui kellelgi tekib kahtlus. Tihti ei saa rakendajad aru, kuidas tehistaibu töötab, arendajad aga tihti ei räägi, milliseid andmeid kasutati mudeli treenimisel. Pihta saavad seega lõpuks need, kes on ajalooliselt olnud nõrgemal positsioonil - kelle hääl jääb tihti tahaplaanile.

Info levik — võimu koondumine

Eetika koolkonna kriitikaks ajuvaba tehisintellekti rakendamise suunas on oht võimu koondumise ja infovälja manipuleerimine. Näiteks info leviku suunamine on oluline tehisintellekti kätte antud võim (sotsiaalmeedias toimetab selles vallas tehistaibu juba ammu). Me ei peaks kartma tehistaibu tarkust (ta on juba praegu meist targem males, Go mängus ja paljudes muudes kitsastes valdkondades) vaid seda, kui anname tema või tema arendajate kätte suure võimu. See võimaldab tekitada võimukeskuseid, mis teenib ainult kitsa grupi huve (teenida maksimaalset kasumit, hoida oma autoritaarset režiimi võimul) ilma muid tagajärgi arvestamata.

Lamemaalaste levik võib tunduda naljakas, kuid spektri teises otsas on inimesed, kes peavad maksma oma eluga tõese info leviku eest. 2021. aasta Nobeli rahupreemia laureaadi Filipiinide ajakirjanik Maria Ressa sõnadega:

  • “[…] our personal experiences sucked into a database and organized by AI, then sold to the highest bidder […] it’s a behaviour monefication system in which we are all Pavlov’s dogs experimented on in real-time with disastrous consequences in countries like mine […]
  • An invisible atom bomb has exploded in our information ecosystem & the world must act as it did after Hiroshima…we need to create new institutions like the United Nations. Like the universal declaration of human rights…It’s an arms race in our information ecosystem. […] It begins by restoring facts. We need information ecosystems that live and die by facts. We do this by shifting social responsibilities to rebuild journalism for the 21st century, by regulating and outlawing, the surveillance economics that profit from hate and lies.

Sotsiaalmeedia platvormides rakendatavate tehistaibude negatiivsed mõjud annavad tugevalt tunda haavatavates kogukondades. Nemad jäävad tihti ilma sellest vähesestki võimust, mis neil oli. Järgnevalt kurb näide Mynamarist.

Pole saladus, et Facebook on mänginud rolli rohingjade genotsiidi soodustamises Mynamaris (“Rohingya sue Facebook for £150bn over Myanmar genocide”). Facebooki lihtsalt ei huvitanud, et automaatne soovituste algoritm võimestab viha õhutavaid postitusi. Inimmoderaatoreid oli samuti väga vähe (milleks, kui see oleks ainult kulu). Genotsiidis hukkus üle 25 000 inimese, kümned tuhanded vägistati ja üle 700 000 inimese põgenes üle piiri (“Rohingya genocide”). Facebook polnud küll genotsiidi korraldaja, kuid selle võimestaja. Seekord said pihta jälle need, keda on ajalooliselt taga kiusatud ja rõhutud.

Kaart Myanmari Rahhine osariigi hävitatud ja terveks jäänud küladest 2017. aastal. 288 küla hävitati, 578 jäi terveks
Myanmari Rakhine osariigi hävitatud ja terveks jäänud külad (allikas: Myanmar Rohingya: What you need to know about the crisis)

Äge tehistaibu lahendus võib muuta kellegi elu põrguks, kui me ei arvesta laiemaid tagajärgi. Diktaatoritele võivad sellised tehistaibul põhinevad lahendused kasulikud olla: teevad musta töö nende eest ära. Praktikas võib kitsarinnaline tehistaibu rakendamine võimestada kurja (rääkimata koostööst autoritaarsete režiimidega).

Ärakasutamine

Üks valdkond, mida tehistaibu eetika koolkond tahab pilti tõsta on fakt, et tehistaibu pole füüsilisest maailmast eraldatud. Pole olemas abstraktset pilve. Tegelikult on pilv kuskil füüsiline ränist protsessoritega serverifarm, mille tootmiseks on kasutatud haruldasi muldmetalle ning mis tarbib energiat. Rääkimata sellest, et tehisintellekti loomiseks on vaja ohtralt inimeste tööd.

Tihti on suurte mudelite taga suur hulk inimesi, kes madala palga eest teevad nähtamatud kuid rasket tööd. Näiteks kasutab OpenAI andmete märgendajaid, kes filtreerivad välja toksilisi tekste, mille lugemine on töötajatele vaimselt raske (“AI boom is dream and nightmare for workers in Global South” ja “Exclusive: OpenAI Used Kenyan Workers on Less Than $2 Per Hour to Make ChatGPT Less Toxic”). Tihti viiakse need tööd arengumaadesse, kuna seal on töötajate kaitse regulatsioon ning tööjõukulud madalamad. Mõnd lapspornot lugema sunnitud läbipõlenud moderaatorit on seal lihtne välja vahetada. Eelnev vastab klassikalisele mustrile, kus läänemaailma sodi imporditakse arengumaadesse. See on seksikate mudelite mitte nii seksikas osa.

Lahendusi

Eeltoodust võib jääda mulje, et tehistaibu eetika on üks virisejate ja masinalõhkujate kamp. Vale. Või noh siis võiks ka autode turvalisusega tegelejate kohta öelda, et nad vihkavad autosid ja autotootjaid. Esmalt tuleb tekitada ühine arusaamine probleemist ning seejärel saab seda lahendada. 21. sajandile kohaselt ei saa me kompleksseid probleeme lahendada ainult ühe distsipliini sees või abil.

Mõned lähenemised, kuidas tehistaibu arendamine ja rakendamine muuta eetilisemaks:

  • Suuremat tähelepanu tuleks pöörata treeningandmetele, mis tehistaibusse satuvad. Lahe on mudeleid treenida, kuid andmeteaduse üldine põhimõte, et kui mudeliga on midagi lahti, otsi põhjuseid andmetest, peab endiselt paika. Üheks initsiatiiviks on “Datasheets for Datasets”, mis paneb suurema rõhu metaandmestiku kirjeldamisele, piirangute ja kallutatuse tuvastamisele. See annab vihjeid, millistes aspektides võib mudel olla hea või halb, milliseid kallutatusi masin õppida. Siit on tulnud kriitika OpenAI suunas, mille juht küll räägib, et hoolib väga ohutusest, kuid varjab väga kiivalt, milliseid treeningandmeid kasutati. Suur hulk andmeid treeningul tekitab küsimuse, kuidas mudeli tegelikku võimekust valideerida, sest selleks peaks kasutama andmeid, mida mudel pole näinud (ka GPT-4 ei pääse sellest fundamentaalsest põhimõttest):
Tweet: I suspect GPT-4’s performance is influenced by data contamination, at least on Codeforces. Of the easiest problems on Codeforces, it solved 10/10 pre-2021 problems and 0/10 recent problems.  This strongly points to contamination.
Tundub, et GPT-4 on mõned asjad pähe õppinud mitte ära õppinud. Kuid me ei tea treeningandmetest väga palju (allikas: Twitter)
  • Tehistaibu arendamise keelamist ma isiklikult lahenduseks ei pea. Pigem tuleks seada fookus sellele, kuidas tehistaibul põhinevad teenuste, toodete ja lahenduste ohutus oleks arendaja ja rakendaja vastutada. Kui sina pead oma toote negatiivsed mõju kinni maksma, oled sa ka rohkem huvitatud nende mõjude vältimisest. Abiks saaks olla eeltoodud andmetest ülevaate loomine ning auditeerimine.
  • Hea ja turvalise tarkvara arendamise põhimõtete jälgimist. Suured keelemudelid tekitavad palju tähelepanu, neid tahetakse panna paljudesse rakendustesse. Oluline on, et oleks läbi mõeldud infoturbe riskid (mõned näited ründevõimalustest: https://twitter.com/iScienceLuvr/status/1640513941796425728 ja https://twitter.com/percyliang/status/1630087355360223232). Tarbija ei ole tavaliselt infoturbespetsialist.
  • Regulatsioon, mis aitab tagada parema privaatsuse ja litsentseeritud/autoriõigustega materjalide kaitse. Kui autor ei taha oma teost tehistaibu treeningandmete hulka anda, siis peaks tal olema õigus, et seda salaja ei tehta. Treeningandmete info varjamine OpenAI poolt võib olla seotud asjaoluga, et kraabiti internetist valimatult kokku kõike, ka seda, mille kasutamist litsentsitingimused ei lubanud. Sarnasel teemal kohtuasju on viimasel ajal algatatud nii Githubi kui ka Stable Diffusioni vastu (allikad: “Microsoft, GitHub, and OpenAI ask court to throw out AI copyright lawsuit” ja “Getty Images is suing the creators of AI art tool Stable Diffusion for scraping its content”).
  • Ja kõige olulisemana tugevdada hariduse ja vaba info levikuga seotud institutsioone. Esiteks selleks, et võimalikult palju inimesi saaks aru, kuidas tehistaibu toimib, millised on selle piirangud, riskid. Teiseks aga, et võimalikult palju erineva tausta ja kogemusega inimesi saaks osaleda tehistaibu arendamisel ja rakendamisel. See aitab arendamisel pöörata tähelepanu erinevatele aspektidele, piirangutele. Kõik ei pea olema tarkvarainsenerid. Vaja on juriste, ajakirjanikke, disainereid, sotsiolooge, jne, ühesõnaga komplekssest lähenemisest lahendustele (“A leading Silicon Valley engineer explains why every tech worker needs a humanities education”). See aitab välja tuua kultuurilisi, soolisi pimenurki meie ühiskonnas ja tehistaibus. Ja ärme unusta, et eesmärk on aidata inimkonna probleeme lahendada (kliimamuutus, elurikkuse kriis, vaimse tervise kriis, jms), mitte juhtida neilt tähelepanu kõrvale lühiajaliste eesmärkide saavutamiseks.

Kokkuvõte

Tehistaibu eetika ja ohutus on omavahel seotud. Ohutusele pöörame tihti palju tähelepanu, kuid praktilised mured on tihti mujal. Tehistaibu võib kunagi inimkonna minema pühkida, kuid enne seda võib “loll” masin inimeste elu muuta düstoopiaks, kui me ei rakenda seda läbimõeldult. Meie ülesanne on hoolitseda selle eest, et tehistaibu haipimisega ei läheks katki vaba informatsiooni levikut, demokraatiat, inimvabadusi toetavad institutsioonid. Usun, et teemale kompleksselt (asja mitte ainult insenertehniliste lahendustega putitada või juriidiliselt keelates) lähenedes on võimalik rakendada tehistaibut võimalik arendada inimkonna hüvanguks.

Kellel teema vastu rohkem huvi, soovitan vaadata San Fransisco ülikooli andmeinstituudi AI eetika kursust. Kes loenguid vaadata ei viitsi, võib vaadata minu märkmeid.

Kasutatud allikad

--

--