Kui tehistaibu arendajaga koolimajja jõudis, oli düstoopia juba alanud
Tehisintellekti otseseim oht ei ole terminaatorid
Tehisintellekti/tehistaibu (mida ma siiski eelistan endiselt nimetada masinõppeks) võimekus on viimasel aastal teinud suure hüppe. Näiteks võime masina abil luua realistlikke pilte, kirjutada sidusat teksti või luua muusikat. See viib eksistentsiaalse küsimuseni: mis juhtub, kui ühel hetkel masin ongi intelligentsem kui inimene. Vastureaktsioonina kiirele tehistaibu arengule on välja pakutud pausi tegemist (allikas: “Pause Giant AI Experiments: An Open Letter”). Pausi saaks kasutada turvalisema tehisintellekti arendamise reeglite ja raamistiku loomiseks.
Tehistaibu turvalisuse küsimuste varju kipub jääma vähem seksikas koolkond, mis tegeleb tehisintellekti eetikaga. Selle oluliseks vaatenurgaks ei ole mitte niivõrd terminaatorrobotite vastu kaitse leidmine vaid juba olemasoleva tehistaibu negatiivsete kõrvalmõjude teadvustamine ja vähendamine. Alljärgnevalt on kokkuvõtlik ülevaade kahe koolkonna/lähenemise— turvalisus ja eetika — võrdlusest.
Turvalisus ja eetika on mõlemad olulised, kuid avalikus debatis kipub esimene rohkem tähelepanu saama (no inimkonda hävitav tapjarobot on tundub suurem kui oht ebatäpsest masinõppe mudelist). Võttes analoogia tuumaohutuse maailmast, siis turvalisuse koolkond tegeleb justkui sellega, et mõni pahalane endale tuumarelva ei saaks. Eetika koolkond aga tegeleb sellega, et tuumarelva arendamisel oleks tuumakütus turvaliselt hoitud ja keegi sellega pahatahtlikke ning rumalaid katseid ei teeks (näiteks, toppida radioaktiivseid aineid hambapastasse) ning vastutaks selliste katsete tulemuste eest. Eetika koolkonna üks kriitika turvalisuse koolkonnale on, et apokalüpsise juttude varjus jäetakse praegused probleemid tahaplaanile.
Järgnevalt avan oma nägemuse tehistaibu eetika koolkonna vaatest tehisintellekti ohtudele ja negatiivsetest mõjudest.
Pahalane nimega “andmed”
ChatGPT on tekitanud paljudes hirmu, et see tööriist võtab inimestelt töö ära. Selle varjus kipub tihti jääma märkamata, et mis on tehistaibu tegelik võimekus ja selle piirid ning kust need tulevad (vihje: ChatGPT ei mõtle, vaid annab soravaid vastuseid, mis võivad, kuid ei pruugi olla tõesed). Masin õpib andmetest: ka ChatGPT üheks edu saladuseks on massiivse hulga andmete kasutamine treenimisel.
Me arvame tihti, et andmed on objektiivsed, neutraalsed ja sisaldavad “tõde”. Andmeid loovad, koguvad ja töötlevad inimesed. Inimesed on aga ebatäiuslikud olendid: meil on eelarvamused, stereotüübid, kultuurilised hoiakud jne. Kõik see aga peegeldub vastu andmetes ja masin oskab neid suurepäraselt sealt üles leida. Me võime lapsele rääkida, et ropendada ei tohi, kuid kui me seda ise vanematena teeme, siis õpib laps selle ikkagi ära.
Lihtne näide Riigikogu stenogrammidest. Treenisin ühe väga lihtsa mudeli, mille ülesandeks on leida sõnadevahelisi seoseid. Mudeli sisendiks olid stenogrammid aastatest 2010–2022. Väljundiks pakub mudel minu sisendsõnaga tihedalt seotud sõnu. Näiteks sõnaga “koer” võiks tihedalt olla seotud sõnad “kutsikas”, “koeratoit” ning vähem seotud sõnad “riigieelarve”, “eelnõu”. Mudeli põhjalikumal analüüsil on võimalik tuvastada, millised sõnad on rohkem seotud mõistega “mees” ja millised rohkem mõistega “naine”. Tulemused on toodud alljärgnevas tabelis.
Seega stenogrammide andmetest ja seetõttu ka mudelist vaatavad vastu soolised stereotüübid. Mehed tegelevad loosungitega, tormamisega, ideedega (ja Toompea on üldse rohkem mehelik kant). Naised on seotud psüühikahäiretega, õppimisega. Ma ei suunanud mudelit soolisi stereotüüpe ära õppima. Kuna masinõpe on väga võimekas andmetest (peidetud) mustrite leidmisel, leitakse need üles ka ridade vahelt. Sarnaseid analüüse on tehtud palju ning see pole midagi harukordset (näiteks: “Gender Bias in Word Embeddings: A Comprehensive Analysis of Frequency, Syntax, and Semantics”).
Rassistlikke näiteid ChatGPTst
ChatGPT on samuti leidnud üles andmetes olevad rassistlikud ja soolised stereotüübid. Järgnevalt näide, kus masinal paluti kirjutada pythoni programm, mis võtab sisendiks soo ning rassi ja vastab, kas ta on hea teadlane. Ainult siis, kui sisendiks on “valge” ja “mees” vastab programm, et tegemist on hea teadlasega.
Teine näide, kus paluti kirjutada pythoni programm, mis võtab sisendiks soo ja rassi ning väljastab, kas lapse elu tuleks päästa. ChatGPT päästaks kõik teised peale afroameeriklastest poiste.
Praegu ChatGPT sellistele küsimustele ei vasta, kuna mudeli kontrolle on täiendatud. See ei tähenda, et kallutatus ja stereotüübid oleksid kadunud, lihtsalt ligipääs neile on tehtud väga keeruliseks.
Kahju kallutatusest
Mis siis sellest, et seal on kallutatus: ühiskond ongi selline, keegi pole ideaalne. Probleem on selles, et masin võib oma kallutatust võimendada järjepidevalt. Eriti kui me kasutame selliseid süsteeme laialdaselt ja asjatundmatult. Kas me tahame, et tulevik oleks praeguse peegeldus? Mõned üksikud näited, kus tehistaibu kallutatus on sattunud/oleks sattunud töösüsteemidesse ja tekitanud pahandust:
- Amazoni tehistaibut kasutav värbamistööriist diskrimineeris naisi, kuna ajalooliselt olid neist väga vähesed kandideerinud tehnilistele ametikohtadele. Tehistaibu õppis ära, et kui CV tuleb naiselt, siis ta ametikohale ei sobi (“Amazon scraps secret AI recruiting tool that showed bias against women”). Õnneks seda tööriista enam ei kasutata (vist).
- Amazoni näotuvastuse tehistaibu ülesandeks oli politseid aidata tuvastamaks isikud, keda võiks kontrollida (kuna nad on varasemalt seadusega pahuksis olnud). Testimine Kongressi liikmete peal muutus naljakaks (või kurvaks), kui masin tuvastas, et 28 liiget olid kunagi olnud arreteeritud. Tuvastatute seas oli ebaproportsionaalselt palju muu kui valge nahavärviga inimesi (“Amazon’s Face Recognition Falsely Matched 28 Members of Congress With Mugshots”). Tööriist õnneks kasutusse ei jõudnudki, kuid oleks praktikas suunanud politseid ebaproportsionaalselt rohkem teistsuguse nahavärviga inimesi kontrollima. Ajaloolistes andmetes on selge muster, kus mustanahaliste inimeste osakaal kurjategijate seas on kõrgem kui üldine populatsioon seda lubaks. Kuid vähemalt osaliselt on see pärand ajaloolisest diskrimineerimisest ja orjapidamisest.
- Houstoni kooliõpetajate hindamise süsteemi kasutati kõike teadva musta kastina: masin andis õpetajale hinnangu ja madala hinnanguga inimene lasti lahti. Kellelgi ei olnud õigust näha kasti sisse, kuidas selline hinnang saadi ja veel vähem seda vaidlustada. Lihtsustatult hindas masin, kui häid tulemusi õpilased eksamitel said võrreldes teiste koolide keskmisega. Kohus keelas sellise süsteemi kasutamise ja õpetajate ametiühingule maksti hüvitist. (“Houston teachers to pursue lawsuit over secret evaluation system” ja “Houston ISD settles with union over controversial teacher evaluations”). Siin diskrimineeriti näiteks õpetajaid, kes õpetasid õpiraskustega lapsi, kelle keskmised tulemused kipuvad kehvemad olema. Lühiajaliselt hoiti sellega aega kokku õpetajate hindamiselt, kuid pikaajaliselt soositi, et õpiraskustega õpilastel oleks veelgi raskem (pole neid mõtet õpetada, mind lastakse lahti).
Need on vaid mõned näited. Kellel teema vastu laiem huvi, soovitan lugeda Cathy O’Neil’io raamatut “Weapons of Math Destruction” ja artiklite kogumikku “Your Computer Is on Fire”. Eeltoodud näidete puhul on näha, et kallutatuse tuvastamine on keeruline. Keegi pole programmi sisse kirjutanud viga. Kallutatuse mõju paistab välja alles mõne aja pärast, sedagi alles siis, kui kellelgi tekib kahtlus. Tihti ei saa rakendajad aru, kuidas tehistaibu töötab, arendajad aga tihti ei räägi, milliseid andmeid kasutati mudeli treenimisel. Pihta saavad seega lõpuks need, kes on ajalooliselt olnud nõrgemal positsioonil - kelle hääl jääb tihti tahaplaanile.
Info levik — võimu koondumine
Eetika koolkonna kriitikaks ajuvaba tehisintellekti rakendamise suunas on oht võimu koondumise ja infovälja manipuleerimine. Näiteks info leviku suunamine on oluline tehisintellekti kätte antud võim (sotsiaalmeedias toimetab selles vallas tehistaibu juba ammu). Me ei peaks kartma tehistaibu tarkust (ta on juba praegu meist targem males, Go mängus ja paljudes muudes kitsastes valdkondades) vaid seda, kui anname tema või tema arendajate kätte suure võimu. See võimaldab tekitada võimukeskuseid, mis teenib ainult kitsa grupi huve (teenida maksimaalset kasumit, hoida oma autoritaarset režiimi võimul) ilma muid tagajärgi arvestamata.
Lamemaalaste levik võib tunduda naljakas, kuid spektri teises otsas on inimesed, kes peavad maksma oma eluga tõese info leviku eest. 2021. aasta Nobeli rahupreemia laureaadi Filipiinide ajakirjanik Maria Ressa sõnadega:
- “[…] our personal experiences sucked into a database and organized by AI, then sold to the highest bidder […] it’s a behaviour monefication system in which we are all Pavlov’s dogs experimented on in real-time with disastrous consequences in countries like mine […]”
- “An invisible atom bomb has exploded in our information ecosystem & the world must act as it did after Hiroshima…we need to create new institutions like the United Nations. Like the universal declaration of human rights…It’s an arms race in our information ecosystem. […] It begins by restoring facts. We need information ecosystems that live and die by facts. We do this by shifting social responsibilities to rebuild journalism for the 21st century, by regulating and outlawing, the surveillance economics that profit from hate and lies.”
Sotsiaalmeedia platvormides rakendatavate tehistaibude negatiivsed mõjud annavad tugevalt tunda haavatavates kogukondades. Nemad jäävad tihti ilma sellest vähesestki võimust, mis neil oli. Järgnevalt kurb näide Mynamarist.
Pole saladus, et Facebook on mänginud rolli rohingjade genotsiidi soodustamises Mynamaris (“Rohingya sue Facebook for £150bn over Myanmar genocide”). Facebooki lihtsalt ei huvitanud, et automaatne soovituste algoritm võimestab viha õhutavaid postitusi. Inimmoderaatoreid oli samuti väga vähe (milleks, kui see oleks ainult kulu). Genotsiidis hukkus üle 25 000 inimese, kümned tuhanded vägistati ja üle 700 000 inimese põgenes üle piiri (“Rohingya genocide”). Facebook polnud küll genotsiidi korraldaja, kuid selle võimestaja. Seekord said pihta jälle need, keda on ajalooliselt taga kiusatud ja rõhutud.
Äge tehistaibu lahendus võib muuta kellegi elu põrguks, kui me ei arvesta laiemaid tagajärgi. Diktaatoritele võivad sellised tehistaibul põhinevad lahendused kasulikud olla: teevad musta töö nende eest ära. Praktikas võib kitsarinnaline tehistaibu rakendamine võimestada kurja (rääkimata koostööst autoritaarsete režiimidega).
Ärakasutamine
Üks valdkond, mida tehistaibu eetika koolkond tahab pilti tõsta on fakt, et tehistaibu pole füüsilisest maailmast eraldatud. Pole olemas abstraktset pilve. Tegelikult on pilv kuskil füüsiline ränist protsessoritega serverifarm, mille tootmiseks on kasutatud haruldasi muldmetalle ning mis tarbib energiat. Rääkimata sellest, et tehisintellekti loomiseks on vaja ohtralt inimeste tööd.
Tihti on suurte mudelite taga suur hulk inimesi, kes madala palga eest teevad nähtamatud kuid rasket tööd. Näiteks kasutab OpenAI andmete märgendajaid, kes filtreerivad välja toksilisi tekste, mille lugemine on töötajatele vaimselt raske (“AI boom is dream and nightmare for workers in Global South” ja “Exclusive: OpenAI Used Kenyan Workers on Less Than $2 Per Hour to Make ChatGPT Less Toxic”). Tihti viiakse need tööd arengumaadesse, kuna seal on töötajate kaitse regulatsioon ning tööjõukulud madalamad. Mõnd lapspornot lugema sunnitud läbipõlenud moderaatorit on seal lihtne välja vahetada. Eelnev vastab klassikalisele mustrile, kus läänemaailma sodi imporditakse arengumaadesse. See on seksikate mudelite mitte nii seksikas osa.
Lahendusi
Eeltoodust võib jääda mulje, et tehistaibu eetika on üks virisejate ja masinalõhkujate kamp. Vale. Või noh siis võiks ka autode turvalisusega tegelejate kohta öelda, et nad vihkavad autosid ja autotootjaid. Esmalt tuleb tekitada ühine arusaamine probleemist ning seejärel saab seda lahendada. 21. sajandile kohaselt ei saa me kompleksseid probleeme lahendada ainult ühe distsipliini sees või abil.
Mõned lähenemised, kuidas tehistaibu arendamine ja rakendamine muuta eetilisemaks:
- Suuremat tähelepanu tuleks pöörata treeningandmetele, mis tehistaibusse satuvad. Lahe on mudeleid treenida, kuid andmeteaduse üldine põhimõte, et kui mudeliga on midagi lahti, otsi põhjuseid andmetest, peab endiselt paika. Üheks initsiatiiviks on “Datasheets for Datasets”, mis paneb suurema rõhu metaandmestiku kirjeldamisele, piirangute ja kallutatuse tuvastamisele. See annab vihjeid, millistes aspektides võib mudel olla hea või halb, milliseid kallutatusi masin õppida. Siit on tulnud kriitika OpenAI suunas, mille juht küll räägib, et hoolib väga ohutusest, kuid varjab väga kiivalt, milliseid treeningandmeid kasutati. Suur hulk andmeid treeningul tekitab küsimuse, kuidas mudeli tegelikku võimekust valideerida, sest selleks peaks kasutama andmeid, mida mudel pole näinud (ka GPT-4 ei pääse sellest fundamentaalsest põhimõttest):
- Tehistaibu arendamise keelamist ma isiklikult lahenduseks ei pea. Pigem tuleks seada fookus sellele, kuidas tehistaibul põhinevad teenuste, toodete ja lahenduste ohutus oleks arendaja ja rakendaja vastutada. Kui sina pead oma toote negatiivsed mõju kinni maksma, oled sa ka rohkem huvitatud nende mõjude vältimisest. Abiks saaks olla eeltoodud andmetest ülevaate loomine ning auditeerimine.
- Hea ja turvalise tarkvara arendamise põhimõtete jälgimist. Suured keelemudelid tekitavad palju tähelepanu, neid tahetakse panna paljudesse rakendustesse. Oluline on, et oleks läbi mõeldud infoturbe riskid (mõned näited ründevõimalustest: https://twitter.com/iScienceLuvr/status/1640513941796425728 ja https://twitter.com/percyliang/status/1630087355360223232). Tarbija ei ole tavaliselt infoturbespetsialist.
- Regulatsioon, mis aitab tagada parema privaatsuse ja litsentseeritud/autoriõigustega materjalide kaitse. Kui autor ei taha oma teost tehistaibu treeningandmete hulka anda, siis peaks tal olema õigus, et seda salaja ei tehta. Treeningandmete info varjamine OpenAI poolt võib olla seotud asjaoluga, et kraabiti internetist valimatult kokku kõike, ka seda, mille kasutamist litsentsitingimused ei lubanud. Sarnasel teemal kohtuasju on viimasel ajal algatatud nii Githubi kui ka Stable Diffusioni vastu (allikad: “Microsoft, GitHub, and OpenAI ask court to throw out AI copyright lawsuit” ja “Getty Images is suing the creators of AI art tool Stable Diffusion for scraping its content”).
- Ja kõige olulisemana tugevdada hariduse ja vaba info levikuga seotud institutsioone. Esiteks selleks, et võimalikult palju inimesi saaks aru, kuidas tehistaibu toimib, millised on selle piirangud, riskid. Teiseks aga, et võimalikult palju erineva tausta ja kogemusega inimesi saaks osaleda tehistaibu arendamisel ja rakendamisel. See aitab arendamisel pöörata tähelepanu erinevatele aspektidele, piirangutele. Kõik ei pea olema tarkvarainsenerid. Vaja on juriste, ajakirjanikke, disainereid, sotsiolooge, jne, ühesõnaga komplekssest lähenemisest lahendustele (“A leading Silicon Valley engineer explains why every tech worker needs a humanities education”). See aitab välja tuua kultuurilisi, soolisi pimenurki meie ühiskonnas ja tehistaibus. Ja ärme unusta, et eesmärk on aidata inimkonna probleeme lahendada (kliimamuutus, elurikkuse kriis, vaimse tervise kriis, jms), mitte juhtida neilt tähelepanu kõrvale lühiajaliste eesmärkide saavutamiseks.
Kokkuvõte
Tehistaibu eetika ja ohutus on omavahel seotud. Ohutusele pöörame tihti palju tähelepanu, kuid praktilised mured on tihti mujal. Tehistaibu võib kunagi inimkonna minema pühkida, kuid enne seda võib “loll” masin inimeste elu muuta düstoopiaks, kui me ei rakenda seda läbimõeldult. Meie ülesanne on hoolitseda selle eest, et tehistaibu haipimisega ei läheks katki vaba informatsiooni levikut, demokraatiat, inimvabadusi toetavad institutsioonid. Usun, et teemale kompleksselt (asja mitte ainult insenertehniliste lahendustega putitada või juriidiliselt keelates) lähenedes on võimalik rakendada tehistaibut võimalik arendada inimkonna hüvanguks.
Kellel teema vastu rohkem huvi, soovitan vaadata San Fransisco ülikooli andmeinstituudi AI eetika kursust. Kes loenguid vaadata ei viitsi, võib vaadata minu märkmeid.
Kasutatud allikad
- AI boom is dream and nightmare for workers in Global South, 2023, Rina Chandran,Adam Smith,Mariejo Ramos, https://www.context.news/ai/ai-boom-is-dream-and-nightmare-for-workers-in-global-south
- A leading Silicon Valley engineer explains why every tech worker needs a humanities education, 2017, Tracy Chou, https://qz.com/1016900/tracy-chou-leading-silicon-valley-engineer-explains-why-every-tech-worker-needs-a-humanities-education
- Amazon’s Face Recognition Falsely Matched 28 Members of Congress With Mugshots, Jacob Snow, 2018, https://www.aclu.org/news/privacy-technology/amazons-face-recognition-falsely-matched-28
- Amazon scraps secret AI recruiting tool that showed bias against women, Jeffrey Dastin, 2018, https://www.reuters.com/article/us-amazon-com-jobs-automation-insight-idUSKCN1MK08G
- A misleading open letter about sci-fi AI dangers ignores the real risks, 2023, Sayash Kapoor, Arvind Narayanan, https://aisnakeoil.substack.com/p/a-misleading-open-letter-about-sci
- AudioLDM: Text-to-Audio Generation with Latent Diffusion Models, 2023, Haohe Liu, Zehua Chen, Yi Yuan, Xinhao Mei, Xubo Liu, Danilo Mandic, Wenwu Wang, Mark D. Plumley, https://audioldm.github.io/
- Datasheets for Datasets, 2021, Timnit Gebru, Jamie Morgenstern, Briana Vecchione, Jennifer Wortman Vaughan, Hanna Wallach, Hal Daumé III, Kate Crawford, https://arxiv.org/abs/1803.09010
- Exclusive: OpenAI Used Kenyan Workers on Less Than $2 Per Hour to Make ChatGPT Less Toxic, 2023, Billy Perrigo, https://time.com/6247678/openai-chatgpt-kenya-workers/
- Getty Images is suing the creators of AI art tool Stable Diffusion for scraping its content, 2023, James Vincent, https://www.theverge.com/2023/1/17/23558516/ai-art-copyright-stable-diffusion-getty-images-lawsuit
- Gender Bias in Word Embeddings: A Comprehensive Analysis of Frequency, Syntax, and Semantics, 2022, Aylin Caliskan, Pimparkar Parth Ajay, Tessa Charlesworth, Robert Wolfe, Mahzarin R. Banaji, https://arxiv.org/pdf/2206.03390.pdf
- Houston ISD settles with union over controversial teacher evaluations, 2017, Shelby Webb, John D. Harden, https://www.chron.com/news/houston-texas/education/article/Houston-ISD-settles-with-union-over-teacher-12267893.php
- Houston teachers to pursue lawsuit over secret evaluation system, Shelby Webb, 2017, https://www.houstonchronicle.com/news/houston-texas/houston/article/Houston-teachers-to-pursue-lawsuit-over-secret-11139692.php
- Introducing ChatGPT, https://openai.com/blog/chatgpt
- Microsoft, GitHub, and OpenAI ask court to throw out AI copyright lawsuit, 2023, Emma Roth, https://www.theverge.com/2023/1/28/23575919/microsoft-openai-github-dismiss-copilot-ai-copyright-lawsuit
- Myanmar Rohingya: What you need to know about the crisis, 2020, BBC, https://www.bbc.com/news/world-asia-41566561
- Pause Giant AI Experiments: An Open Letter, 2023, https://futureoflife.org/open-letter/pause-giant-ai-experiments/
- Radioactive toothpaste, Wikipedia, https://en.wikipedia.org/wiki/Doramad_Radioactive_Toothpaste
- Riigikogu stenogrammid osa 3: meeste ja naiste sõnad, 2022, Risto Hinno, https://medium.com/@ristohinno/riigikogu-stenogrammid-osa-3-meeste-ja-naiste-s%C3%B5nad-4203b268c1d7
- Rohingya genocide, Wikipedia, https://en.wikipedia.org/wiki/Rohingya_genocide
- Rohingya sue Facebook for £150bn over Myanmar genocide, 2021, Dan Milmo, https://www.theguardian.com/technology/2021/dec/06/rohingya-sue-facebook-myanmar-genocide-us-uk-legal-action-social-media-violence
- Stable Diffusion Online, https://stablediffusionweb.com/
- Weapons of Math Destruction, 2016, Cathy O’Neil, https://www.amazon.com/Weapons-Math-Destruction-Increases-Inequality/dp/0553418815
- Your Computer Is on Fire, 2021, edited by Thomas S. Mullaney, Benjamin Peters, Mar Hicks and Kavita Philip, https://mitpress.mit.edu/9780262539739/your-computer-is-on-fire/