Ko je 26-letni Kenneth Wehr pred štirimi leti začel urejati grenlandsko izdajo Wikipedije, je najprej izbrisal obstoječe vnose. Po njegovem mnenju bi lahko preživela le, če bi začel z ničle.

Jacob Judah, MIT Technology Review
Wehr sicer ni z Grenlandije – odraščal je v Nemčiji –, a je postal obseden z otokom, avtonomnim danskim ozemljem, ko ga je obiskal kot najstnik. Leta je v Wikipedijo prispeval neodmevne članke v svojem maternem jeziku o tako rekoč vsem, povezanim z Grenlandijo. Celo preselil se je v København, da bi študiral grenlandščino, ki jo govori okoli 57.000 ljudi, večinoma prvotnih Inuitov, ki živijo v več deset razkropljenih arktičnih vaseh.
Grenlandsko različico Wikipedije so dodali leta 2003, le nekaj let po izvirni angleški izdaji. Ko je Wehr skoraj dve desetletji pozneje prevzel žezlo, je več sto soustvarjalcev te spletne enciklopedije prispevalo okoli 1.500 člankov z več deset tisoč besedami. Po vsem videzu sodeč je bil to zavidanja vreden podvig skupnostnega pristopa, zaradi katerega je Wikipedija tako številnim ljudem prva izbira, ko na spletu iščejo podatke, in dober prikaz, da deluje tudi v tako majhnih in netipičnih regijah.
Obstajala pa je težave: grenlandska Wikipedija je bila zgolj privid. Tako rekoč vse članke so objavili soustvarjalci, ki niso poznali jezika. Wehr, ki danes na Danskem poučuje grenlandščino, ugiba, da sta zanjo pisala le en Grenlandec ali dva, še bolj pa ga je skrbelo, da se je sčasoma pojavljalo vse več člankov, ki so bili očitno prevedeni s strojnimi prevajalniki in prekopirani v enciklopedijo. V njih je mrgolelo osnovnih napak, od slovničnih polomov do besed, ki niso pomenile ničesar, in napačnih temeljnih podatkov, kot je, recimo, članek, v katerem je pisalo, da v Kanadi živi 41 prebivalcev. Na nekaterih straneh je odkril sklope naključno nanizanih črk, kot so jih v brezplodnem iskanju ustreznega grenlandskega izraza napaberkovali računalniki.
Umetnointeligenčni prevajalniki pogorijo, ko morajo prevajati v grenlandščino.
»Avtorji so nemara menili, da je to res grenlandska beseda, saj niso znali jezika,« je potožil Wehr. »Nekateri stavki so bili povsem nesmiselni ali pa so vsebovali v nebo vpijoče napake. Umetnointeligenčni prevajalniki pogorijo, ko morajo prevajati v grenlandščino.«
To, kar opisuje Wehr, ne tare le grenlandske izdaje Wikipedije.
Wikipedija je najsmelejši večjezikovni projekt takoj za Svetim pismom. Ima namreč izdaje v več kot 340 jezikih, razvijajo in testirajo pa še nadaljnjih 400 še bolj eksotičnih. Odkar je vsem dostopna umetna inteligenca (UI), so številne male izdaje preplavljanje s strojno prevedeno vsebino. Prostovoljci, ki sodelujejo pri štirih afriških jezikovnih različicah, so za MIT Technology Review ocenili, da je od štiri do šest desetin člankov v njihovih izdajah strojno prevedenih brez končnega človeškega jezikovnega in vsebinskega preverjanja. Po pregledu izdaje v jeziku inuktitut, prvinskem jeziku, ki je soroden z grenlandščino in ga govorijo v Kanadi, sodelavci MIT Technology Review ocenjujejo, da več kot dve tretjini strani vsebujeta veliko stavkov in povedi, ustvarjenih z UI.

To postaja pereča težava. Sistemi UI, od Google Translata do ChatGPT, se novih jezikov 'učijo' tako, da se prebijajo skozi neskončne kupe besedil na internetu. Wikipedija včasih predstavlja največji vir spletnih jezikovnih podatkov za jezike z malo govorci, zato vse napake v njej, tako slovnične kot vsebinske, zastrupijo vire znanja, iz katerih črpa UI. Prevodi jezikovnega modela v teh jezikih so zato še bolj nagnjeni k napakam in tako nastane jezikovni začarani krog. Ljudje v Wikipedijo prispevajo vse več slabo prevedenih strani z orodji oziroma modeli UI, ki se še naprej učijo iz slabo prevedenih člankov. To je zahteven problem, ki bi ga lahko strnili v preprost nauk: Če dovajaš smeti, ne moreš dobiti drugega kot smeti.
»Ti modeli temeljijo na surovih podatkih,« je pojasnil Kevin Scannell, nekdanji predavatelj računalništva na Univerzi Saint Louis, ki zdaj razvija programsko opremo, prilagojeno ogroženim jezikom. »Vse o nekem jeziku se poskušajo naučiti z ničle, ničesar drugega jim ne dovajajo, nobene slovnice, slovarja, ničesar razen besedil.«
Preverjenih podatkov, kako resna je ta težava, nimamo, krivo pa je predvsem to, da veliko podatkov o učenju UI hranijo kot zaupne in da gre za hitro razvijajoče se področje. Po ocenah naj bi Wikipedija leta 2020 prispevala več kot polovico podatkov za učenje modelov UI, ki so prevajali nekatere jezike z milijoni govorcev po vsej Afriki. Leta 2022 je raziskovalna ekipa iz Nemčije, ki se je poglobila v to, kakšne podatke je mogoče dobiti z zajemanjem s spleta, ugotovila, da je Wikipedija edini enostavno dostopni vir spletnih jezikovnih podatkov za 27 jezikov s pičlimi viri.

To bi lahko imelo pomembne posledice, kadar so članki šepavo sestavljeni – najranljivejše jezike na Zemlji bi zaradi tega lahko pahnili v pozabo, saj bi jih bodoče generacije zanemarjale.
»Na modele UI za te jezike bo močno vplivala Wikipedija,« trdi Trond Trosterud, računalniški jezikoslovec na norveški univerzi v Tromsøju , ki bije plat znova zaradi morebitnih škodljivih posledic dolgoletnega pomanjkljivega urejanja enciklopedije. »Težko si predstavljam, da se to ne bi nikjer poznalo. In seveda velja tudi, da bodo posledice tem hujše, čim bolj prevladujoči položaj bo imela Wikipedija.«
Odgovorna uporaba
Avtomatizacija je del Wikipedije že tako rekoč od samega začetka. Platforma deluje zaradi robotov – ti popravljajo napačne povezave, uredijo formatiranje in celo odstranjujejo pravopisne napake. Ponavljajoča se preprosta opravila je mogoče zlahka avtomatizirati. Obstaja cela vojska robotov, ki hitijo naokrog in sestavljajo novičke o rekah, mestih in živalih, tako da njihova imena vstavljajo v vnaprej sestavljene povedi. Na splošno je platforma zaradi njih boljša.
Vendar je UI nekaj drugega. Vsak jo lahko zlorabi in z nekaj kliki povzroči veliko škodo.
Wikipedija se je s pojavom UI spopadla uspešneje od številnih drugih spletnih strani. Niso je tako kot družbena omrežja preplavili umetnointeligenčni roboti in dezinformacije. Še vedno v veliki meri ohranja nedolžnost, značilno za začetek internetne dobe. Wikipedija je odprta in jo lahko uporabljajo ter urejajo vsi, upravlja pa jo skupnost, ki ima korist od nje. Je transparentna in preprosta za uporabo. A platforme, ki jih upravlja skupnost, živijo in umrejo v odvisnosti od velikosti skupnosti. Angleška se je razmahnila, grenlandska pa potonila.
»Potrebujemo dobre wikipediste. To je nekaj, kar se ljudem zdi samoumevno, a ni čarovnija,« je pojasnil Amir Aharoni, član prostovoljnega jezikovnega odbora, ki nadzoruje prošnje za odprtje ali ukinitev jezikovnih izdaj. »Če strojno prevajanje uporabljamo odgovorno, je lahko učinkovito in koristno. Žal vsem ljudem ne moremo zaupati, da ga bodo uporabljali odgovorno.«
Izdaja Wikipedie v jeziku inuktitut, prvinskem jeziku, ki je soroden z grenlandščino in ga govorijo v Kanadi, ima več kot dve tretjini strani z veliko stavkov, ustvarjenih z UI.
Trosterud je preučeval vedenje uporabnikov malih izdaj Wikipedije in ugotovil, da je UI dala polet podskupini, ki jo je poimenoval Ugrabitelji Wikipedije. To je pestra skupina, ki vključuje vse – od naivnih najstnikov, ki odpirajo strani o svojem domačem kraju in najljubšem ustvarjalcu vsebin na Youtubu, pa do dobro namernih wikipedistov, ki mislijo, da s pisanjem člankov v majhnem jeziku nekako pomagajo tej skupnosti.
»Danes nam povzročajo težave, ker so se oborožili z Google Translatom,« je povedal Trosterud in dodal, da zato ustvarjajo veliko daljše in na prvi pogled verodostojnejše vsebine kot nekoč. »Nekoč so si lahko pomagali le s slovarji.«
In vse to omogoča uničevanje, ki najbolj prizadene ranljive jezike, saj so strojni prevodi v njih daleč manj zanesljivi. Razlogov je več, a jedro težave je razmeroma majhna količina besedilnih virov, ki so na voljo na spletu. In jezikovni modeli imajo včasih težave s prepoznavo jezika, ker je podoben drugim ali ker nekateri, tudi grenlandščina in večina prvotnih ameriških jezikov, vključujejo strukture, ki so manj primerne za sistem delovanja strojnih prevodov. (Wehr poudarja, da je večina besed v grenlandščini aglutinacijska, kar pomeni, da se korenu besede dodajo pred- in pripone. Številni izrazi so zato uporabljeni le v določenem kontekstu in pomenijo nekaj, kar morajo v drugih jezikih pojasniti s celo povedjo.)
Googlove raziskave pred veliko razširitvijo Google Translata, ki so se začele pred tremi leti, so razkrile, da so prevajalski sistemi za jezike z manj viri običajno slabši od tistih z bogatimi viri. Raziskovalci so tako ugotovili, da njihov model pogosto narobe prevede čisto osnovne pojme, tudi imena živali in barve. (Google je v izjavi za MIT Technology Review zapisal, da je zavezan visokim standardom kakovosti za vseh 249 jezikov, ki jih podpira, in v ta namen opravlja obsežna testiranja ter izboljšuje sisteme, sploh za jezike, za katere so javni besedilni viri na internetu omejeni.)
Wikipedija ima vgrajeno orodje za urejanje Content Translate, ki uporabnim omogoča samodejno prevajanje člankov v druge jezike – tako bi prihranili čas, ohranili vire in format izvirnega članka. Vendar se njihovo orodje opira na zunanje sisteme strojnega prevajanja, zato ga pestijo iste šibkosti kot druge strojne prevajalnike. Po besedah fundacije Wikimedia je ta težava trd oreh. Vsaka izdaja mora sama presoditi, ali bo dovolila uporabo tega orodja – nekatere skupnosti so ga zavrnile. (Sploh angleška različice Wikipedije je večinoma prepovedala uporabo tega orodja, saj naj bi okoli 95 odstotkov člankov, ustvarjenih s Content Translatom, ne dosegalo sprejemljivih standardov in je bilo z njihovim urejanjem veliko dodatnega dela.) Če nič drugega, je vsaj jasno označeno, da je članek preveden s Content Translatom.
Druge umetnointeligenčne programe je namreč težje nadzorovati. Kljub temu je veliko urednikov Wikipedije, s katerimi sem govoril, povedalo, da so opazili izrazito povečanje števila slabo, verjetno strojno prevedenih strani, ko so njihov jezik dodali v razširjena spletna prevajalska orodja.
Nekateri wikipedisti, ki vsebine prevajajo z UI, včasih priznajo, da ciljnega jezika ne govorijo. Morda se jim zdi, da manjše skupnosti oskrbujejo z osnutki, ki jih domači govorci nato lahko izpilijo – po enakem modelu, ki se lepo obnese za aktivnejše izdaje te enciklopedije.

V Google Translatu v fulfuldščini, jeziku Fulanov, besedo za januar prevajajo kot junij, ChatGPT pa pravi, da pomeni avgust ali september. Program zapiše tudi, da fulfuldska beseda za žetev med drugim pomeni vročico ali blaginjo.
Ko nastajajo strani v manj razširjenih jezikih, običajno ni na voljo armade izobraženih ljudi, ki bi jih lahko uredili in popravili. Tudi bralcev teh izdaj je malo in v nekaterih primerih nimajo niti enega stalnega urednika.
Yuet Man Lee, mlad kanadski učitelj, pravi, da si je z Google Translatom in ChatGPT pomagal pri prevodu peščice člankov, ki jih je napisal za angleško Wikipedijo, v inuktitut, enega inuitskih jezikov, ker je želel prispevati in pomagati manjši skupnosti. »Mislil sem, da članka ne bo nihče niti opazil,« je pojasnil. Hkrati si je predstavljal, da ga bo nekdo vendarle prebral in popravil – spraševal se je, ali je prevod v inuktitut, ki ga je naredil s sistemom UI, slovnično pravilen. Članka se od objave ni nihče dotaknil.
Lee poučuje sociologijo v Vancouvru in je članke v angleški Wikipediji začel popravljati pred desetletjem. Uporabniki, ki dobro poznajo aktivnejše izdaje, lahko podležejo razmišljanju, ki ga je sam poimenoval »vzvišenost večjih izdaj«. Ko poskušajo prispevati v manjše izdaje, predvidevajo, da bo nekdo drug popravil njihove napake. Včasih to celo deluje. Lee je povedal, da je nekoč napisal več člankov v tatarščini, ki ima nekaj milijonov govorcev predvsem v Rusiji, in vsaj enega je nekdo nato popravil. A Wikipedija v jeziku inuktitut je v primerjavi s tatarsko 'gola puščava'.
Poudarja, da je imel dobre namene: želel je dodati več člankov v kanadsko različico v enem od prvotnih jezikov. »Danes se mi zamisel ne zdi več tako dobra. Nisem pomislil, da s tem zapiram začarani krog,« je priznal. »Mislil sem predvsem na objavo vsebine, članek sem napisal iz radovednosti in za zabavo, ne da bi dobro premislil o posledicah.«
Popolnoma nobene možnosti
Wikipedija je projekt, ki ga žene naivni optimizem. Urejanje je nehvaležna naloga, ki vzame tedne in tedne pričkanja z brezimnimi ljudmi, vendar so zanesenjaki pripravljeni žrtvovati ure neplačanega dela zaradi zavezanosti višjemu cilju. Takšna predanost je značilna za redne urednike majhnih izdaj, s katerimi sem se pogovarjal. Vsi se bojijo, kaj bi se zgodilo, če bi se prevajalske smeti še naprej neovirano pojavljale na njihovih straneh.
Abdulkadir Abdulkadir, 26-letni kmetijski načrtovalec s severa Nigerije, s katerim sva se med hreščanjem in pokanjem pogovarjala po telefonu, je pripovedoval, da vsak dan tri ure pregleduje vnose v svojem maternem jeziku fulfulde, ki ga uporabljajo številni duhovniki in kmetje po Sahelu. »Dela je zame preveč,« je priznal.
Abdulkadirju se zdi nujno, da je izdaja v njegovem jeziku, kot se šika. Dodal je, da je Wikipedija med redkimi spletnimi viri kmetov v odmaknjenih vaseh in da v jeziku, ki ga razumejo, ponuja podatke o semenih in pridelkih, primernih za njihova polja. Če jim ponudijo strojno prevedeni članek, bi se jim lahko povzročila škoda, saj podatki verjetno ne bodo pravilni.
V Google Translatu v fulfuldščini, jeziku Fulanov, beseda za januar pomeni junij, ChatGPT pa pravi, da pomeni avgust ali september. Program zapiše tudi, da fulfuldska beseda za žetev med drugim pomeni vročico ali blaginjo.
Abdulkadir je nadaljeval, da je nedavno moral temeljito popraviti članek o kitajskem fižolu, pomembnem pridelku, ki je za številne kmete po vsej Afriki soliden vir zaslužka.
Ko nekdo želi ustvariti stran v fulfuldski Wikipediji, jo mora prevesti ročno, sicer bralcu ne koristi prida, saj ne nudi niti osnovnih podatkov, Abdulkadir poduči wikipediste. Kljub temu je po njegovi oceni šest desetin člankov še vedno nepregledanih strojnih prevodov. Če se ne bo kaj bistvenega spremenilo pri učenju in uporabi sistemov UI, so obeti za njegov materni jezik črni. »Iskreno povedano, bo to grozno, moj jezik ne bo imel popolnoma nobene možnosti.«
Na drugem koncu Nigerije v Wikipedijo svoje prispevke vnaša Lucy Iwuala, in sicer v jeziku igbo, ki ga govori več milijonov prebivalcev na jugovzhodu države. »Škoda je že storjena,« mi je povedala in odprla najnovejša članka. Oba sta bila prevedena samodejno z Wikipedijino funkcijo Content Translate in sta vsebovala toliko napak, da ju sploh ni mogla prebrati do konca, saj bi jo začela boleti glava. »Nekaj izrazov sploh ni prevedenih in so ostali v angleščini,« je izpostavila. Uporabniško ime je prepoznala kot serijskega kršitelja. »V njegovih člankih so celo črke, ki jih naš jezik sploh ne vključuje,« je dodala.
Lucy Iwuala je za Wikipedija začela redno pisati pred tremi leti, ker jo je skrbelo, da bi njen materni jezik sicer izpodrinila angleščina. Ta pomislek skrbi mnoge, ki so dejavni pri manjših izdajah Wikipedije. »To je moja kultura, to sem jaz,« je rekla. »To je bistvo vsega. Zagotoviti moramo, da nas ne bodo izbrisali.« Po poklicu je sicer prevajalka iz angleščine v igbo. Pravi, da največjo škodo povzročajo neizkušeni uporabniki, ki si s strojnimi prevodi pomagajo k hitrejši uveljaviti svojega imena v tej jezikovni različici Wikipedije. Na spletnih konferencah, ki jih pripravlja, in po elektronski pošti mora malomarnim urednikom pojasnjevati, da ima njihovo delo ravno nasprotni učinek od želenega. S slabimi prevodi kvečjemu odvračajo uporabnike. »Vse jih mine in počasi nehajo obiskovati našo različico, podatke raje poiščejo v angleški.«
Podobno opaža tudi Noah Ha‘alilio Solomon, asistent za havajski jezik na havajski univerzi. Ocenjuje, da je dobra tretjina besed na nekaterih straneh havajske Wikipedija nerazumljiva. »Če je to havajščina, ki se bo uveljavila na spletu, bo povzročila samo škodo,« je opozoril.
Njegova materinščina, ki se je pred desetletji že opotekala na robu izumrtja, si je zaradi prizadevanj domačih govorcev in akademikov opomogla. Tako slaba havajščina na tako priljubljeni platformi, kot je Wikipedija, Ha‘aliliu Solomonu povzroča sive lase.
»Naravnost zaboli me, saj me spomni na vse primere kulturnega in jezikovnega prisvajanja,« je pojasnil. »Na vse kriplje si prizadevamo, da bi oživili naš jezik, in ta boj ni lahak. Slabi prevodi so dodatna ovira. Ljudje bodo mislili, da je havajščina dejansko takšna.«
Hitro postane jasno, kakšne so posledice teh napak v Wikipediji. Prevajalniki UI, ki so ta besedila nedvomno vključili v podatke za učenje, zdaj pomagajo pri nastajanju strojno napisanih učbenikov za učenje najrazličnejših majhnih jezikov, na primer inuktituta in jezika kri, ki ga govorijo domorodne skupine v Kanadi, pa manksa, keltskega jezika na otoku Man. Veliko jih prodajajo na Amazonu. »Čisti škart,« je izdajo, ki se razglaša za priročnik za začetnike s frazami v inuktitutu, komentiral Richard Compton, jezikoslovec na quebeški univerzi v Montrealu.
UI tako ne pripomore k seznanjanju z majhnimi jeziki, temveč postavlja minsko polje za učence in govorce teh jezikov, po katerem se morajo prebijati. »To je klofuta,« je pripomnil Compton. Skrbi ga, da bodo mlajše kanadske generacije, ki bi se rade naučile jezikov skupnosti, katerih predstavniki so se krvavo borili proti diskriminaciji in za ohranjanje dediščine, zanašale na spletna orodja, kot je ChatGPT, ali na učbenike, kot jih prodaja Amazon. Stvari bodo zaradi tega spet šle na slabše. »Vse skupaj je velika prevara,« je prepričan.
Tekma s časom
Po Unescovih podatkih vsaka dva tedna neki jezik razglasijo za izumrl. Vprašanje, ali je fundacija Wikimedia, ki upravlja Wikipedijo, dolžna skrbeti za jezikovno raven na svoji platformi, ostaja odprto. Runa Bhattacharjee, ena od vodij fundacije, mi je v pogovoru povedala, da o vsebini v svoji različici Wikipedije odločajo skupnosti same. »Tako so one odgovorne za to, da na njihovih straneh ni vandalizma in neželene dejavnosti, naj gre za strojne prevode ali karkoli drugega,« je razložila. Dodala je, da o ukinitvi izdaj razmišljajo le, če dobijo konkretno pritožbo.

Kaj pa, če ni dejavne skupnosti? Kako se potem v izdajo vnašajo popravki in kdo se potem pritoži?
Bhattacharjeejeva je pojasnila, da je v takšnih primerih vloga njene fundacije le ohranjanje platforme, dokler se ne pojavi kdo, ki jo je pripravljen oživiti. »Zagotavljamo prostor za rast in razvoj, to je naša naloga.«
Jezik inarska samijščina, ki ga govori ena sama odmaknjena skupnost na severu Finske, je pravi zgled tega, kako je mogoče pozitivno izkoristiti Wikipedijo. Jeziku je pred štirimi desetletji grozilo izumrtje, govorili so ga le štirje otroci. Njihovi starši so v zadnjem poskusu, da bi preživel, ustvarili jezikovno zvezo za svojo materinščino. Njihov trud se je obrestoval in danes jezik govori več sto ljudi, uporabljajo ga v nekaj šolah in v Wikipedija je 6.400 člankov v tem jeziku. Vse so pregledali govorci, ki tekoče govorijo ta jezik.
Ta uspeh osvetljuje Wikipedijo kot enkratno orodje za preživetje majhnih jezikov, za katerimi stoji skupnost, odločena, da bo ohranila materinščino. »Ni nam mar za številčnost, skrbi nas le kakovost,« je poudaril Fabrizio Brecciaroli, član te zveze. »Wikipedijo bomo uporabljali kot repozitorij za pisani jezik. Ponuditi moramo orodja, ki jih bodo znale uporabljati mlajše generacije. Pomembno je, da bo inarska samijščina uporabna tudi digitalno.«
Projekt je tako uspešno zaživel, da so Wikipedijo celo vključili v učni načrt šol, kjer govorijo inarsko samijščino, je še dodal Brecciaroli. Učitelji ga kličejo po telefonu in prosijo, naj sestavi preproste članke o temah od tornadov do samijske folklore. Wikipedija je ponudila celo možnost, kako v jezik vpeljevati nove besede. »Nenehno moramo tvoriti nove izraze. Mladi jih potrebujejo, da se lahko pogovarjajo o športu, politiki in videoigrah. Če ne vedo, kako naj se izrazijo, lahko pobrskajo po Wikipedija.«
Wikipedija je poseben intelektualni eksperiment. Zgodba inarske samijščine dokazuje, da je ob veliki zavzetosti lahko uspešen. »Končni cilj je zagotoviti, da bo jezik preživel,« je poudaril Brecciaroli. »Mogoče je celo dobro, da Google Translate ne prevaja v naš jezik.«
To morda drži, čeprav bi velike jezikovne modele, kot je ChatGPT, lahko naučili prevajati tudi v jezike, ki jih tradicionalna orodja za strojno prevajanje ne vključujejo. Brecciaroli mi je povedal, da se ChatGPT v inarski samijščini slabo odreže, kakovost pa je v veliki meri odvisna od naloge. Če mu postavite vprašanje v tem jeziku, bo v odgovoru mrgolelo finskih in celo izmišljenih besed. Če pa ga vprašate v angleščini, finščini ali italijanščini in ga prosite, naj odgovori v inarski samijščini, je rezultat boljši.
Zaradi vsega tega je ustvarjanje čim večje količine kakovostne spletne vsebine tudi tekma s časom. »ChatGPT potrebuje le veliko besed. Če dovajamo kakovosten material, bomo prej ali slej dobili nekaj uporabnega. Tako vsaj upamo,« je povedal Brecciaroli. Takšen princip delovanja podpira tudi več jezikoslovcev, s katerimi sem se pogovarjal – tako bi nemara tudi prekinili začarani krog s prevedenimi smetmi. (OpenAI, ki upravlja ChatGPT, se ni odzval na prošnjo po komentarju.)
Kakorkoli že, izhodiščna težava bo verjetno vse bolj pereča, saj veliko jezikov nima takšne sreče kot inarska samijščina in prevajalnike bodo zato najverjetneje učili z vse več umetnointeligenčnimi zmazki. Wehr je na žalost veliko bolj pesimističen o prihodnosti svoje ljubljene grenlandščine.
Ko je izbrisal večino člankov v grenlandščini, je leta iskal domače govorce, ki bi mu pomagali pri vnovičnem oživljanju te izdaje. Pojavljal se je tudi v grenlandskih medijih in k sodelovanju vabil na družbenih omrežjih. Odziv je bil medel, kar ga je zelo potrlo.
»Nikogar na Grenlandiji ne zanima in nihče noče prispevati svojega deleža,« je potožil. »Prav nobenega smisla nima in zato bi morali grenlandsko izdajo kar ukiniti.«
Konec lanskega leta je pri jezikovnem odboru Wikipedije začel postopek za izbris izdaje v grenlandskem jeziku. Po mesecih zagrizene razprave med nekaj deset birokrati so nekateri osuplo ugotovili, da ima na prvi pogled tako zdrava izdaja res ogromno težav.
Nato so na začetku septembra Wehrov predlog potrdili: grenlandska Wikipedija bo izginila, članke, ki bi ostali, pa naj bi preselili v Inkubator, v katerem preizkušajo in vzpostavljajo nove jezikovne izdaje. Med razlogi, ki jih je navedel jezikovni odbor, je tudi uporaba umetnointeligenčnih orodij, zaradi katerih nastajajo nesmiselni članki in odseki, ki izkrivljajo dejanski jezik.
A mogoče je vseeno že prepozno – napake v grenlandščini so se že zakoreninile v sistemih za strojno prevajanje. Če Google Translatu ali ChatGPT ukažete, naj v pravilni grenlandščini šteje do deset, mu spodleti.
Copyright Technology Review, distribucija Tribune Content Agency.