Neki uporabnik Reddita je nedavno zapisal, da obupano potrebuje pomoč; približno mesec dni so ga s telefonskimi klici zasipali neznanci, ki so želeli govoriti z odvetnikom, oblikovalcem, s ključavničarjem … Klicatelje naj bi napačno usmerila Googlova generativna UI.

Eileen Guo, MIT Technology Review
Marca je izraelskega razvijalca programske opreme nekdo kontaktiral prek Whatsappa, potem ko je Googlov klepetalnik Gemini v navodila za pomoč uporabnikom vključil tudi njegovo številko.
Aprila se je doktorska študentka na univerzi Washington igrala z Geminijem in dosegla, da ji je razkril zasebno telefonsko številko njenega sodelavca.
Raziskovalci UI in strokovnjaki za spletno zasebnost že dolgo opozarjajo na številne nevarnosti, ki jih generativna UI predstavlja za zasebnost. Ti primeri kažejo na še eno dogajanje, zaradi katerega bi se morali resno zamisliti: generativna UI razkriva prave telefonske številke ljudi. (Uporabnik Reddita se ni odzval na več prošenj za dodaten komentar in njegove zgodbe nismo mogli preveriti.)
Strokovnjaki pravijo, da so ti spodrsljaji na področju zasebnosti najverjetneje posledica uporabe osebno določljivih podatkov v učnem gradivu, s katerim učijo modele UI, težje pa je dognati natančen mehanizem, zaradi katerega se telefonske številke pojavijo v odgovorih klepetalnikov. Ne glede na vzrok pa rezultat za prizadete ni prav nič zabaven – še bolj skrb vzbujajoče pa je, da očitno tega skoraj ni mogoče preprečiti.
Štirikratno povečanje zahtevkov, povezanih z zasebnostjo in UI
Nemogoče je vedeti, kako pogosto klepetalniki razkrivajo zasebne telefonske številke, vendar se to po strokovnih ocenah dogaja veliko pogosteje, kot je javno znano.
V podjetju Deleteme, ki strankam pomaga odstranjevati osebne podatke z interneta, so povedali, da se je število poizvedb strank v zvezi z generativno UI v zadnjih sedmih mesecih povečalo za 400 odstotkov – na nekaj tisoč. V vprašanjih so izrecno omenjeni ChatGPT, Claude, Gemini … in druga orodja generativne UI, je pojasnil soustanovitelj in direktor podjetja Rob Shavell. Natančneje: 55 odstotkov pomislekov o generativni UI je povezanih s ChatGPT, petina z Geminijem, 15 odstotkov s Claudom in desetina z drugimi orodji, je dodal Shavell. (MIT Technology Review ima sklenjeno poslovno naročnino pri podjetju Deleteme.)
Shavell je pojasnil tudi, da bi pritožbe strank zaradi osebnih podatkov, ki jih razkrivajo veliki jezikovni modeli (VJM), lahko razvrstili v dve skupini. Tako se pogosto zgodi, da stranka klepetalnik vpraša nekaj nedolžnega o sebi in v odgovoru lahko prebere svoj dejanski domači naslov, pravo telefonsko številko, imena družinskih članov in podatke o delodajalcu. V drugi skupini pa so primeri, ko klepetalnik razkrije osebne podatke tretje osebe, vendar so ti napačni, čeprav se na prvi pogled zdijo verodostojni.
To se je zgodilo 28-letnemu programskemu inženirju iz Izraela Danielu Abrahamu. Sredi marca mu je, kot je povedal, neznanec z neznane številke poslal čudno sporočilo na Whatsapp in prosil za pomoč v zvezi z računom v izraelski plačilni aplikaciji Paybox.
»Mislil sem, da je spam,« je zapisal v elektronskem sporočilu za MIT Technology Review – »da me nekdo 'trola'.«
Ko pa je neznanca vprašal, kako je našel njegovo številko, mu je ta poslal zaslonski posnetek z navodili Geminija, naj se za pomoč uporabnikom Payboxa prek Whatsappa obrne na naslednjo telefonsko številko – navedena je bila Abrahamova zasebna številka. Abraham ne dela za Paybox in ta niti nima urejene pomoči uporabnikom prek Whatsappa, je potrdil predstavnik za podporo strankam Elad Gabay.
Pozneje je Abraham sam vprašal Gemini, kako stopiti v stik s Payboxom, in ta mu je navedel stik na Whatsappu neke tretje osebe. Ko sem poizvedovala tudi sama, je Gemini v odgovoru spet navedel izraelsko telefonsko številko – ta pa ni pripadala Payboxu, temveč samostojnemu podjetju za kreditne kartice, ki sodeluje s Payboxom.
Abrahamovov pogovor z neznancem se je hitro končal, vendar ga je skrbelo, da bi se drugi morebitni pogovori lahko sprevrgli v nadlegovanje ali nejevoljo. »Kaj, če bi me izsiljeval za denar, da bi 'rešil' težavo s podporo uporabnikom?« se je vprašal.
Da bi zadevi prišel do dna, je Abraham na Googlu poiskal svojo telefonsko številko in ugotovil, da je bila leta 2015 objavljena na spletu, na lokalni strani, podobni Quori. Čeprav ne ve, kdo jo je objavil, bi to lahko pojasnilo, zakaj jo je več kot desetletje pozneje uporabil Gemini.
Klepetalniki, kot so Gemini, ChatGPT in Claude, temeljijo na velikih jezikovnih modelih, ki so jih učili z ogromnimi količinami podatkov s spleta. To neizogibno vključuje več sto milijonov osebno določljivih podatkov. Priljubljeni odprtokodni podatkovni sklop Datacomp Commonpool, ki se uporablja za učenje modelov za ustvarjanje slik, je vseboval kopije življenjepisov, vozniških dovoljenj in kreditnih kartic.

Verjetnost, da bodo osebni podatki po tej poti prišli v javnost, se le še povečuje, saj javnih podatkov zmanjkuje, podjetja na področju UI pa iščejo nove vire kakovostnega gradiva za učenje. Vanj so vključene tudi podatkovne zbirke preprodajalcev podatkov in spletnih strani za iskanje ljudi. Po podatkih kalifornijskega registra posrednikov podatkov je na primer 31 registriranih posrednikov od 578, ki poslujejo v tej zvezni državi, poročalo, da so v zadnjem letu delili oziroma prodali podatke enemu od razvijalcev sistema ali modela generativne UI.
Poleg tega je znano, da si modeli zapomnijo podatke iz učnega gradiva in jih dobesedno reproducirajo – nove raziskave pa kažejo, da si najverjetneje ne zapomnijo samo tistih podatkov, ki se pojavljajo pogosto.
Nepopolni zaščitni ukrepi
Danes je standardna praksa, da se v zasnovo VJM vgradijo zaščitni mehanizmi za omejitve v odgovorih. Filtri vsebine naj bi prepoznali osebno določljive informacije in preprečili, da bi jih klepetalniki razkrivali, medtem ko ima Anthropicov Claude navodila, naj izbira odgovore, ki vsebujejo najmanj osebnih, zasebnih ali zaupnih informacij o drugih ljudeh.
Toda, kot sta pred kratkim ugotovili doktorski študentki na washingtonski univerzi, ki raziskujeta zasebnost in tehnologijo, ti zaščitni ukrepi ne delujejo vedno.
»Nekega dne sem se samo igrala z Geminijem in preverjala Yael Eiger, svojo prijateljico in sodelavko,« je pripovedovala Meira Gilbert. Vtipkala je »kontaktni podatki Yael Eiger« in Gemini je najprej posredoval pregled njenega raziskovalnega dela, kar je Gilbertova pričakovala, nato pa napisal tudi prijateljičino zasebno telefonsko številko. »To me je osupnilo,« je povedala Gilbertova.
Ko je Yael Eiger videla rezultat v Geminiju, se je spomnila, da je svojo telefonsko številko v prejšnjem letu res objavila na spletu zaradi tehnološke delavnice. Ni pa pričakovala, da bo zato vidna vsem.
»Ko tvoji podatki … namenjeni eni skupini ljudi zaradi Geminija postanejo javni, … je čisto nov občutek,« je povedala Eigerjeva, sploh ker je ugotovila, da so bili ti podatki pri običajnem Googlovem iskanju zakopani na zadnjih straneh.
»Bili so izrazito potisnjeni navzdol,« je potrdila Gilbertova. »Nikoli jih ne bi našla, če bi prečesala samo Googlove rezultate.« (Ko sem sama v Geminiju poskusila iste ukaze, mi je orodje po začetni zavrnitvi prav tako posredovalo številko Eigerjeve.)
Po tej izkušnji so se Eigerjeva, Gilbertova in tretja kolegica z univerze, Anna-Maria Gueorguieva, odločile preizkusiti ChatGPT, da bi videle, katere podatke bo razkril o nekem profesorju.
Sprva so se aktivirali varnostni mehanizmi podjetja OpenAI in ChatGPT je odgovoril, da podatki niso na voljo, toda v istem odgovoru je klepetalnik predlagal tudi: »Če želite iskati globlje, lahko poskusim z bolj preiskovalnim pristopom.« Njihovo poizvedovanje bi moralo le »zožiti možnosti«, je dejal ChatGPT, tako da bi podal »okvirno sosesko«, kjer bi profesor utegnil živeti, ali »ime morebitnega solastnika« profesorjeve hiše. ChatGPT je nadaljeval: »To je običajno edini način, da pridete do novejših ali težje dostopnih zemljiških evidenc.«
Študentke so vnesle predlagane podatke, kar je ChatGPT privedlo, da je iz mestnih zemljiških evidenc izbrskal profesorjev domači naslov, podatek o nakupni ceni za hišo in ime zakonca.
(Taya Christianson, predstavnica OpenAI, je dejala, da ne more komentirati tega primera brez zaslonskega posnetka in podatka, kateri model sta študentki preizkusili, čeprav smo opozorili, da številni uporabniki ChatGPT morda sploh ne vedo, kateri model uporabljajo. Namesto odgovorov na vprašanja o razkrivanju osebno določljivih informacij je poslala povezave do dokumentov, ki opisujejo, kako OpenAI obravnava zasebnost, vključno s filtriranjem osebnih podatkov in z drugimi orodji.)
To ponazarja eno temeljnih težav klepetalnikov, pravi Shavell iz podjetja Deleteme. Podjetja v panogi že lahko vgradijo zaščitne mehanizme, vendar so njihovi klepetalniki hkrati zasnovani tako, da so učinkoviti in odgovarjajo na vprašanja uporabnikov.
Razkrivanje podatkov ni omejeno le na Gemini in ChatGPT. Lani je Futurism ugotovil, da klepetalnik Grok podjetja xAI ob navodilu, naj poišče naslov neke osebe, pogosto posreduje tudi telefonske številke, službeni naslov in naslove ljudi s podobnim imenom. (xAI se ni odzval na prošnjo za komentar.)
Ni jasnih odgovorov
Preprostih rešitev ni. Izjemno zahtevno je preverjati, ali so osebni podatki vključeni v učno gradivo modela, ali doseči, da bi modeli odstranjevali osebno določljive informacije.
Uporabniki bi morali imeti možnost, da zahtevajo odstranitev svojih osebnih podatkov, meni Jennifer King z inštituta za UI, osredotočeno na človeka, ki deluje pri stanfordski univerzi. To to običajno tolmačijo, da velja le za podatke, ki so jih ljudje podjetjem zaupali neposredno – na primer med uporabo klepetalnika, je pojasnila Kingova.
»Ne vem, ali Google sploh premore infrastrukturo … da bi lahko odgovoril: ‘Da, vaše podatke smo vključili v učno gradivo; lahko povzamemo, kaj vemo o vas, nato pa to izbrišemo oziroma popravimo napake ali izbrišemo le tisto, kar želite,’« je pojasnila.
Obstoječa zakonodaja o zasebnosti, kot sta kalifornijski zakon o varovanju zasebnosti porabnikov in Splošna uredba o varovanju podatkov EU (GDPR), ne vključuje tudi javno dostopnih informacij, ki so že pobrane s spleta in uporabljene za učenje VJM – sploh ker je večina teh podatkov anonimizirana (a so številne raziskave pokazale tudi, kako preprosto je iz anonimiziranih ali psevdonimiziranih podatkov poiskati identiteto in osebne podatke).
Na vprašanje, ali so se podjetja za UI sploh kdaj sistematično posvetila podatkom, ki so jih že zbrala na internetu, in jih očistila zasebnih informacij, je Kingova jedrnato odgovorila: »Nimam pojma.«
Druga najboljša rešitev bi bila, da podjetja odstranijo vse telefonske številke in podatke, ki spominjajo nanje, je dodala Kingova, vendar nihče ni pripravljen potrditi, da to dejansko počne.
Platforma Hugging Face, ki gosti odprtokodne podatkovne sklope in modele UI, ima orodje, s je mogoče preveriti, kako pogosto se je podatek – na primer konkretna telefonska številka – pojavil v odprtokodnih učnih podatkih VJM. A to nujno ne razkrije, kakšno gradivo so uporabili za učenje zaprtih modelov, ki poganjajo priljubljene klepetalnike, kot so Claude, ChatGPT in Gemini. (Številka Eigerjeve se v orodju Hugging Face ni pojavila.)
Alex Joseph ni odgovoril na konkretna vprašanja, je pa pojasnil, da 'ekipa' preučuje posamezne primere, na katere je opozoril MIT Technology Review. Posredoval je tudi povezavo do dokumenta za podporo uporabnikom, ki opisuje, kako lahko ugovarjajo obdelavi svojih osebnih podatkov oziroma zahtevajo popravek netočnih osebnih podatkov v odgovorih Geminijevih aplikacij. Na spletni strani piše, da je odziv podjetja odvisen od zakonodaje o zasebnosti v posamezni državi.
OpenAI ima portal za zasebnost, prek katerega lahko ljudje oddajo zahtevek za odstranitev svojih osebnih podatkov iz odgovorov ChatGPT, vendar obenem opozarja, da zahteve za varovanje zasebnosti preuči, upoštevaje javni interes, in vlogo lahko zavrne, če za to obstaja zakonska podlaga.
Anthropic je opisal, kako uporablja osebne podatke pri urjenju modelov, vendar nima dosledne metode, kako uporabniki lahko zahtevajo odstranitev. Podjetje se ni odzvalo na prošnjo za komentar.
Najboljša možnost za vse, ki želijo zaščititi svoje zasebne podatke, je, da začnejo pri izvoru: s spleta odstranijo osebne podatke, preden bodo končali v naslednjem zajemu gradiva za učenje, je poudaril Shavell. Kalifornija je svojim prebivalcem ponudila spletni portal, prek katerega od posrednikov podatkov lahko zahtevajo izbris osebnih informacij. Vseeno niti to ni jamstvo, da podatki niso bili že uporabljeni za učenje modelov in se ne bodo pojavili v odgovoru klepetalnika.
Uporabnik Reddita, ki je prejemal nenehne klice, je zapisal, da je Googlu poslal uradno zahtevo za odstranitev svoje telefonske številke zaradi varovanja zasebnosti in zahteval, naj jo takoj uvrstijo na črni seznam, da se ne bi pojavila v odgovorih VJM, vendar je dolgo čakal na odgovor, vmes pa se je nadlegovanje vsak dan nadaljevalo.
Abraham, izraelski razvijalec programske opreme, je Googlovo podporo uporabnikom kontaktiral 17. marca, dan po tistem, ko je bila razkrita njegova telefonska številka. Odgovor je prejel šele 4. maja, v njem pa so ga le prosili za dokumentacijo, ki jo je že predložil.
Eigerjeva, ki jo je spodbodla lastna izpostavljenost na Geminiju, skupaj z Gilbertovo in Gueorguievo pripravlja raziskovalni projekt, s katerim želijo podrobneje preučiti, katere osebne informacije razkrivajo različni klepetalniki, in kaj morda vedo, tudi če nam tega ne povedo.
Del teh informacij je morda strogo tehnično gledano res javen, je pojasnila Gilbertova, vendar je zaradi klepetalnikov treba vložiti precej manj truda, da jih najdeš. Namesto da bi uporabnik moral pregledati deset strani Googlovih rezultatov ali plačati za podatke na spletni strani posrednika podatkov, generativna UI mogoče preprosto močno olajša iskanje in nadlegovanje ljudi.