Veliki brat v žepu

Objavljeno: 26.2.2019 | Avtor: Matej Huš | Kategorija: Dosje | Revija: Marec 2019

Skoraj nemogoče je danes uporabljati internet, ne da bi ob tem uporabili vsaj kakšno Googlovo storitev ali aplikacijo. Tehnološki gigant ve, kaj iščemo, kod hodimo, kje živimo in kaj si želimo. Veliko informacij mu damo sami, še več pa jih zbere, ne da bi se tega sploh zavedali. Raziskava ameriške univerze Vanderbilt razkriva, da se telefon z Androidom več kot stokrat dnevno pogovarja z Googlovimi strežniki, četudi ga sploh ne uporabljamo.

Google ni obogatel, ker bi ponujal najboljši spletni iskalnik na svetu. Podjetje, ki je od leta 1998 do danes prehodilo osupljivo pot iz garaže do dveh milijard aktivnih uporabnikov, je med največjimi zbiralci podatkov o uporabnikih. K temu so seveda odločilno pripomogli najboljši spletni iskalnik in številne druge uporabne storitve (YouTube, Gmail, Maps), ki so privabili uporabnike, ključ pa je unovčevanje podatkov o teh uporabnikih.

Preverjanje pristnosti pri dostopu do Gmaila. Podobno velja tudi za ostalo storitve.

Večinoma se bežno zavedamo, da Google ve veliko o nas, a tu razmislek pogosto končamo. Tu in tam nas spomni nase, ko nam, na primer, postreže povzetek preteklega meseca v elektronski pošti (skupaj z lokacijami in s fotografijami). Precej neprijetno branje so tudi pogoji uporabe Googlovih storitev, v katerih mrgoli naštevanj, kaj vse Google ve in teoretično lahko stori.

Kaj so raziskovali

V raziskavi so proučevali, kaj, kako pogosto in v kolikšnem obsegu Android in Applovi telefoni sporočajo Googlu. Simulirali so več različnih scenarijev.

Eden je bila simulacija običajnega dneva uporabnika pametnega telefona, ki se zjutraj pripravi na službo, pospremi otroke v vrtec, se z javnim prevozom odpravi na delovno mesto, si vmes privošči kakšno kavo, uredi kakšen sestanek pri zdravniku, nakupi špecerijo, se odpravi domov z Uberjem, doma brska po internetu in gleda televizijo.

Poleg tega jih je zanimalo tudi, kaj telefon sporoča Googlu, če ga sploh ne uporabljamo, temveč zgolj vključen ure leži na polici.

Na univerzi Vanderbilt v Tennesseeju je Douglas Schmidt že lani pripravil obširno 55-stransko študijo o količini podatkov, ki jih Google zbira o uporabnikih. Google je kmalu po objavi izsledkov, ki so avgusta dvignili obilico prahu, študijo označil kot »divje zavajajočo«, a je zgolj pavšalno pojasnil, s čim se ne strinja. Schmidt, profesor računalništva s 30-letnimi izkušnjami, ki je v svoji karieri delal tudi na univerzi Carneige Mellon in za raziskovalno vejo ameriške vojske Darpa, je študijo izdelal po naročilu neprofitne organizacije Digital Content Next, večina izsledkov pa je kvantitativnih in enostavno preverljivih.

Aktivno in pasivno zbiranje podatkov

Zbiranje podatkov so glede na informiranost uporabnika razdelili v kategoriji aktivno in pasivno, čeprav gre seveda v obeh primerih za Googlovo aktivno početje. Za aktivno zbiranje podatkov so označili vsako posredovanje podatkov Googlu, ki ga sami sprožimo. To se zgodi ob vpisu v Google storitve in brskanju po spletu ali YouTubu, kadar smo prijavljeni v svoj račun pri Googlu. V tem primeru se ne moremo izgovarjati na nevednost, saj Google dobi vse informacije, ki jih vpišemo v njegove storitve. Druga kategorija pa je pasivno zbiranje, ko se to zgodi samo od sebe. Sem sodi, na primer, brskanje po spletu, ko nam na različnih straneh sledi Googlova analitika ali pa nas spremljajo orodja za oglaševalce in založnike (AdMob, AdWords, AdSense).

Med testom so ugotovili, da je pasivno zbranih podatkov pri povprečnem uporabniku Googlovih storitev približno dvakrat več kot aktivno zbranih. Pri tem so merili število zahtevkov oziroma dogodkov, ne pa same količine prenesenih podatkov.

Kaj lahko vidimo sami

Prvi pogled v goro podatkov, ki jih je o nas nabral Google, dajeta storitvi Google My Activity in Google Takeout. Google My Activity (myactivity.google.com) nam pregledno pokaže vse, kar smo po Googlovem védenju počeli. To vključuje obiskane spletne strani, prejeto pošto, prebrane novice, ogledane fotografije, vpisane iskalne termine itd. Skratka, gre za povzetek vsega spletnega dogajanja, pri katerem smo uporabljali Googlovo infrastrukturo. Google podobno shranjuje še druge podatke, denimo našo fizično lokacijo, uporabljene naprave (telefoni, prenosniki ...), komentarje na YouTubu in še cel kup drugih stvari.

Tehnične podrobnosti raziskave

Da bi preprečili vplivanje kakršnihkoli Googlovih predhodnih podatkov o uporabnikih, so pametni telefon popolnoma ponastavili (factory reset) in ustvarili nov profil z novim elektronskim naslovom. Vanj so vstavili novo kartico SIM, da je bila tudi telefonska številka nova. Podobno so storili tudi z Applovim telefonom, ki je služil kot kontrola.

Analizo podatkov, ki jih Google (lahko) zbira, so izvedli s štirimi viri podatkov. To so bili (1) uporabniku vidni zbrani podatki, ki si jih lahko ogleda v storitvah Google My Activity in Google Takeout, (2) podatki, ki jih telefon pošilja Googlu prek interneta, (3) Googlovi pogoji uporabe in politike zasebnosti za različne storitve, (4) izsledki drugih raziskav o Googlovem zbiranju podatkov.

Medtem ko lahko do podatkov v My Activityju in Takeoutu ter pogojev uporabe pridemo zelo enostavno, so za prestrezanje podatkov uporabili pristop MITM Proxy (man-in-the-middle). Promet s telefona so preusmerili prek VPN, tako da so prestregli vse razen telefonskih klicev ali sporočil SMS (ki jih seveda ni bilo). Z namestitvijo ustreznih certifikatov HTTPS na telefon so poskrbeli, da so lahko dešifrirali ves promet. Z iptables so ga preusmerili skozi program mitmproxy, ki ga je potem dešifriral in shranil za analizo. Z njo so nato natančno preverili, kaj in kam telefon sporoča.

Vse to lahko v enem kliku prenesemo na lokalni disk, če obiščemo storitve Google Takeout (takeout.google.com). Tam vidimo vse storitve, v katerim imamo shranjene kakšne podatke, in dobimo možnost (selektivnega) prenosa velikega arhiva z vsemi podatki. Običajno traja več ur od klika na gumb Pripravi do tega, da v elektronski predal dobimo povezavo do tega arhiva, ker je podatkov pač zelo veliko. Naštejemo lahko dobrih petdeset storitev, med katerimi je nekaj takoj prepoznavnih, kot so YouTube, Maps, StreetView ali Drive, ter precej takšnih, za katere slišimo prvič in jih morda sploh ne uporabljamo: Shopping Lists, Textcube itd. Skratka, takoj nam postane jasno, da je Googlov ekosistem ogromen.

Android in Chrome

Google ima več platform, prek katerih mu puščamo podatke. Največji sta gotovo Android in Chrome. Android ima več kot 80-odstotni tržni delež med pametnimi telefoni, Chrome pa je – tudi ker je v Androidu privzet brskalnik – globalno najbolj razširjeni brskalnik. Z njim se opravi več kot 60 odstotkov vsega brskanja po spletu. Za uporabo Androida je treba imeti račun pri Googlu, ki vključuje osebno ime, elektronski naslov in telefonsko številko, ter predstavlja stično točko za dostop do vseh Googlovih storitev. Nekatere zahtevajo še več informacij, denimo številko kreditne kartice, poštno številko in rojstni datum pri Google Payu, tretje pa nam zgolj olajšalo življenje, če jim še kaj povemo prostovoljno – na primer domači naslov za Google Maps.

Četudi razen Chroma ne uporabljamo nobene druge Googlove aplikacije, se telefoni čez dan veliko pogovarjajo z Googlovimi strežniki.

Chrome zbira cel kup podatkov, če z njim obiskujemo spletne strani, ki zahtevajo njihov vpis. Možnost Samodokončaj si zapomni elektronske naslove, rojstne podatke in podobno. Ti podatki se hranijo lokalno, razen če vključimo funkcijo sinhronizacije med napravami (Sync), ko seveda odpotujejo v oblak. Prav tako si Chrome zapomni strani, ki jih obiskujemo, lahko shranjuje gesla, piškotke, zgodovino prenosov itd.

Chrome in Android s še posebnim zanimanje spremljata lokacijo uporabnika, ki jo lahko izvesta iz podatkov z GPS, če pa tega nimamo vključenega, pa tudi od bazne postaje, vidnih omrežij Wi-Fi, povezav Bluetooth ter s senzorjev. Seštevek vsega dá izjemno natančno informacijo o lokaciji uporabnika.

Poskus 1: neaktivni telefoni

Obe platformi zbirata podatke tudi pasivno. V raziskavi so telefone pustili pri miru, brez kakršnekoli uporabniške interakcije, le prazen Chrome je bil odprt oziroma Safari na iPhonu. Eksperiment je trajal 24 ur. V tem času je telefon z Androidom kar 900-krat pošiljal podatke na Googlove strežnike in ustvaril 4,4 MB prometa. To pomeni, da v enem mesecu samo naveza Android/Chrome ustvaril 130 MB prenosa, ne da bi od tega uporabnik sploh kaj imel. Približno 35 odstotkov prometa je bilo povezanega z lokacijo uporabnika, preostanek pa s Play Storom, servisnimi podatki za Android (crash reports, device authorization) in drugimi sistemskimi klici. Medtem je iPhone na Googlove strežnike poklical 50-krat manj pogosto, poslal pa je 0,76 MB prometa na dan. Na Applove strežnike je iPhone poklical 10-krat manj pogosto kot Android na Googlove, ustvaril pa je 0,63 MB prometa na dan. Torej iPhone razkriva (vsaj količinsko) manj.

Založniške in oglaševalske tehnologije

Četudi ne uporabljamo nobene Googlove storitve, če nimamo Googlovega telefona in ne obiščemo nobene Googlove strani, se Googla ne moremo rešiti. Veliko spletnih strani, po ocenah med 100.000 najpopularnejšimi kar tri četrtine, uporablja Google Analytics. Gre za najpopularnejšo storitev za internetno analitiko, ki upravljavcem spletnih strani omogoča pridobivanje statistike o obisku.

Če stran uporablja Google Analytics, vsebuje košček kode, ki pokliče datoteko analytics.js na Googlovih strežnikih. Ta prenese posnetek uporabnika in njegov čim bolj enolični identifikator, ki vsebuje naslov obiskane strani, podatke o brskalniku, lokacijo, jezikovne nastavitve itd. Ob prvem obisku se na uporabnikov računalnikov shrani piškotek, ki do izbrisa sledi uporabniku prek spletnih strani znotraj iste domene. Druga podobna storitev, ki pa ni zgolj analitika, temveč ima tudi oglaševalski del, je DoubleClick (zdaj del Google Marketing Platform). Ta streže piškotke, ki omogočajo sledenje uporabniku prek spletnih strani na različnih domenah, zato pogosto vidimo iste oglase na različnih straneh.

AdSense in AdWords sta Googlovi orodji, ki sta namenjeni trženju oglasnega prostora na spletnih straneh. AdSense uporabljajo upravljavci spletnih strani (založniki), ki želijo prostor prodati, AdWords pa kupci oglasnega prostora (oglaševalci). Dandanes ima več kot 15 milijonov spletnih strani AdSense. Ta zbira informacije o tem, ali je neki oglas prikazan, kako je uporabnik interagiral z njim ipd. AdWords pa torej ob prikazu oglasa na uporabnikov računalnik podstavi piškotek, da bi ga lahko ob ponovnem obisku ali celo nakupu prepoznal. Na mobilnih napravah sta AdSense in AdWords ujetnika peskovnika (sandboxing), ki preprečuje komunikaciji aplikacij med seboj.

Osebni pogled

Med pisanjem tega prispevka sem si seveda ogledal tudi, kaj Google ve o meni. Priznam, bilo mi je kar neprijetno. Čeprav se štejem med bolj tehnično osveščene uporabnike in racionalno vem, kaj vse Google beleži ali pa bi tehnično lahko beležil, me je pregled teh informacij na enem mestu vnovič neprijetno presenetil.

Že pogled na Timeline v storitvi Google Maps je bil poveden, saj je Google točno vedel, kje sem se gibal in kaj sem si ogledal. Saj po eni strani je zanimivo pogledati, koliko kilometrov sem kakšen dan prevozil, prekolesaril, pretekel ali prehodil, katere znamenitosti videl in katere vrhove osvojil, a priokus Velikega brata ostaja. Vem tudi, da Google teh informacij ne bi poznal tako natančno, če bi na telefonu izključil GPS, in da je storitev Timeline mogoče izključiti. Toda to je le skrivanje. Google vseeno ve, kje se nahajamo, saj, na primer, podatke o lokaciji črpa tudi iz informacije o bazni postaji, vseh videnih omrežij Wi-Fi in podatkov iz tipal na telefonu. Kako natančno, kako trajno in v kakšen namen to beleži, pa je že bolj paranoična razprava.

Ko sem na Google Takeout zahteval prenos vseh svojih podatkov, je Google potreboval kar štiri ure, da je pripravil arhiv z želenimi podatki. Prvi je meril ogromnih 13 GB in je vseboval vso prejeto in poslano elektronsko pošto na Gmailu, kar pojasni velikost. Drugi je sicer obsegal le 600 MB, a je vseboval skoraj vse moje digitalno življenje.

Tam so, na primer, vse fotografije, ki sem jih poslal prek Google Hangouts, natančni podatki o nastavitvah mojega pametnega telefona, vse datoteke na Google Drivu, vsi zapiski v Google Keepu, neizbrisana zgodovina brskanja, Google Calendar, vsi stiki itd. Ob tem moram pošteno povedati, da gre za aktivno zbrane podatke, torej kar sem Googlu v takšni ali drugačni obliki sam posredoval v zadnjih letih.

Ob listanju po albumih s starimi fotografijami, gledanju starih video posnetkov ali branju starih pisem se običajno počutimo prijetno, ko z nostalgijo podoživljamo stare čase. Pri kirurško natančnem popisu vsega dogajanja, ki nam ga ponuja Google (in v resnici vsa moderna tehnologija), pa so občutki popolnoma drugačni. Včasih smo skrbno shranili precej manj, predvsem pa precej pozorno izbrane trenutke. Google si zapomni kolaž vsega dobrega in hudega, fantastičnega in dolgočasnega, pravilnega in napačnega, kar smo mu pač kadarkoli zaupali.

So mogoče zlorabe? Tehnično gledano zagotovo, saj podatki obstajajo in nekje so. Verjetno povprečen (ali pa bolje rečeno skoraj vsak) Slovenec globalno ni dovolj zanimiv, da bi se moral bati za varnost pri Googlu shranjenih osebnih podatkov. Lahko pa seveda prileti na »kakšno mino«, če je neciljana žrtev kakšnega širokega hekerskega napada in mu odnese osebne podatke. Precej realnejše je tveganje, da bi za zasledovanje lokalnih interesov določene skupine šle kopat po javno dostopni preteklosti posameznika na internetu (tudi te ne manjka) in tako zbrane informacije v pristni ali manipulirani obliki uporabljale v svoj prid.

Zrno soli je v misli, da bi bil svet precej drugačen, če bi pametni telefon izumili že v času hladne vojne. Predvsem pa se mi zdi, da imamo danes vsi, še zlasti pa mladina, težjo nalogo kot kadarkoli v preteklosti. Ljudje smo vedno počeli neumnosti, le da včasih ni bilo tehnologije, ki bi si jih zapomnila za vse večne čase. Dandanes zato prav nič ne zavidam visokim politikom, direktorjem in ostalim, ki bi morali 24 ur na dan dajati zgled za ravnanje.

Vsi uporabniški podatki, povezani z oglaševanjem, so po zagotovilih Googla sicer unikatni (uporabnike je mogoče razločiti), a anonimizirani (uporabnikov ni mogoče identificirati). Schmidt pa trdi, da Googlova politika zasebnosti podjetju dovoljuje, da bi te informacije povezal z osebnimi podatki v profilu in da analiza prometa kaže, da je to tudi v praksi mogoče. Beležijo se naslednji identifikatorji: GAID/IDFA (alfanumerični niz za ciljanje reklam na mobilnih napravah, uporabnik ga lahko ponastavi), odjemalčev ID (se ustvari s piškotkom, se ponastavi ob izbrisu vseh piškotkov), naslov IP, ID naprave z Androidom (se ponastavi ob popolnem izbrisu – factory reset), GSF (številka za razlikovanje uporabnikov Googlovih storitev, se ponastavi ob popolnem izbrisu), IMEI/MEID (stalna), MAC-naslov (stalen) in serijska številka naprave (stalna).

Poskus 2: minimalna uporaba Googlovih storitev

Da bi preverili, koliko teh pasivnih podatkov se prenese brez uporabe Googlovih storitev, so v raziskavi telefon uporabljali brez Googlovih storitev (Search, Gmail, YouTube, Maps itd.). Dovoljen je bil le brskalnik Chrome. Pri običajnem dnevu povprečnega uporabnika (glej okvir) je telefon največ komuniciral z domenami za analitiko in oglaševanje (Google Analytics, DoubleClick) ter z lokacijskimi storitvami. V 24 urah je telefon 450-krat poklical Googlove strežnike, kar je zgolj 40 odstotkov več kot v poskusu 1, ko je bil telefon neaktiven. To pomeni, da se Google veliko pogovarja z našim telefonom (ali obratno), ne glede na dejansko aktivnost.

Telefoni poleg GPS uporabljajo še druge načine za natančnejšo določitev lokacije.

Najpriljubljenejše Googlove aplikacije …

Največ uporabnikov imajo iskanje (Search; 90-odstotni tržni delež), YouTube (1,8 milijarde uporabnikov), Maps (1 milijarda uporabnikov) in Gmail (1,2 milijarde uporabnikov). Google Search s povezanimi specializiranimi iskalniki (Finance, Flights, News, Scholar, Patents, Books, Images, Videos, Hotels) natančno beleži, kaj nas zanima, hkrati pa ob vsaki poizvedbi zapiše še lokacijo. Na številnih napravah je to privzeti iskalnik. YouTube shranjuje podatke o ogledanih posnetkih, naročninah, seznamih predvajanja in komentarjih. Če smo vpisani v Googlov račun, YouTube prepozna našo identiteto tudi, če je videoposnetek vstavljen v drugo spletno stran. Maps si, kot smo že opisali, na različne načine pomaga ugotoviti našo lokacijo in iz tega sestaviti profil osebe. Gmail pa tako in tako pozna vsa naša elektronska sporočila. Ker se na številnih straneh prijavljamo z naslovom Gmail in potem dobivamo obvestila po elektronski pošti (denimo, da smo označeni na fotografiji na Facebooku), Google ve tudi to. Algoritmi berejo vso pošto, da lahko odsortirajo spam, nekoč pa je Gmail to uporabljal celo za personalizacijo oglasov. To se je leta 2017 končalo.

… in tiste, ki obetajo

Poleg velike četverice obstoji še na desetine Googlovih aplikacij, ki imajo sicer manj uporabnikov, a podjetju dajejo dodaten vpogled v uporabnike. Accelerated Mobile Pages je tehnologija za hitrejše nalaganje strani, ki jih obiščemo prek Google Searcha. Gre za odprtokodno orodje, ki ga je razvil Google. Kopije so shranjene na Googlovih strežnikih, ki tako točno ve, kaj uporabniki gledajo.

Google Assistant bo še en močan vdor v zasebnost, če mu bomo to seveda dovolili. Imeti osebnega pomočnika je lagodno, a kaj, ko ta veliko izve in nas celo sliši. Shranjevanje fotografij na Google Photos je podobno kot uporaba Facebooka, le da je ponudnik to pot pač Google. Posebno velja biti pozoren še na tablične računalnike Chromebook, ki jih sicer ni veliko, predstavljajo pa zaklep v Googlov ekosistem. Uporabnik je namreč ves čas vpisan v Googlov račun. Google Pay, ki pri nas še ni tako relevanten, pa bo Googlu omogočil še zelo natančen vpogled v naše nakupovalne navade. Temu dodajmo še Google Music, Docs, Translate, Keep in Hangouts, pa bo Google vedel tudi, kaj radi poslušamo, na čem delamo službeno, katere jezike govorimo in s kom se kaj pogovarjamo.

Četudi telefona sploh ne uporabljamo, vseeno komunicira z Googlovimi strežniki.

Google nudi celo lastne strežnike DNS, posebne usmerjevalnike Wi-Fi za podaljšanje dometa brezžičnih omrežij, pametne termostate Nest, ponekod v ZDA pa celo optični dostop do interneta Google Fiber.

Bi šlo brez?

Namen prispevka ni strašiti, temveč spodbuditi k razmisleku. Schmidt se je moral po objavi raziskave spopadati z očitki, da je pristranski, ker je v primeru Oracle proti Googlu nastopal kot strokovna priča za Oracle. Google mu je v odzivu očital tudi, da je študijo naročilo profesionalno lobistično združenje. Google je kot največje netočnosti izpostavil, da ne združuje podatkov iz anonimnih sej (incognito mode) z znanimi profili, temveč se takoj izbrišejo. Prav tako tega ne počne z anonimizirani podatki iz oglaševalskih piškotkov, so še zatrdili.

Dejstvo pa je, da Google o nas ve ogromno, četudi bi zbiral samo to, kar mu izrecno povemo. Temu se v modernem svetu ne moremo izogniti, lahko pa se tega zavedamo in na internetu ne počnemo neumnosti. V prihodnji številki pa si bomo pogledali, kako se spremeni življenje, če odrežemo največjih pet: Google, Apple, Microsoft, Facebook in Amazon. Naj namignemo – precej si ga otežimo.

Nadaljnje branje

Douglas C. Schmidt. Google Data Collection. digitalcontentnext.org/blog/2018/08/21/google-data-collection-research/

Naroči se na redna tedenska ali mesečna obvestila o novih prispevkih na naši spletni strani!
Prijava

ph

Komentirajo lahko le prijavljeni uporabniki