Objavljeno: 21.4.2015 | Avtor: Marko Kovač | Monitor Maj 2015

Varnostna kopija interneta

»Ali ste izdelali varnostno kopijo?« je vprašanje, ki ga računalnikarji ponavljamo vedno znova in znova (»Zakaj ne?« je verjetno naslednje na seznamu največkrat zastavljenih), saj je pomembne podatke pametno imeti spravljene na več mestih. Pa ste kdaj pomislili kako bi bilo izdelati varnostno kopijo – interneta?

Zgodovinski pregled zajemanja strani monitor.si.

Zgodovinski pregled zajemanja strani monitor.si.

Splet je nikoli dokončana tvorba, ki živi le v in za ta trenutek (kako v duhu današnjih časov). Robustnost in dolgotrajnost (slednje ne velja pri slikah golega oprsja starlet dvomljivega slovesa in posnetkov petja pevcev brez posluha) nista spletni vrlini. Spletne strani umirajo, prepišejo jih novi podatki ali pa se le preselijo in pozabijo pustiti nov naslov. Ocenjujejo, da je povprečna življenjska doba spletne strani okoli sto dni. Nekatere, na primer novičarske, se obnavljajo in spreminjajo vsake nekaj minut, druge, recimo spletna stran, ki smo jo v šestem razredu izdelali pri pouku računalništva, pa ostajajo enake. Za priložnostne iskalce je izguba podatkov s spletnih strani rahla zoprnija, za raziskovalno, poslovno in celo pravno rabo pa je spreminjanje in izginjanje podatkov resen problem, saj se številni sklepi in mnenja navezujejo na takratne spletne strani, ki pa ob kasnejši rabi morda ne bodo vedno na voljo. Študija harvardske Pravne fakultete navaja, da kar 70 % povezav v znanstvenih revijah ne vodi več nikamor in da je takih celo 50 % povezav v odločitvah ameriškega ustavnega sodišča.

Pred dvajsetimi leti, ob zori internetne dobe, je krožila praktična šala o spletnih začetnikih, ki so jim prvi dali računalnik brez omrežne povezave in disketo z velikim napisom Internet in jih prepričevali, da je na njej vsebina celotnega spleta. Danes se zdi zamisel o shranjevanju spleta manj absurdna, toda veliko težje uresničljiva. A na srečo je že od leta 1996 na voljo digitalna knjižnica, ki se ukvarja z arhiviranjem interneta in se pripravno imenuje – Internet Archive (archive.org). Povod za ustanovitev je bil malone banalen – Brewster Kahle je bil obupan, ko je njegova spletna stran o makrameju (umetnost izdelovanja okrasnih izdelkov z vozlanjem) izginila zaradi bankrota spletnega gostitelja. Tako je v San Franciscu ustanovil neprofitno organizacijo, ki ohranjanja digitalno dediščino za raziskovalce in zgodovinarje. Internet Archive je osredotočen na shranjevanje spletnih strani z orodjem Wayback Machine. Število shranjenih dokumentov se zares impresivno veča: od nekako 40 milijard leta 2005, prek 150 milijard leta 2009 in 373 milijard leta 2013, vse do 400 milijard lani. Poleg tega Internet Archive shranjuje še fotografije (na primer NASA Images Archive, archive.org/details/nasa), filme (četrt milijona) zvočne posnetke (pol milijona; od tega skoraj 100 000 koncertov), šest milijonov različnih besedil (na primer knjige v prosti rabi: Open Library, openlibrary.org) in celo 30 000 kosov različnih programov.

Prva zabeležena Monitorjeva spletna stran, 7. julij 1998 (imeli smo jo sicer že nekaj prej).

Prva zabeležena Monitorjeva spletna stran, 7. julij 1998 (imeli smo jo sicer že nekaj prej).

Leta 2004 smo bili že malce drugačni, še vedno pa nas je poganjal strežnik Lotus Domino.

Leta 2004 smo bili že malce drugačni, še vedno pa nas je poganjal strežnik Lotus Domino.

Predrugačena Monitorjeva spletna stran, februar 2006. Apache in PHP.

Predrugačena Monitorjeva spletna stran, februar 2006. Apache in PHP.

Nedavna podoba monitorja.si, avgust 2009

Nedavna podoba monitorja.si, avgust 2009

Sodobna podoba monitorja.si, april 2013. Microsoft IIS.

Sodobna podoba monitorja.si, april 2013. Microsoft IIS.

Danes Internet Archive zaposluje 200 ljudi, ki delajo v štirih podatkovnih centrih – treh v Kaliforniji in še enem v Aleksandriji v Egiptu. Proračun arhiva je 10 milijonov dolarjev na leto, dobijo pa jih z donacijami, delno s komercialnim izkupičkom spletnega indeksiranja (ki ga seveda uporabljajo tudi za arhiviranje). Dokaz, da poslanstvo jemljejo resno, je njihov znak, stilizirano grško pročelje, ki daje vtis trdnosti. Prav zaradi videza pa so pred leti kupili nekdanjo cerkev ene od ameriških sekt v neohelenističnem slogu z osmimi korintskimi stebri. Za geslo pa so izbrali nič kaj skromno željo: »Univerzalen dostop do vsega znanja.«

Internetni arhiv vsako vpisano stran v povprečju preveri enkrat na dva meseca, kar nekako ustreza njeni povprečni življenjski dobi (spletna domena monitor.si je bila od leta 1999 posneta 416-krat). Nekatere strani (na primer novičarske) pa so pregledane tudi večkrat na dan. Nekoliko je moteče le to, da se besedilo, slike in drugi večpredstavni dodatki ne arhivirajo hkrati. Tako se lahko zgodi, da iskane strani zaradi manjkajočih grafičnih dodatkov ne bodo videti ravno kot ob spočetju. Dobrodošla je odprtost arhiva. Tako lahko vsakdo predlaga stran za arhiviranje tako, da jo vpiše v okence na spletni strani. Če ste nekoliko bolj podjetni, lahko prek strani archive-it.org arhivirate svoj celoten spletni portal.

Internet Archive je močan zagovornik nevtralnosti interneta in uporabe podatkov iz spleta. Zaradi komercializacije je Brewster Kahle večkrat kritiziral Google, s katerim ju druži podobna osnovna dejavnost – indeksiranje spleta. Kahlovi očitki merijo na pretirano komercializacijo podatkov, saj praviloma Googlovi podatki, čeravno pridobljeni iz vsem dostopnih podatkov, niso na voljo drugim. Za internet Archive je to še posebej pereče pri digitalizaciji knjig v prosti rabi. Poleg zgodovinske vrednosti ima lahko Internet Archive tudi pravno. Ker ponuja neodvisno in nadzorovano kopiranje stanja (spletnih strani), s točnim časom posnetka vred, se njegovi posnetki lahko predložijo kot dokaz sodišču, čeprav sodišča ne upoštevajo vedno teh dokazov. Prav tako je internetni arhiv zanimiv za patentne tožbe, saj lahko s posnetkom dokazujemo poprejšnje stanje stvari in morebitne nesmiselnosti v patentih.

Petabox

Internet Archive ne bi bil mogoč brez ustrezne namenske strežniške opreme, ki jo izdelujejo v podjetju Capricorn Technologies. Strežnike so poimenovali PetaBox. Čeprav se tehnologija diskovnega prostora izboljšuje, osnovna zgradba ostaja enaka: ena omara (Petabox) je sestavljena iz 10 enot, ki vsebujejo po 24 diskov. Celotna omara tako vsebuje 1,4 PB diskovnega prostora, porabi pa približno 4 kW električne energije (to je 33 % manj kot prejšnja različica). Nastalo toploto porabijo za gretje prostorov. Oprema seveda raste z zahtevami. Leta 2010 je bilo na voljo 4 petabajtov (PB) diskovnega prostora, dve leti zatem že 10 PB, lani jeseni pa kar 50 PB. Skupaj naj bi Internet Archive zaposloval okoli 20 tisoč diskov. In če odgovorimo na vprašanje z začetka članka, kako velik je dandanes internet, ga še vedno lahko stlačimo v kontejner velikosti 6 × 2,5 × 2,5 m s težo 12 ton.

Nedavni zgled rabe Internet Archive je sestrelitev letala Malaysia Airlines 17 dne 17. julija 2015. Letalo se je zadnjič oglasilo zemeljski kontroli ob 15:20 po našem času. Ob 16:50 je Igor Girkin, vodja ukrajinskih separatistov, bolj znan pod vzdevkom Strelkov, ali kateri od njegovih sodelavcev objavil sporočilo na ruski strani VKontakte: »Sestrelili smo letalo, AN-26.« Sporočilo je vsebovalo tudi povezavo na video razbitine letala, ki se zdijo podobne Boeingu 777. Ob 17:22 je Wayback Machine shranil posnetek Strelkovega sporočila. Razlog za spremljanje Strelkovega računa je bila prijava strani, ki jo je 2 tedna pred tem izvedel Anatol Shmelev, kurator v Hoover Institution, na Stanfordu v ZDA, ki je zbiral zapise o vojni na ruskih in ukrajinskih blogih. Malo pred 18. uro je Strekovo sporočilo prek Twitterja posredoval Arthur Bright, urednik Christian Science Monitor. Takrat je bilo prvotno sporočilo na VKonatake že izbrisano, kopija pa je ostala na Wayback Machine. Ni bil pa Shmelov edini, ki je opazil pomembnost Strelkovega sporočila, od dvanajstih posnetkov sporočila je sedem naredil robot, pet pa ljudje.

Med shranjenimi dokumenti z veliko večino prevladuje angleščina.

Med shranjenimi dokumenti z veliko večino prevladuje angleščina.

Za delo Internet Archivea pa so še posebej pomembne avtorske pravice. Za kopiranje vsebine bi arhiv moral pridobiti vnaprejšnje dovoljenje avtorja, ne pa tako kot počne sedaj, ko skopira vse, kar ni ravno onemogočeno z datoteko robot.txt. Prav zaradi tega nacionalne knjižnice zaostajajo pri arhiviranju nacionalnih vsebin, saj si ne morejo privoščiti kršenja avtorske zakonodaje, ki ne gre v korak s časom. Že leta 2002 je zato Kahle predlagal konzorcij Internet Archivea in nacionalnih knjižnic, a pobuda ni bila uspešna, deloma tudi zato, ker je Evropa precej zadržana do pobud zasebnih podjetij iz Silikonske doline, katera bi se rada polastila evropske kulturne dediščine. Internet Archive se je tako že moral soočiti z nekaterimi sodbami na sodišču, a so se te večinoma končale sporazumno.

Arhiviranja digitalnih vsebin so se lotile tudi večje nacionalne institucije, na primer ameriška Kongresna knjižnica, Britanska knjižnica in tudi slovenska Narodna in univerzitetna knjižnica (NUK). Kongresna knjižnica temelji na prostovoljni predaji dokumentov, zato je njen obseg digitalnih vsebin precej omejen. Na drugi strani pa so Britanci leta 2013 sprejeli zakon, kjer se morajo prek Britanske knjižnice arhivirati tudi vse digitalne vsebine. V realnosti to deluje nekoliko bolj mehko, saj Britancem še ni treba pošiljati vsakega zapisa z zidu Facebooka v shranjevanje, temveč le pomembnejše publikacije. Pri nas se z arhiviranjem digitalnih vsebin ukvarja NUK, ki v spletnem arhivu (arhiv.nuk.uni-lj.si/) hrani zgodovinske posnetke nekaj sto spletišč, med njimi tudi revije, ki jo pravkar berete. Posnetek naredijo enkrat na mesec, arhiv pa je na voljo od leta 2012 naprej.

Število arhiviranih strani po desetletjih nastanka. Besedila pred letom 1923 so v javni domeni, kasnejša pa so lahko še avtorsko zaščitena.

Število arhiviranih strani po desetletjih nastanka. Besedila pred letom 1923 so v javni domeni, kasnejša pa so lahko še avtorsko zaščitena.

Ob vsej količini podatkov pa najbolj bode v oči slab iskalni vmesnik, ki ostaja na ravni interneta izpred dveh desetletij. Preiščete lahko le natančno tisto spletno stran, šele nato se vam odpre možnost iskanja po času. Tako ne morete iskati neposredno po iskalnem pojmu (na primer, da bi hoteli ugotoviti, kdaj sta Justin Bieber in Damijan Murko stopila pod soj spletnih žarometov). Prav tako strani niso rangirane (kot, recimo, pri Googlu), saj so orodja za ustrezno indeksiranje arhiva še precej razvojnih stopenj za orodji za živi splet. To so, recimo, občutili tudi britanski raziskovalci, ki so hoteli analizirati britanski spletni arhiv, da bi opazovali zgodovino Kraljevega nacionalnega inštituta za slepe. Na žalost so hitro obupali, saj je bilo ime ustanove omenjeno v reklamni pasici, ki je dodobra nasmetila arhiv. Šele čiščenje arhiva je omogočilo nekoliko lažje delo, a prava analitična orodja še niso tu. Morda je korak v pravo smer protokol Memento, ki svoja iskanja po času in spletu uporablja več različnih arhivov. Na voljo je kot dodatek k iskalniku Chrome ali pa kot samostojna stran Time Travel (timetravel.mementoweb.org). Še vedno pa ni mogoče iskanje po enemu pojmu, temveč moramo začeti z virom.

Internet Archive je še en kamenček v mozaiku univerzalnega spletnega znanja, ki nedvomno bogati človeštvo. Pri tem je zelo podoben običajnim knjižnicam, katerih veljave se namreč zavemo šele, ko določene knjige ne moremo najti nikjer drugje. Obenem pa upamo, da bo v prihodnje podatkovno rudarjenje omogočilo resnejšo analizo tako zbranih podatkov, saj naši možgani ne postajajo nič mlajši.

Naroči se na redna tedenska ali mesečna obvestila o novih prispevkih na naši spletni strani!

Komentarji

prus69 | 25.8.2015 | 10:24

Zanima me, zakaj že nekaj časa ne deluje opcija "Pošlji na svoj Kindle". Ko se prijavim se odpre okno v katerem piše "Waiting for content...". Je to samo moj problem? Hvala in lep pozdrav, Primož

Jure Forstnerič | 25.8.2015 | 11:02

Hvala, očitno res nekaj ne dela, bomo preverili!

Jure Forstnerič | 25.8.2015 | 13:36

Sedaj bi moralo delovati (nam deluje) :-)

prus69 | 25.8.2015 | 13:38

Res je. Hvala.

Komentirajo lahko le prijavljeni uporabniki

 
  • Polja označena z * je potrebno obvezno izpolniti
  • Pošlji