Objavljeno: 3.1.2008 15:56 | Avtor: Igor Žbül | Monitor December 2007

Digitalni Cankar

Kljub vse večji količini informacij, ki so na voljo v digitalni obliki, še vedno ostaja silno veliko literarnih, znanstvenih in drugih del, ki so na voljo le v tiskani obliki. Že pred desetletji so zato nastali prvi projekti, ki so želeli to velikansko količino človeškega znanja pretočiti tudi v digitalno obliko in ga tako ohraniti za prihodnje rodove, hkrati pa ga narediti bolj dostopnega vsem ljudem.

Večina današnjih podatkov, znanja in literarnih del je že od nastanku v digitalni obliki, vendar to ne velja vedno. Tiskani mediji (knjige, časopisi ipd.), ki so nastali pred revolucijo osebnih računalnikov, pa morajo biti v digitalno obliko pretvorjeni. Včasih so to počeli ročno, s skrbnim pretipkavanjem vsebine, danes pa to že poteka v avtomatiziranih "tovarnah".

Prvi poskus digitalizacije leposlovnih vsebin

Prvi projekt digitalizacije literarnih del je dobro znani Projekt Gutenberg (www.gutenberg.org), ki ga je že davnega leta 1971 začel študent Univerze v Illinoisu, Michael Hart. Danes naj bi v svoji knjižnici ponujal že več kot 22.000 del. Do leta 1989 so jih prostovoljci ročno pretipkavali, kasneje pa jim je razvoj skenerjev in optičnega prepoznavanja (OCR) delo precej olajšal. Gre seveda za dela, ki so že v javni lasti in jih tako nima nihče pravice tržiti. Hartova motivacija je bila omogočiti čim več ljudem čim cenejši dostop do svetovnih klasikov. Večina knjig v zbirki je seveda v angleščini, vendar se vsak teden poveča tudi število razpoložljivih knjig v drugih jezikih. Hart pravi, da prostovoljci Projekta Gutenberg s svojim delom širijo pismenost in spoštovanje do literarne dediščine podobno, kot so to počele prve javne knjižnice v 19. stoletju.

Vključitev Googla v digitalizacijo knjig je panogi dalo nov zagon.

Razlogi za digitalizacijo

To pa je le eden izmed razlogov, ki ga navajajo zagovorniki digitalizacije svetovne tiskane dediščine. Najprej je tu želja po ohranitvi del, saj ta v fizični obliki nezadržno propadajo. Naravni procesi so neusmiljeni in nekatere izmed starejših del že pošteno ogrožajo. Digitalizacija njihovi vsebini drastično podaljša življenjsko dobo in omogoči praktično neomejen dostop do nje, kar je bilo v preteklosti precej problematično, saj je vsak dostop do dela skrajšal njegovo življenjsko dobo. Hkrati pa s tem zaščitimo tudi fizično obliko, saj po digitalizaciji ni več tolikšne potrebe po njeni uporabi. Po tej poti bo uporabnikom dostopno zelo veliko starih knjig, ki niso več na voljo, založniki pa menijo, da njihov ponatis ne bi bil dobičkonosen.

Naslednji razlog je najpomembnejši za uporabnike - večja dostopnost vsebine. Delo je namreč dostopno ne glede na to, kje ste - za to poskrbi dostop do interneta. Dostopno je ne glede na čas - pri internetnih knjižnicah vam ni treba skrbeti za uradne ure. Dostopno je več ljudem hkrati - torej nič več čakalnih vrst za najbolj priljubljene knjige. Za uporabnike je pomembna še ena od prirojenih lastnosti digitalnih knjižnic - zmožnost iskati po celotnem besedilu vseh del v njej.

Zbirka Franka Luina je tudi Slovencem po svetu omogočila branje slovenskih klasikov.

Precej prednosti je v digitaliziranih delih tudi za vzdrževalce zbirk oziroma knjižnic. Zmanjša se prostor, ki je potreben za hranjenje, veliko večja je možnost sodelovanja z drugimi podobnimi ustanovami - deljenje digitalnih virov je praktično nevidno očem uporabnikov. Zelo pomemben motiv ustanov za digitalizacijo pa je seveda tudi zmanjšanje stroškov. Digitalne knjižnice namreč ne potrebujejo toliko osebja za vzdrževanje, ne potrebujejo veliko za vzdrževanje del in ne potrebujejo več izvodov enega dela. Vendar je začetni strošek velik - tako velik, da se ga javne ustanove težko lotijo same.

Dobičkonosnost digitalizacije

Leta 2004 se je internetni velikan Google odločil, da ni dovolj samo, da omogoči iskanje po svetovnem spletu, temveč se je lotil veliko obsežnejšega opravila - iskati naj bi bilo mogoče tudi po gromozanski količini podatkov, ki so ljudem na voljo v svetovnih knjižnicah. Google je sklenil dogovor z več knjižnicami, ki jim tako pomaga pri digitalizaciji del v njihovi posesti, uvrščanje knjig v njegov iskalni indeks pa omogoča tudi založnikom.

Storitev Google Book Search (books.google.com) tako omogoča iskanje po celotnem besedilu že digitaliziranih knjig. Če so v javni lasti, si jih tudi lahko prenesete v računalnik. Omogoča pa tudi prodajo knjig, ki še niso v javni lasti. Ko namreč najdete katero izmed teh knjig, vam Google Book Search seveda ponudi možnost, da jo kupite. Ni torej presenetljivo, da so se Googlu pri tako "družbeno koristnem" delu, kot je digitalizacija knjižničnega gradiva, kmalu pridružili konkurenti - med drugimi že lani Microsoft, letos pa še Amazon. Tako je na voljo že tudi precej slovenskih del.

A Googlovo na videz nesebično početje je že takoj na začetku izzvalo množice kritikov.

Digitalna knjižnica Slovenije namerava postati zakladnica slovenske literarne dediščine.

Težave digitalizacije

Medtem ko knjižnice pozdravljajo pomoč Googla, Microsofta in drugih pri digitalizaciji svetovne tiskane dediščine, pa jih založniki in avtorji obtožujejo množičnega kršenja avtorskih pravic. Razpolaganje z digitalnimi različicami tiskanih del njihovo vsebino izpostavi nepooblaščenemu kopiranju, to pa, podobno kot v glasbeni in filmski industriji, seveda ni všeč založnikom. Naslednja težava je tudi neprimerljivost zakonov o avtorski zaščiti po svetu. Trajanje slednje namreč po različnih državah ni usklajeno, tako da je lahko neka knjiga v eni državi v javni lasti, v drugi pa še vedno pod avtorsko zaščito.

Druga težava digitalizacije je kakovost reproduciranega dela. Množična digitalizacija tiskanih del je pretvorba na industrijski ravni, njen cilj je digitalizirati vse knjige, kar jih je. Za to, da bi to lahko opravili ekonomično in hitro, je človeški vpliv zmanjšan na minimum. Knjige digitalizirajo roboti z uporabo tehnologije OCR. To velikokrat pomeni, da nastanejo napake v procesu skeniranja - strani so preskočene, besedilo ni dovolj čitljivo ipd. V Googlu pravijo, da digitalizirajo okrog 3000 knjig na dan, torej več kot milijon na leto. Digitaliziranje knjig bi opravili bolje ljudje, vendar po besedah Johna Pricea Wilkinsa z Univerze v Michiganu njihovi operaterji povprečno digitalizirajo okrog 50 knjig na dan. 20 operaterjev, ki bi delali vsak dan v letu, bi tako za 7 milijonov knjig v knjižnici univerze potrebovalo kar 19 let.

Včasih je bilo optično branje knjig precej počasnejše opravilo kot danes.

Tehnologija digitalizacije

Digitalizacija se je, kot rečeno, nekoč izvajala z ročnim pretipkavanjem besedil, vendar danes to ni več smiselno. Tako se knjige danes digitalizirajo z uporabo skenerjev in tehnologije optičnega prepoznavanja znakov (Optical Character Recognition, OCR). Medtem ko je bilo včasih treba programe OCR "uriti", da so pravilno prepoznali znake, danes to z inteligentnimi algoritmi ni več potrebno. Prepoznavanje tiskanega besedila v latinični pisavi današnji programi OCR izvajajo z več kot 99-odstotno natančnostjo.

Proces skeniranja knjig so olajšali tudi roboti za skeniranje. Medtem ko je bilo skeniranje knjige ali časopisa prej počasen postopek, pri katerem je bilo treba ročno obrniti vsako stran, jo poravnati in šele nato skenirati, zdaj to robotski skenerji počnejo z bliskovito hitrostjo tisoč ali več strani na uro.

Digitalizirane knjige so shranjene v datoteke različnih formatov, najbolj znan med njimi je PDF (Portable Document Format). Adobov PDF omogoča, da je dokument videti enako na kateremkoli računalniku, kjer je prikazan. Datoteka PDF zato zajema navodila za postavitev dokumenta v programskem jeziku postscript in pisave, ki so v njem uporabljene. Format PDF omogoča tudi boljši nadzor nad tem, kako lahko uporabniki uporabljajo vsebino datoteke. Lastniki vsebine lahko omejijo zmožnost njenega urejanja, kopiranja in tiskanja.

Robot za branje knjig je veliko pripomogel k hitrejši digitalizaciji knjig.

In slovenske izkušnje ...

Začetnika digitalizacije slovenske literature sta bila dr. Miran Hladnik, slavist s Filozofske fakultete v Ljubljani, in Franko Luin, na Švedskem živeči Slovenec. Slednji je do svoje smrti leta 2005 urejal spletno stran Beseda (www.omnibus.se/beseda) na kateri je zbral skoraj 300 slovenskih literarnih del. Luinova zbirka je shranjena v datotekah PDF, ki jih je mogoče le brati, ne pa tudi natisniti ali kopirati. Hladnikova Zbirka slovenskih leposlovnih besedil (www.ijs.si/lit/leposl.html-l2) pa nastaja od srede prejšnjega desetletja in je hranjena v obliki HTML. Obe zbirki vsebujeta predvsem starejša besedila, saj mora po slovenskih zakonih preteči 70 let od smrti avtorja, da se delo sme digitalizirati.

Več kot desetletje se z digitalizacijo slovenske literarne dediščine ukvarjajo tudi v Narodni in univerzitetni knjižnici - začeli so že sredi devetdesetih let z digitalizacijo Kopitarjeve zbirke slovanskih srednjeveških kodeksov. NUK v sodelovanju z domačimi tehnološkimi podjetji od konca leta 2005 vodi tudi Digitalno knjižnico Slovenije (www.dlib.si), ki omogoča brezplačen dostop do digitaliziranega gradiva NUK.

Množična digitalizacija knjig s pomočjo robotov žal ne zagotavlja 100-odstotnega uspeha.

Digitalna knjižnica Slovenije obsega več kot 87.000 bibliografskih enot (časopisov, knjig, fotografij, zemljevidov ...) - med njimi 153 leposlovnih knjig (tudi nekatera dela Ivana Cankarja, Dragotina Ketteja, Josipa Stritarja in Janka Kersnika), več deset tisoč člankov časopisov Dom in svet (1888-1944), Ljubljanski zvon (1881-1941), Nova muzika (1928-1929), Novi akordi (1901-1914), Sodobnost (1963-2006) ter Kmetijske in rokodelske novice (1843-1902). Iskanje po vseh člankih drugega najstarejšega časnika v slovenskem jeziku, Bleiweisovih Kmetijskih in rokodelskih novic, je možno, kljub temu da so prvi letniki pisani v bohoričici! V pripravi pa je med drugim še okrog 250 knjig, dober milijon starejših člankov dnevnih časopisov in še več. Digitalna knjižnica ima cilj postati spletne dveri za dostop do "digitaliziranega znanja in kulturnih zakladov" Slovenije.

Prav zdaj pripravljajo nacionalni program digitalizacije, ki naj bi opredelil kriterije in prednostne naloge ter zajel celotno slovensko kulturno in znanstveno dediščino. Digitalizacija naj bi po besedah mag. Zorana Krstulovića, pomočnika ravnatelja NUK, zajela predvsem slovensko književnost, znanstveno, literarno, kulturnozgodovinsko in podobno drugo časopisje od začetkov do danes, zgodovinsko dnevno časopisje (npr. Slovenski narod, Slovenec itd.) ...

Podobni razlogi, kot so bili zapisani na začetku tega članka, so po besedah mag. Krstulovića vodili tudi NUK - digitalna oblika gradiva omogoča boljše možnosti iskanja (npr. po celotnem besedilu), dostop do gradiva v domačem računalniku (fizični obisk knjižnice torej ni več potreben), avtomatsko bibliografsko obdelavo gradiva, ki ga zaradi velikih količin doslej ni bilo mogoče obdelati ...

Kopitarjeva zbirka slovanskih srednjeveških kodeksov je bila prvo besedilo, ki ga je digitaliziral NUK.

V NUK (oziroma to počnejo zanje zunanji izvajalci, izbrani na javnem razpisu) ponavadi besedila optično berejo (skenirajo) v ločljivosti 300 dpi v formatu JPG, za zelo pomembna gradiva pa naredijo tudi datoteke tiff v ločljivosti 600 dpi. Gradivo obdelajo ob pomoči optičnega prepoznavanja znakov, s čimer zagotovijo možnost iskanja po celotnem besedilu. V spletu pa je gradivo na voljo v datotekah PDF. Trenutno razvijajo tudi novo različico spletne strani, ki bo uporabljala rešitve tehnologij Web 2.0.

NUK pri digitalizaciji sodeluje z različnimi slovenskimi ustanovami - skupaj z Agencijo za raziskovalno dejavnost na primer omogoča dostop do slovenske znanstvene periodike v elektronski obliki. S tremi splošnimi knjižnicami (ptujsko Knjižnico Ivana Potrča, ljubljansko Knjižnico Otona Župančiča ter škofjeloško Knjižnica Ivana Tavčarja) pa se dogovarjajo o objavi njihovih digitalnih zbirk na dverih Digitalne knjižnice Slovenije. Mednarodno so soustanovitelji Evropske digitalne knjižnice (www.edlproject.eu), sodelujejo pa tudi pri razvoju dveri evropskih nacionalnih knjižnic The European Library (www.theeuropeanlibrary.org). Slednja ponuja dostop do zbirk 47 evropskih nacionalnih knjižnic - delno tudi v digitalni obliki. V njej so dostopne tudi nekatere digitalne zbirke NUK.

Digitalna knjižnica se večinoma financira iz javnih sredstev. Osnovno financiranje zagotavlja ministrstvo za kulturo v okviru letnega programa dela NUK ter prek javnih razpisov za projekte digitalizacije, ki so namenjeni splošnim knjižnicam. Nekaj sredstev je digitalna knjižnica leta 2006 prejela tudi od ministrstva za visoko šolstvo, znanost in tehnologijo. Pomemben vir financiranja razvoja te knjižnice pa so tudi sredstva, pridobljena na mednarodnih projektnih razpisih. Letos so na primer od norveškega finančnega mehanizma prejeli kar 850.000 evrov. Digitalno knjižnico je med drugim financiral tudi Sorosov Inštitut za odprto družbo.

Je prihodnost knjig digitalna?

Vsekakor. Razveseljivo je, da tu ne zaostajamo za Zahodom in da se tudi pri nas stvari razvijajo v pravo smer - v Digitalni knjižnici Slovenije imamo dobro osnovo za prihodnost, upati je samo, da ne bo zmanjkalo denarja, preden izpolni svojo nalogo. Še posebej vzbuja optimizem digitalizacija starih časopisov, ki so tako hkrati ohranjeni za prihodnje rodove in prvič po desetletjih in več na razpolago širši javnosti. Za to, da bodo elektronske knjige začeli uporabljati tudi navadni uporabniki, pa bo seveda treba še nekaj več - poceni in praktičen prenosni bralnik elektronskih knjig. Glede na to, da je za uspeh slednjega nujna velika izbira vsebine, lahko z velikim optimizmom na premike v digitalizaciji knjig zadnjih let gledajo tudi razvijalci teh napravic.

Narodna in univerzitetna knjižnica je zakladnica slovenske literature, ki jo bo z digitalizacijo ohranila tudi za prihodnje rodove.

Naroči se na redna tedenska ali mesečna obvestila o novih prispevkih na naši spletni strani!

Komentirajo lahko le prijavljeni uporabniki

 
  • Polja označena z * je potrebno obvezno izpolniti
  • Pošlji