Iz PDF nazaj v besedilo

Objavljeno: 30.11.2006 14:33 | Avtor: Gorazd Ropoša | Kategorija: Preizkusi | Revija: November 2006

Sodobne pisarne si ne predstavljamo več brez računalnika, zelo podobno velja tudi za domače okolje. Z uporabo tega nepogrešljivega pripomočka vstopamo v digitalni svet, v katerem informacije krožijo v digitalni obliki. Različni dopisi, navodila, tehnična dokumentacija in podobni dokumenti se pošiljajo naokrog v najrazličnejših formatih. Eden izmed najbolj priljubljenih je zagotovo PDF (Portable Document Format).

Priljubljenost PDF je posledica tega, da je neodvisen od računalnika, njegove strojne opreme in operacijskega sistema, zato ga lahko beremo kjerkoli. Potrebujemo le ustrezen bralnik. Zaradi njegove zgradbe, poleg besedila namreč lahko vsebuje tudi pisave (fonte), slike in grafiko, bo videz takega dokumenta ne glede na strojno in programsko osnovo vedno enak.

Uporabniški vmesnik je preprost in logičen.

Kljub vsem dobrim lastnostim, ki jih PDF nesporno ima, se včasih zgodi, da želimo besedilo, ki ga v taki obliki prejmemo, uporabiti drugje ali ga preprosto urediti. Bralniki tega seveda ne znajo, zato moramo v ta namen uporabiti posebna orodja. Njihova poglavitna naloga je pravilno prepoznavanje posameznih gradnikov formata PDF, torej besedila, slik in pisave. Končni rezultat morajo nato prikazati v izbrani izvozni obliki, in to kar najbolj natančno.

Eden izmed takih programov je ABBYY PDF Transformer 2.0. Za njegov preizkus smo uporabili dvanajst strani dolgo datoteko PDF v slovenščini, sestavljeno iz besedila različnih velikosti, barv, vrst pisav in z vključenimi slikami. Datoteko smo nato pretvorili v dokument vrste DOC in ga primerjali z izvirnikom.

Program je namenjen predvsem pretvorbi dokumentov PDF v DOC, RTF, XLS, HTML, TXT, vendar ima poseben del tudi za izdelavo PDF. Uporabljati ga je dokaj preprosto in se ga uporabnik hitro navadi. Izdelava dokumenta PDF nam ne bo vzela dosti časa, saj moramo opraviti samo nekaj preprostih nastavitev, med drugim tudi določanje velikosti in s tem kakovosti končnega izdelka, ter varnostnih omejitev za dostop in urejanje. Drugo opravi program sam in to dobro.

Izvirni dokument...

Postopek v nasprotni smeri je nekoliko daljši. Kljub preprostosti namreč ponuja kar nekaj nastavitev, s katerimi lahko bolj vplivamo na končni izdelek. Poleg osnovnih, kot so izbor mesta in imena končne datoteke, lahko izberemo, ali bomo pretvorili celoten dokument ali samo nekaj izbranih strani. Možnost je uporabna, saj ne potrebujemo vedno vsebine celotnega dokumenta, temveč le njegov del. Prepoznavanje posameznih gradnikov dokumenta je avtomatsko. Vsak tip gradnika tako dobi okvir v svoji barvi in zaporedno številko; to olajša preglednost. Pred dokončno pretvorbo je namreč smiselno pregledati, kako je avtomatika opravila prepoznavanje, ker to vpliva na končni rezultat. Če kak del ni bil pravilno in predvsem dovolj natančno prepoznan, lahko to ročno popravimo.

...in dokument po pretvorbi.

Trajanje pretvorbe je odvisno predvsem od količine besedila, zgradbe in natančnosti prepoznave. ABBYY svoje delo opravi solidno hitro. Po primerjavi končnega izdelka z izvirnikom se izkaže, da nekoliko šepa delo s slikami, sploh če je tudi na njih besedilo. Program jih namreč prepozna ločeno, torej kot sliko in besedilo, in jih tudi prikaže kot taka. V takem primeru večinoma ostanemo brez dela slike. Z ročnim popravljanjem oznak se temu lahko izognemo. Bistvenega pomena pri označevanju besedila je natančnost, saj moramo okviriti dovolj velik del gradnika in še nekaj praznega prostora zraven. Le tako označeni gradnik program pravilno prikaže v končnem dokumentu. Prepoznavanje besedila opravi zadovoljivo dobro, saj pravilno prepozna tudi šumnike in jih pravilno prikaže. Nekaj težav nastane pri naslovih in velikih začetnicah, sploh če so drugačne vrste kakor drugo besedilo. Po pretvorbi so na takem mestu ponavadi naključni znaki, to pa je neuporabno. Avtomatsko prepoznavanje ima težave tudi z besedilom, ki obliva sliko. Zgodi se tudi, da kak del besedila v "kopiji" preprosto izgine. Omenjeni napaki lahko odpravimo z ročnim označevanjem in predvsem dovolj natančnosti. Moti ga tudi deljenje besed. Če je beseda v izvirniku deljena, ostane taka tudi po pretvorbi, čeprav ne bi bilo treba. Besedo namreč prikaže v isti vrstici, vendar med deloma besede ponavadi ostane vezaj.

Pretvorba žal ni popolna.

Podobno kot ABBYY zna pretvorbo v DOC opraviti tudi "izvirnik" - Adobe Acrobat Professional 7.0, ki smo ga v Monitorju že preizkusili. Primerjava nastalih dokumentov iz obeh programov pokaže, da Transformer opravi svoje delo bolje. Izdelek je namreč precej bolj podoben izvirniku, čeprav še zdaleč ni popolnoma enak. Vsekakor pa od uporabnika zahteva manj urejanja in primerjanja kot Adobe. Ima več možnosti vplivanja na končni rezultat, omogoča ročno prepoznavanje in popravljanje oznak gradnikov in vse to lahko pred pretvorbo tudi vidimo. Uporaben je predvsem, kadar se želimo izogniti nepotrebnemu tipkanju in nameravamo besedilo uporabiti v kakem drugem dokumentu. Nekoliko manj primeren pa je za urejanje in popravljanje že izdelanih dokumentov PDF, saj bo urejanja, popravljanja in primerjanja z izvirnikom preveč.

ABBYY PDF Transformer 2.0

Kaj: Program za izdelavo PDF in pretvorbo v druge formate.

Izdeluje: ABBYY Software House, www.abbyy.com.

Cena: 69 evrov, nadgradnja 49 evrov.

Za: Preprost in uporaben, možnost vplivanja na prepoznavanje gradnikov, zna tudi izdelati PDF.

Proti: "Kopija" ni enaka izvirniku, težave pri prepoznavanju posameznih gradnikov izvirnika.

Naroči se na redna tedenska ali mesečna obvestila o novih prispevkih na naši spletni strani!
Prijava

ph

Komentirajo lahko le prijavljeni uporabniki