Objavljeno: 25.11.2005 20:56 | Avtor: Jernej Pečjak | Monitor Maj 2004

Elektronske pisarne

Pri pretvorbi papirnatih dokumentov v elektronska besedila (in ne zgolj v digitalno prebrane slike) v pisarnah lahko priskočijo na pomoč posebni programi za prebiranje besedil (OCR), ki iz slike s prepoznavanjem črk izluščijo besedilo. Celovito rešitev ponuja tudi OmniPage Pro 14 Office, ki je bogato opremljen z dodatnimi funkcijami.

Težava večine podjetij so dokumenti, ki so še vedno v papirnati obliki - z njimi je namreč veliko dela, predvsem s skladiščenjem in arhiviranjem, da o prednostih elektronskega izpolnjevanja obrazcev, predvsem pa možnosti dopolnjevanja starih dokumentov, niti ne govorimo. Pa tudi dostop do izvirne elektronske različice dokumenta je pogosto iz takega ali drugačnega razloga nemogoč. Zato se podjetja znajdejo pred težavo, kako prenesti dokumente nazaj v elektronsko obliko. Optično branje namreč tvori digitalno sliko, ne pa tudi besedila. Za to potrebujemo poseben program za prebiranje besedil, ki se mu z angleško kratico reče program OCR (optical character recognition). Kot nakazuje že različica, gre za program z dolgo tradicijo. Trinajstico so spustili, verjetno zaradi nesrečne številke. Ima pa zato štirinajstica kar precej novosti. Samo delo s programom poteka v več stopnjah - najprej izberemo delovno okolje, v katerem določimo delovni postopek. Če začnemo z datoteko in želimo izvoziti besedilo v Word, bo postopek nekoliko drugačen, kot če moramo predlogo oziroma dokument šele "skenirati" in želimo iz njega narediti digitalni dokument PDF.

Optično branje

Drug korak je vnos slike s pomočjo optičnega bralnika, datoteke na disku ali v strežniku ftp. Opozoriti velja, da OmniPage bere s pomočjo gonilnika, ki ga imate nameščenega za ta namen, zato nima lastnega modula za optično branje. Ima pa obsežno bazo, iz katere poišče prave nastavitve, delovanje gonilnika pa je mogoče tudi preizkusiti. Med zapisi slik najdemo tudi datoteke PDF, ki lahko rabijo tudi kot vnosna datoteka, iz katere zajemamo besedilo.

Naslednji korak je določanje delov slike, na katerih je besedilo. Pri revijah je to lahko v stolpcih, celo prelivajoče se okrog predmetov nepravilnih oblik. Označevanje delov besedila, slik, tabel, okvirov ipd. lahko poteka samodejno ali ročno. Natančnost samodejnega zaznavanja je neverjetno dobra, saj velikokrat sam zazna še tako raztreseno besedilo.

OmniPage Pro Office je program, ki v nekaj korakih pretvori papirnati dokument v želeno elektronsko obliko. Pri tem omogoča veliko možnosti za samodejno delovanje - v posebnih mapah odložene slike sam sproti pretvori v dokumente, posamezne dejavnike pa lahko določimo z ustrezno črtno kodo.

Prebiranje besedila

Sledi branje besedila (OCR), ko program iz slike izlušči besedilo. Zelo pomembno je seveda, da je besedilo dovolj kontrastno. Če je v slovenščini, ne smemo pozabiti nastaviti branja šumnikov. OmniPage Pro sicer pozna več kot 110 jezikov, za nekatere ima vgrajene tudi slovarje, ki pomagajo, če posamezne črke v besedi ni mogoče prepoznati. Med 19 slovarji k sreči najdemo tudi slovenskega. Sledi pregledovanje besedila in iskanje napak, neznane besede dodajamo v slovar, nepravilne pa popravljamo. Zaznava besedila je zelo natančna, saj v marsikaterem dokumentu že v prvem poskusu nismo našli napak. Nekaj več učenja je le pri eksotičnih pisavah, ki pa se v poslovne namene uporabljajo redkeje. Minili so časi, ko so programi za OCR izluščili le besede in stavke. OmniPage prebere tudi tabele, slike in druge predmete. Dokument lahko na katerikoli stopnji shranimo v lastni obliki in ga pozneje spet pregledujemo. V program je namreč vgrajen enostaven urejevalnik besedila, podoben WordPadu, s katerim lahko nekoliko preoblikujemo izluščeno besedilo.

Luščenje besedila

Zadnji korak je izvoz podatkov. Podprtih je veliko zapisov, med najpomembnejšimi velja omeniti PDF, Word, HTML, eBook, TXT in RTF. Nekateri od njih lahko ohranijo tudi obliko dokumenta, torej stolpce in tabele, kot so bili v prvotnem zapisu. Ker je elektronska sedanjost usmerjena v PDF, je temu posvečena tudi največja pozornost. PDFji lahko celo vsebujejo izvirno sliko, pod katero je izluščeno besedilo. Tako ima stranka pred seboj izvirnik, besedilo pa omogoča iskanje in preslikovanje v druge zapise. Izvoz je resnično ena najmočnejših strani programa in to dopolnjuje njegovo uporabnost.

Priloženi čarovniki omogočajo hitro izbiro postopka od začetka do konca.

Novosti

Novosti je tokrat kar precej. Avtorji so veliko pozornosti posvetili izboljšavi samega jedra za OCR, izboljšali so hitrost in zanesljivost prepoznave besedila v sliki. Zaznavo so še okrepili s prepoznavo oznak (bullets), posameznim znakom lahko sami določimo, kaj predstavljajo (Train Character), način prepoznave je lahko počasnejši in temeljitejši ali pa hitrejši in bolj površen. Izboljšana je zaznava besedila na temnejših površinah in slabih kontrastih. Povezljivost z zbirko Office je še dodatno izpopolnjena s podporo novemu Office 2003, v nekaterih programih, kot je Office, pa lahko tudi uporabimo poseben način dela, imenovan "direct OCR", kar pomeni luščenje besedila neposredno v programih.

Posebna pozornost je namenjena samodejnim opravilom. Program Batch Manager skrbi za tempirano izvajanje zadanih opravil. Poleg tega lahko določene mape na disku spremenimo v "pametne" (smart folders) - brž ko nekdo v to mapo shrani sliko, program sliko samodejno obdela in shrani izluščeno v želeni obliki. To pa še ni vse. Program prepoznava črtne kode, ki jih nalepimo na dokument pred branjem in z njimi določimo način obdelave dokumenta.

Datoteke PDF so po novem lahko podpisane in šifrirane, kar poveča zasebnost izdelanih dokumentov. Nov je tudi modul za izdelavo datotek PDF, ki ga lahko uporabimo iz vsakega programa, ki podpira tiskanje. Žal ima modul nekaj težav s šumniki in ne naredi v vseh primerih brezhibne datoteke PDF.

Posebno pozornost so avtorji namenili tudi jedru za izgovarjavo, ki pa ne pozna slovenščine, zato nam razen ob uporabi podprtih svetovnih jezikov ne bo koristila kaj dosti.

OmniPage Pro Office 14 se odlično obnese pri zamudnem in enoličnem delu prevajanja dokumentov v elektronsko obliko. Nove možnosti na področju avtomatizacije dela in natančnejše prepoznavanje besedila ter velike možnosti izvoza so ključni aduti tega programa. Čeprav ni namenjen malim uporabnikom, je cena precej visoka za to kategorijo programov.

Omnipage Pro 14 Office

Kaj: Program za pretvarjanje tiskanih dokumentov v elektronsko obliko.

Izdeluje: ScanSoft, www.scansoft.com.

Prodaja: Enajsta šola, (01) 426 94 28, info@enajsta-sola.si.

Cena: 193.107 tolarjev, nadgradnja 76.000 tolarjev.

Operacijski sistemi: Windows 98-XP.

Za: Možnost samodejnega izvajanja delovnega zaporedja, dobra prepoznava besedila, slovenski slovar, ima vse potrebno za prenos papirnatih dokumentov v elektronsko obliko.

Proti: Cena, modul za izdelavo datotek PDF iz kateregakoli programa ne deluje 100 % s šumniki, modul izgovarjave nima slovenščine.

Naroči se na redna tedenska ali mesečna obvestila o novih prispevkih na naši spletni strani!

Komentirajo lahko le prijavljeni uporabniki

 
  • Polja označena z * je potrebno obvezno izpolniti
  • Pošlji