Objavljeno: 25.11.2005 20:56 | Avtor: Jernej Pečjak | Monitor Maj 2004

Elektronske pisarne

Pri pretvorbi papirnatih dokumentov v elektronska besedila (in ne zgolj v digitalno prebrane slike) v pisarnah lahko priskočijo na pomoč posebni programi za prebiranje besedil (OCR), ki iz slike s prepoznavanjem črk izluščijo besedilo. Celovito rešitev ponuja tudi OmniPage Pro 14 Office, ki je bogato opremljen z dodatnimi funkcijami.

Težava večine podjetij so dokumenti, ki so še vedno v papirnati obliki - z njimi je namreč veliko dela, predvsem s skladiščenjem in arhiviranjem, da o prednostih elektronskega izpolnjevanja obrazcev, predvsem pa možnosti dopolnjevanja starih dokumentov, niti ne govorimo. Pa tudi dostop do izvirne elektronske različice dokumenta je pogosto iz takega ali drugačnega razloga nemogoč. Zato se podjetja znajdejo pred težavo, kako prenesti dokumente nazaj v elektronsko obliko. Optično branje namreč tvori digitalno sliko, ne pa tudi besedila. Za to potrebujemo poseben program za prebiranje besedil, ki se mu z angleško kratico reče program OCR (optical character recognition). Kot nakazuje že različica, gre za program z dolgo tradicijo. Trinajstico so spustili, verjetno zaradi nesrečne številke. Ima pa zato štirinajstica kar precej novosti. Samo delo s programom poteka v več stopnjah - najprej izberemo delovno okolje, v katerem določimo delovni postopek. Če začnemo z datoteko in želimo izvoziti besedilo v Word, bo postopek nekoliko drugačen, kot če moramo predlogo oziroma dokument šele "skenirati" in želimo iz njega narediti digitalni dokument PDF.

Optično branje

Drug korak je vnos slike s pomočjo optičnega bralnika, datoteke na disku ali v strežniku ftp. Opozoriti velja, da OmniPage bere s pomočjo gonilnika, ki ga imate nameščenega za ta namen, zato nima lastnega modula za optično branje. Ima pa obsežno bazo, iz katere poišče prave nastavitve, delovanje gonilnika pa je mogoče tudi preizkusiti. Med zapisi slik najdemo tudi datoteke PDF, ki lahko rabijo tudi kot vnosna datoteka, iz katere zajemamo besedilo.

Naslednji korak je določanje delov slike, na katerih je besedilo. Pri revijah je to lahko v stolpcih, celo prelivajoče se okrog predmetov nepravilnih oblik. Označevanje delov besedila, slik, tabel, okvirov ipd. lahko poteka samodejno ali ročno. Natančnost samodejnega zaznavanja je neverjetno dobra, saj velikokrat sam zazna še tako raztreseno besedilo.

OmniPage Pro Office je program, ki v nekaj korakih pretvori papirnati dokument v želeno elektronsko obliko. Pri tem omogoča veliko možnosti za samodejno delovanje - v posebnih mapah odložene slike sam sproti pretvori v dokumente, posamezne dejavnike pa lahko določimo z ustrezno črtno kodo.

Prebiranje besedila

Sledi branje besedila (OCR), ko program iz slike izlušči besedilo. Zelo pomembno je seveda, da je besedilo dovolj kontrastno. Če je v slovenščini, ne smemo pozabiti nastaviti branja šumnikov. OmniPage Pro sicer pozna več kot 110 jezikov, za nekatere ima vgrajene tudi slovarje, ki pomagajo, če posamezne črke v besedi ni mogoče prepoznati. Med 19 slovarji k sreči najdemo tudi slovenskega. Sledi pregledovanje besedila in iskanje napak, neznane besede dodajamo v slovar, nepravilne pa popravljamo. Zaznava besedila je zelo natančna, saj v marsikaterem dokumentu že v prvem poskusu nismo našli napak. Nekaj več učenja je le pri eksotičnih pisavah, ki pa se v poslovne namene uporabljajo redkeje. Minili so časi, ko so programi za OCR izluščili le besede in stavke. OmniPage prebere tudi tabele, slike in druge predmete. Dokument lahko na katerikoli stopnji shranimo v lastni obliki in ga pozneje spet pregledujemo. V program je namreč vgrajen enostaven urejevalnik besedila, podoben WordPadu, s katerim lahko nekoliko preoblikujemo izluščeno besedilo.

Luščenje besedila

Zadnji korak je izvoz podatkov. Podprtih je veliko zapisov, med najpomembnejšimi velja omeniti PDF, Word, HTML, eBook, TXT in RTF. Nekateri od njih lahko ohranijo tudi obliko dokumenta, torej stolpce in tabele, kot so bili v prvotnem zapisu. Ker je elektronska sedanjost usmerjena v PDF, je temu posvečena tudi največja pozornost. PDFji lahko celo vsebujejo izvirno sliko, pod katero je izluščeno besedilo. Tako ima stranka pred seboj izvirnik, besedilo pa omogoča iskanje in preslikovanje v druge zapise. Izvoz je resnično ena najmočnejših strani programa in to dopolnjuje njegovo uporabnost.

Priloženi čarovniki omogočajo hitro izbiro postopka od začetka do konca.

Novosti

Novosti je tokrat kar precej. Avtorji so veliko pozornosti posvetili izboljšavi samega jedra za OCR, izboljšali so hitrost in zanesljivost prepoznave besedila v sliki. Zaznavo so še okrepili s prepoznavo oznak (bullets), posameznim znakom lahko sami določimo, kaj predstavljajo (Train Character), način prepoznave je lahko počasnejši in temeljitejši ali pa hitrejši in bolj površen. Izboljšana je zaznava besedila na temnejših površinah in slabih kontrastih. Povezljivost z zbirko Office je še dodatno izpopolnjena s podporo novemu Office 2003, v nekaterih programih, kot je Office, pa lahko tudi uporabimo poseben način dela, imenovan "direct OCR", kar pomeni luščenje besedila neposredno v programih.

Posebna pozornost je namenjena samodejnim opravilom. Program Batch Manager skrbi za tempirano izvajanje zadanih opravil. Poleg tega lahko določene mape na disku spremenimo v "pametne" (smart folders) - brž ko nekdo v to mapo shrani sliko, program sliko samodejno obdela in shrani izluščeno v želeni obliki. To pa še ni vse. Program prepoznava črtne kode, ki jih nalepimo na dokument pred branjem in z njimi določimo način obdelave dokumenta.

Datoteke PDF so po novem lahko podpisane in šifrirane, kar poveča zasebnost izdelanih dokumentov. Nov je tudi modul za izdelavo datotek PDF, ki ga lahko uporabimo iz vsakega programa, ki podpira tiskanje. Žal ima modul nekaj težav s šumniki in ne naredi v vseh primerih brezhibne datoteke PDF.

Posebno pozornost so avtorji namenili tudi jedru za izgovarjavo, ki pa ne pozna slovenščine, zato nam razen ob uporabi podprtih svetovnih jezikov ne bo koristila kaj dosti.

OmniPage Pro Office 14 se odlično obnese pri zamudnem in enoličnem delu prevajanja dokumentov v elektronsko obliko. Nove možnosti na področju avtomatizacije dela in natančnejše prepoznavanje besedila ter velike možnosti izvoza so ključni aduti tega programa. Čeprav ni namenjen malim uporabnikom, je cena precej visoka za to kategorijo programov.

Omnipage Pro 14 Office

Kaj: Program za pretvarjanje tiskanih dokumentov v elektronsko obliko.

Izdeluje: ScanSoft, www.scansoft.com.

Prodaja: Enajsta šola, (01) 426 94 28, info@enajsta-sola.si.

Cena: 193.107 tolarjev, nadgradnja 76.000 tolarjev.

Operacijski sistemi: Windows 98-XP.

Za: Možnost samodejnega izvajanja delovnega zaporedja, dobra prepoznava besedila, slovenski slovar, ima vse potrebno za prenos papirnatih dokumentov v elektronsko obliko.

Proti: Cena, modul za izdelavo datotek PDF iz kateregakoli programa ne deluje 100 % s šumniki, modul izgovarjave nima slovenščine.

Naroči se na redna tedenska ali mesečna obvestila o novih prispevkih na naši spletni strani!

Komentirajo lahko le prijavljeni uporabniki

Najbolj brano

  • Redka zmaga malega rudarja kriptovalut

    V času, ko rudarjenje bitcoina obvladujejo velika podjetja s specializirano opremo in ogromnimi viri, je neodvisnemu solo rudarju uspel izjemen podvig. 

    Objavljeno: 27.7.2025 13:00
  • Šibko geslo in hekerski vdor pogubila 158 let staro podjetje

    Britansko podjetje KNP iz Northamptonshira, ki se je ukvarjalo s prevozi, je po 158 letih obratovanja zaprlo vrata, zaradi česar je brez dela ostalo 700 ljudi. Razlog ni slabo poslovanje, težke tržne razmere, izgube ali celo poneverbe, temveč precej bolj banalen. Podjetje je opustošil hekerski napad, v katerem so napadalci odnesli podatke o vseh strankah.

    Objavljeno: 23.7.2025 05:00
  • ChatGPT je bogatejši za pravega raziskovalnega agenta

    ChatGPT agent je nova generacija digitalnega pomočnika, ki združuje sposobnosti vizualnega in tekstovnega brskanja ter neposredne interakcije z zunanjimi platformami, kot so Google Drive, GitHub in SharePoint.

    Objavljeno: 18.7.2025 08:00
  • Tehnologija je orodje za množično nadzorovanje

    Ko je minuli teden kamera na koncertu skupine Coldplay v Bostonu prikazala par, ki objet posluša Chrisa Martina, bi bil lahko to le še eden izmed množice povsem običajnih in dolgočasni prizor. A ker se je ženska na posnetku obrnila proč in obraz zakopal v roke, moški pa se je sklonil pod kader, je posnetek vzbudil veliko pozornosti. Pevec Chris Martin ga je na odru komentiral z besedami, da sta bodisi zelo sramežljiva bodisi razmerje skrivata – in ostalo je bilo zgodovina.

    Objavljeno: 21.7.2025 05:00
  • ChatGPT je slab v šahu

    Najboljši šahist sveta Magnus Carlsen je v spletnem dvoboju premagal umetno inteligenco ChatGPT v vsega 53-ih potezah, pri čemer sam ni izgubil niti ene same figure. 

    Objavljeno: 21.7.2025 09:00
  • ChatGPT-5 bo na voljo avgusta

    Sam Altman, izvršni direktor OpenAI, je potrdil, da bo model GPT-5 izšel že v začetku avgusta. 

    Objavljeno: 25.7.2025 09:00
 
  • Polja označena z * je potrebno obvezno izpolniti
  • Pošlji