Objavljeno: 27.5.2014 | Avtor: Matjaž Klančar | Monitor Junij 2014

Ko računalniki berejo

V resnici še ni tako dolgo, kar je bilo »računalniško branje« oz. prepoznavanje besedila iz bitnih slik oz. fotografij za računalnik podobno težko opravilo, kot je (še) danes prepoznava govora. Danes znajo besedilo brati celo telefoni.

»  Kaj smo ugotovili?

Branje besedil s programi OCR je danes dovolj dobro rešeno, da tudi šumniki ne povzročajo težav. Še več, programi se znajdejo tudi pri ohranjanju oblikovanja strani, kar pride velikokrat zelo prav.

Verjetno ste v spletu že zasledili, da Američani že kar nekaj časa zelo uspešno uporabljajo programe za narekovanje besedila, saj so programski paketi, ko je npr. Dragon NaturallySpeaking, v tej smeri že pred časom dovolj napredovali. Zdaj, ko so tudi računalniki dovolj hitri, je mogoče narekovati že kar v običajni hitrosti, brez nekoliko daljših presledkov med besedami in stavki, kot je bilo nujno še nedavno. In vendar podobnih programov za slovenščino (in še marsikateri svetovni jezik) še ni in jih najverjetneje še dolgo ne bo. Zaradi majhnosti trga, ki bi ga uporabljalo, in še posebej zaradi posebnosti in zapletenosti  našega jezika.

Že hiter pogled na Googlovo tržnico Play pokaže, da je programov, ki »znajo« OCR, res veliko.

Že hiter pogled na Googlovo tržnico Play pokaže, da je programov, ki »znajo« OCR, res veliko.

Zelo podobno je bilo stanje na trgu optičnega branja besedil pred, recimo, petnajstimi leti. Sistemi OCR, ki so bitne slike oz. fotografije spremenili v besedilo, ki ga je bilo mogoče računalniško urejati, so bili na voljo, a so res dobro delovali le v angleščini in nekaterih drugih večjih svetovnih jezikih. Razlog je bil podoben, kot je danes pri prepoznavanju govora – majhnost trga in naše posebnosti. K sreči so »naše posebnosti« tokrat manjše in se oklestijo na tri posebne črke, Č, Š in Ž. In ker ima nekaj takih posebnih črk še kar nekaj drugih narodov, so se sčasoma našla podjetja, ki so prepoznala tržno nišo in razvila izdelke za OCR, ki se odlično prodajajo (tudi) v vzhodni Evropi. Ne preseneča, da so tudi avtorji teh programov Vzhodnoevropejci, od Madžarov do Ukrajincev. Včasih smo zato vsi uporabljali zgolj in samo madžarski program Recognita, danes se navdušujemo nad ukrajinskim Abbyjem. Predvsem zato, ker si že sicer odlične rezultate branja še dodatno izboljša tudi z besedilnimi slovarji, ki so na voljo tudi za slovenščino. Pomoč slovarjev »matematiki« je namreč tisto, kar je v zadnjih letih programe OCR tako izpililo, da znajo običajno tiskano besedilo prebrati 100 %, brez napak. Napake se v resnici najdejo le pri slabših predlogah, kot so faksi in/ali s starejšimi pisalnimi stroji tipkana besedila. Da, tudi taki nam še vedno tu in tam pridejo pod roke.

Napredek OCR je danes v resnici tako očiten, da sistem obvladajo tudi že mobilne aplikacije, to pa naše mobilne telefone prelevi v že skorajda popolne optične bralnike. Naj omenimo samo Googlovo aplikacijo Goggles in celo Google Translate, ki obvladata (tudi) OCR, še več pa dobimo z (tudi zastonjskimi) aplikacijami, ki besedilo preberejo, spremenijo v PDF in nato še optično preberejo. O tem smo v Monitorju že pisali. 

Naroči se na redna tedenska ali mesečna obvestila o novih prispevkih na naši spletni strani!

Komentirajo lahko le prijavljeni uporabniki

Najbolj brano

  • Konec poti za slovensko upravljanje z računi

    Storitev noprintZ, ki je uporabnikom omogočala prejemanje digitalnih računov in ročni vnos fizičnih računov, se bo ob koncu leta 2025 dokončno poslovila. 

    Objavljeno: 12.11.2025 06:00 | Teme: android, mobilna aplikacija, Slovenija
  • V ZDA bodo retroaktivno prepovedali DJI-jeve letalnike

    Ameriška Zvezna komisija za telekomunikacija (FCC) je sprejela sila nenavadno odločitev in za nazaj prepovedala uporabo naprav, ki jih je že odobrila in sprostila njihov uvoz v ZDA. Odločitev, da to smejo storiti, so sprejeli s tremi glasovi za in nobenim proti. Uperjena je proti kitajskemu proizvajalcu letalnikov DJI.

    Objavljeno: 3.11.2025 07:00
  • Microsoft pokazal Windows 11 26H1, ki na običajnih računalnikih ne bo deloval

    Verzija Windows 11, ki bo izšla prihodnje leto, se bo predvidljivo imenovala Windows 11 26H1, a je zelo verjetno ne bomo mogli uporabljati. Na kanalu Canary v programu Insider Preview se je predogledna izdaja (Build 28000) pojavila te dni, kar naznanja začetek nekoliko bolj javnega testiranja. Zdi pa se, da bo omejena na ARM-jeve procesorje.

    Objavljeno: 11.11.2025 05:00
  • Umetno inteligentni brskalniki prikažejo plačljive vsebine zastonj!

    Nekateri novi brskalniki, ki temeljijo na umetni inteligenci, lahko zaobidejo plačljive mehanizme medijskih vsebin. 

    Objavljeno: 4.11.2025 16:00
  • Kdo bo Python rešil pred smrtjo?

    Fundacija Python, ki skrbi za razvoj izjemno popularnega istoimenskega programskega jezika, je zavrnila 1,5 milijona dolarjev vredno finančno podporo Nacionalne znanstvene fundacije (NSF), ker jo je pogojevala z opustitvijo vseh programov raznolikosti, enakopravnosti in vključenosti (DEI). Namesto tega zato zbirajo donacije, kjer jim gre presenetljivo dobro.

    Objavljeno: 11.11.2025 07:00
  • Microsoft zakrpal hrošča: Windows 10 in 11 se končno znata ugasniti

    V najnovejši verziji popravkov za Windows 10 in 11 je Microsoft po več kot desetletju zakrpal hrošča, ki je marsikoga spravljal v dvome, ali njegov spomin še deluje. Če ste po uporabi Windows Update želeli računalnik ugasniti in ste izbrali Update and shut down, se je računalnik z Windows 10 ali 11 nemalokrat ponovno zagnal. Verjetno ste pomislili, da ste pomotoma kliknili Update and restart.

    Objavljeno: 4.11.2025 05:00
 
  • Polja označena z * je potrebno obvezno izpolniti
  • Pošlji