Objavljeno: 27.5.2014 | Avtor: Matjaž Klančar | Monitor Junij 2014

Ko računalniki berejo

V resnici še ni tako dolgo, kar je bilo »računalniško branje« oz. prepoznavanje besedila iz bitnih slik oz. fotografij za računalnik podobno težko opravilo, kot je (še) danes prepoznava govora. Danes znajo besedilo brati celo telefoni.

»  Kaj smo ugotovili?

Branje besedil s programi OCR je danes dovolj dobro rešeno, da tudi šumniki ne povzročajo težav. Še več, programi se znajdejo tudi pri ohranjanju oblikovanja strani, kar pride velikokrat zelo prav.

Verjetno ste v spletu že zasledili, da Američani že kar nekaj časa zelo uspešno uporabljajo programe za narekovanje besedila, saj so programski paketi, ko je npr. Dragon NaturallySpeaking, v tej smeri že pred časom dovolj napredovali. Zdaj, ko so tudi računalniki dovolj hitri, je mogoče narekovati že kar v običajni hitrosti, brez nekoliko daljših presledkov med besedami in stavki, kot je bilo nujno še nedavno. In vendar podobnih programov za slovenščino (in še marsikateri svetovni jezik) še ni in jih najverjetneje še dolgo ne bo. Zaradi majhnosti trga, ki bi ga uporabljalo, in še posebej zaradi posebnosti in zapletenosti  našega jezika.

Že hiter pogled na Googlovo tržnico Play pokaže, da je programov, ki »znajo« OCR, res veliko.

Že hiter pogled na Googlovo tržnico Play pokaže, da je programov, ki »znajo« OCR, res veliko.

Zelo podobno je bilo stanje na trgu optičnega branja besedil pred, recimo, petnajstimi leti. Sistemi OCR, ki so bitne slike oz. fotografije spremenili v besedilo, ki ga je bilo mogoče računalniško urejati, so bili na voljo, a so res dobro delovali le v angleščini in nekaterih drugih večjih svetovnih jezikih. Razlog je bil podoben, kot je danes pri prepoznavanju govora – majhnost trga in naše posebnosti. K sreči so »naše posebnosti« tokrat manjše in se oklestijo na tri posebne črke, Č, Š in Ž. In ker ima nekaj takih posebnih črk še kar nekaj drugih narodov, so se sčasoma našla podjetja, ki so prepoznala tržno nišo in razvila izdelke za OCR, ki se odlično prodajajo (tudi) v vzhodni Evropi. Ne preseneča, da so tudi avtorji teh programov Vzhodnoevropejci, od Madžarov do Ukrajincev. Včasih smo zato vsi uporabljali zgolj in samo madžarski program Recognita, danes se navdušujemo nad ukrajinskim Abbyjem. Predvsem zato, ker si že sicer odlične rezultate branja še dodatno izboljša tudi z besedilnimi slovarji, ki so na voljo tudi za slovenščino. Pomoč slovarjev »matematiki« je namreč tisto, kar je v zadnjih letih programe OCR tako izpililo, da znajo običajno tiskano besedilo prebrati 100 %, brez napak. Napake se v resnici najdejo le pri slabših predlogah, kot so faksi in/ali s starejšimi pisalnimi stroji tipkana besedila. Da, tudi taki nam še vedno tu in tam pridejo pod roke.

Napredek OCR je danes v resnici tako očiten, da sistem obvladajo tudi že mobilne aplikacije, to pa naše mobilne telefone prelevi v že skorajda popolne optične bralnike. Naj omenimo samo Googlovo aplikacijo Goggles in celo Google Translate, ki obvladata (tudi) OCR, še več pa dobimo z (tudi zastonjskimi) aplikacijami, ki besedilo preberejo, spremenijo v PDF in nato še optično preberejo. O tem smo v Monitorju že pisali. 

Naroči se na redna tedenska ali mesečna obvestila o novih prispevkih na naši spletni strani!

Komentirajo lahko le prijavljeni uporabniki

Najbolj brano

  • Android vam bo povedal, ali vam policija prisluškuje

    Čedalje popularnejši način prisluškovanja in prestrezanja podatkov z mobilnih telefonov je uporaba lažnih baznih postaj (IMSI catcher), ki jih imajo organi pregona v nekaterih državah, lahko pa tudi drugi akterji. Na takšno napravo se povežejo vsi telefoni v okolici, saj njen signal preglasi legitimne bazne postaje, upravljavec pa potem zlahka prestreza komunikacijo. Uporabnik tega početja praktično ne more zaznati.

    Objavljeno: 1.7.2025 07:00
  • Podjetja nočejo Copilota, ker zaposleni raje uporabljajo ChatGPT

    Microsoft kljub velikim naporom (beri: finančnemu vložku) podjetjem težko proda storitve umetne inteligence Copilot.

    Objavljeno: 27.6.2025 09:00
  • Kitajski prenosniki so dve leti za zahodnimi

    Čeprav se Kitajci močno trudijo in izdatno investirajo v domači razvoj in proizvodnjo čipov, so še vedno vsaj dve generaciji za zahodnimi izdelki. To izkazuje tudi najnovejši Huaweijev prenosnik MateBook Fold Ultimate, ki poganja lastni HarmonyOS in ima same kitajske komponente. A te v primerjavi z zahodnimi zaostajajo.

    Objavljeno: 25.6.2025 07:00
  • Pametna očala s samodejnim ostrenjem bi lahko nadomestila bifokalna stekla

    Finsko podjetje IXI razvija inovativna očala z lečami, ki se samodejno ostrijo glede na pogled uporabnika. 

    Objavljeno: 23.6.2025 10:00 | Teme: pametna očala
  • Teslini samovozeči taksiji ne znajo voziti

    Prvi dnevi Teslinih robotskih taksijev so polni napak, vožnje po napačni strani ceste, nenadnih zaviranj in nevarnih ustavljanj za odlaganje potnikov.

    Objavljeno: 26.6.2025 09:00
  • HDMI 2.2 je tu!

    Sicer na papirju, a vendarle. HDMI Forum je izdal končne specifikacije standarda HDMI 2.2, ki so ga izdatno opisovali in predstavljali že na januarskem sejmu CES. HDMI 2.2 ima že večjo prepustnost kot DisplayPort, a bo zanjo zahteval nove kable Ultra96.

    Objavljeno: 27.6.2025 05:00
 
  • Polja označena z * je potrebno obvezno izpolniti
  • Pošlji