Objavljeno: 27.5.2014 | Avtor: Matjaž Klančar | Monitor Junij 2014

Ko računalniki berejo

V resnici še ni tako dolgo, kar je bilo »računalniško branje« oz. prepoznavanje besedila iz bitnih slik oz. fotografij za računalnik podobno težko opravilo, kot je (še) danes prepoznava govora. Danes znajo besedilo brati celo telefoni.

»  Kaj smo ugotovili?

Branje besedil s programi OCR je danes dovolj dobro rešeno, da tudi šumniki ne povzročajo težav. Še več, programi se znajdejo tudi pri ohranjanju oblikovanja strani, kar pride velikokrat zelo prav.

Verjetno ste v spletu že zasledili, da Američani že kar nekaj časa zelo uspešno uporabljajo programe za narekovanje besedila, saj so programski paketi, ko je npr. Dragon NaturallySpeaking, v tej smeri že pred časom dovolj napredovali. Zdaj, ko so tudi računalniki dovolj hitri, je mogoče narekovati že kar v običajni hitrosti, brez nekoliko daljših presledkov med besedami in stavki, kot je bilo nujno še nedavno. In vendar podobnih programov za slovenščino (in še marsikateri svetovni jezik) še ni in jih najverjetneje še dolgo ne bo. Zaradi majhnosti trga, ki bi ga uporabljalo, in še posebej zaradi posebnosti in zapletenosti  našega jezika.

Že hiter pogled na Googlovo tržnico Play pokaže, da je programov, ki »znajo« OCR, res veliko.

Že hiter pogled na Googlovo tržnico Play pokaže, da je programov, ki »znajo« OCR, res veliko.

Zelo podobno je bilo stanje na trgu optičnega branja besedil pred, recimo, petnajstimi leti. Sistemi OCR, ki so bitne slike oz. fotografije spremenili v besedilo, ki ga je bilo mogoče računalniško urejati, so bili na voljo, a so res dobro delovali le v angleščini in nekaterih drugih večjih svetovnih jezikih. Razlog je bil podoben, kot je danes pri prepoznavanju govora – majhnost trga in naše posebnosti. K sreči so »naše posebnosti« tokrat manjše in se oklestijo na tri posebne črke, Č, Š in Ž. In ker ima nekaj takih posebnih črk še kar nekaj drugih narodov, so se sčasoma našla podjetja, ki so prepoznala tržno nišo in razvila izdelke za OCR, ki se odlično prodajajo (tudi) v vzhodni Evropi. Ne preseneča, da so tudi avtorji teh programov Vzhodnoevropejci, od Madžarov do Ukrajincev. Včasih smo zato vsi uporabljali zgolj in samo madžarski program Recognita, danes se navdušujemo nad ukrajinskim Abbyjem. Predvsem zato, ker si že sicer odlične rezultate branja še dodatno izboljša tudi z besedilnimi slovarji, ki so na voljo tudi za slovenščino. Pomoč slovarjev »matematiki« je namreč tisto, kar je v zadnjih letih programe OCR tako izpililo, da znajo običajno tiskano besedilo prebrati 100 %, brez napak. Napake se v resnici najdejo le pri slabših predlogah, kot so faksi in/ali s starejšimi pisalnimi stroji tipkana besedila. Da, tudi taki nam še vedno tu in tam pridejo pod roke.

Napredek OCR je danes v resnici tako očiten, da sistem obvladajo tudi že mobilne aplikacije, to pa naše mobilne telefone prelevi v že skorajda popolne optične bralnike. Naj omenimo samo Googlovo aplikacijo Goggles in celo Google Translate, ki obvladata (tudi) OCR, še več pa dobimo z (tudi zastonjskimi) aplikacijami, ki besedilo preberejo, spremenijo v PDF in nato še optično preberejo. O tem smo v Monitorju že pisali. 

Naroči se na redna tedenska ali mesečna obvestila o novih prispevkih na naši spletni strani!

Komentirajo lahko le prijavljeni uporabniki

Najbolj brano

  • Kaj se zgodi, če Samsungov Galaxy Z Fold prepognete 200.000-krat?

    Ustvarjalec vsebin tech-it je s prenosom v živo na YouTubu izvedel maratonski test, v katerem je ročno odprl in zaprl Samsung Galaxy Z Fold 7 kar 200.000-krat

    Objavljeno: 8.8.2025 10:00
  • Programerska naloga, ki je ni rešil nihče

    Vsako leto se najboljši dijaki v programiranju na svetu merijo na olimpijadi iz informatike, kjer nastopa tudi slovenska ekipa. Tekmovalci v dveh tekmovalnih dneh rešujejo šest nalog, kodo pa pišejo v jeziku C++. Ene izmed nalog letos ni rešil nihče izmed 330 tekmovalci.

    Objavljeno: 6.8.2025 07:00
  • Xiaomi predstavil pametni ventilator

    Xiaomi je v poletni vročini za evropske trge predstavil Smart Desktop Air Circulation Fan, kompakten pametni ventilator, zasnovan za močan pretok zraka v manjših prostorih. 

    Objavljeno: 6.8.2025 11:00
  • Microsoft bo ukinil enoto GitHub

    Ko je Microsoft leta 2018 prevzel GitHub, se ni nič bistvenega spremenilo, saj je ostal samostojna enota z istim direktorjem. A Thomas Dohmke, ki je od leta 2021čas vodil GitHub, je napovedal odhod iz podjetja, saj ima druge podjetniške cilje. Microsoft zamenjave ne bo iskal.

    Objavljeno: 13.8.2025 05:00
  • Linus Torvalds spet ponorel

    Linus Torvalds, izumitelj in še vedno glavni skrbnik Linuxa, je vedno slovel kot vzkipljiv človek, zato tudi njegov zadnji izbruh ni zelo presenetljiv. Ob pripravi nove verzije jedra 6.17 jih je pošteno napel Palmerju Dabbeltu, ki je predložil kopico popravkov za RISC-V. Torvalds je, milo rečeno, ponorel.

    Objavljeno: 14.8.2025 05:00
  • HBO Max bo še otežil deljenje gesel

    Warner Bros. Discovery bo od prihodnjega meseca začel strožje uveljavljati prepoved deljenja gesel na pretočni storitvi HBO Max. 

    Objavljeno: 8.8.2025 09:00
 
  • Polja označena z * je potrebno obvezno izpolniti
  • Pošlji