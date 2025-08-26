Prepoznavanje govora in strojno prevajanje sta eni prvih opravil, ki ju je umetna inteligenca že zelo dobro rešila. Tehnološki velikani ponujajo prevajanje že desetletja, podobno tudi danes praktično vsi urejevalniki besedila omogočajo narekovanje besedila, če se omejimo le na splošne izdelke za najširši krog uporabnikov. Večkrat smo o teh orodjih že pisali (Stran s tipkovnico, računalniku narekujmo!, Monitor 01/24). Obstajajo tudi specializirana orodja, kot je Tipko na slovenskih sodiščih (Umetna inteligenca na slovenskih sodiščih, Monitor 02/24), zato se lahko upravičeno vprašamo, ali je mogoče na tem področju ponuditi kaj revolucionarno boljšega, predvsem pa, ali je moč konkurirati velikanom – Googlu, Microsoftu in Applu. Izkazalo se je, da je odgovor na ta vprašanja pritrdilen.

Preizkusili smo aplikacijo za prepoznavanje govora in simultano prevajanje izpod slovenskih prstov. Izkazalo se je, da deluje bolje od alternativ, ki jih ponujajo tehnološki velikani. Soniox je na testu navdušil.

Tudi prepis in prevod severnokorejskega jezika (!) poteka brez težav.

Klemen Simonič, ki je po pripravništvu pri Googlu skoraj pet let delal za Facebook, in Ambrož Bizjak, ki ima za seboj večletno kariero v Cosylabu, kjer je razvijal opremo za nadzor pospeševalnikov delcev, sta leta 2020 ustanovila Soniox. Podjetje razvija tehnologijo za prepoznavanje govora in simultano prevajanje, ki deluje v realnem času in podpira dobrih 60 jezikov sveta, med njimi tudi slovenščino. Soniox je sicer ameriško podjetje, ki je bilo ustanovljeno v Foster Cityju v Kaliforniji in ima tam tudi sedež, v Ljubljani pa ima evropsko razvojno središče. Tu dela tudi celotna produktna in inženirska ekipa.

Tehnologijo, ki je od začetka avgusta domačim uporabnikom na voljo v istoimenski aplikaciji, Soniox že dlje časa ponuja komercialnim partnerjem, ki jo lahko vgradijo v svoje izdelke. Med njimi so tudi velikani, kakršen je Samsung. Razvijalci aplikacij imajo na voljo dostop prek knjižnic API, domači uporabniki pa aplikacijo, ki je za omejeno uporabo brezplačna, neomejeni dostop pa zahteva naročnino.

Kaj je Soniox

Direktor družbe Klemen Simonič je v začetku avgusta v intervjuju za Bloomberg povedal, da je ključna prednost aplikacije Soniox natančnost. Medtem ko so po njegovih besedah konkurenčne aplikacije 70- do 80-odstotno natančne, je Soniox dosegel osupljivih 95 odstotkov. Soniox uporablja nevronske mreže, ki so se učile na vseh mogočih podatkih, ki so dostopni na internetu. Rezultat je tehnologija, ki tekoče govori 60 jezikov, v prihodnosti pa bodo nabor še razširili in hkrati izboljšali natančnost prepoznavanja govora pri obstoječih jezikih.

Ob tem je Simonič poudaril, da je to prva tehnologija, ki zares razume človeški govor. Prevajanje besedila, torej jezika, vnesenega s tipkovnico, je že dobro rešen problem, prepoznavanje govora ima svoje izzive, simultano prevajanje pa še ni (bilo) rešeno. Soniox se osredotoča na zadnje, hkrati pa prepoznani govor sproti popravlja, tako da je prepis slovnično pravilen. Rezultat je tako dober, da je v podjetje vložilo več ameriških skladov pa tudi veliki Samsung, ki je postal integrator te tehnologije.

Soniox gre v laboratorij

Aplikacijo Soniox smo preizkusili v službenem okolju na enem izmed ljubljanskih inštitutov, kjer laboratoriji zvenijo kot babilonski stolp. V pičlih nekaj minutah je moč najti rojene govorce slovenščine, italijanščine, francoščine, portugalščine, ukrajinščine, ruščine, kitajščine in malajalamščine (jezik indijske zvezne države Kerala), obenem pa še priučene govorce angleščine, nemščine, švedščine in hindijščine. Kar obsežen vzorec torej, na katerem smo preizkusili Soniox.

Ko Soniox namestimo, nas povpraša, s kakšnim namenom ga bomo uporabljali in katere jezike bomo najverjetneje potrebovali. S tem se nikakor ne omejimo ali zaklenemo, gre zgolj za statistiko in pomoč pri uporabi. V aplikaciji lahko namreč kasneje nastavimo, kateri jezik bo sogovornik uporabljal, ali pa pustimo možnost Katerikoli (Any). Pri tej bo Soniox še vedno upošteval vseh 60 možnosti, a bo rezultat boljši oziroma hitrejši, če bo šlo za enega izmed predizbranih. Za uporabo si moramo ustvariti (brezplačen) račun, kjer bo najlažja pot kar uporaba Googlovega ali Applovega računa (torej elektronskega naslova), lahko pa ustvarimo tudi svojega.

Ko aplikacijo odpremo, najdemo v zgornji vrstici štiri zavihke: Zgodovina (History), Prepiši (Transcribe), Prevedi (Translate) in Profil (Profile). Glavna načina delovanja sta torej dva. Prepisovanje oziroma transkripcija je namenjena zapisovanju govorjenega besedila enega govorca ali več. V živo smo preizkusili materne govorce vseh zgoraj navedenih jezikov, ki so morali improvizirati, govoriti na pamet. Sicer je šlo za krajše samogovore, dolge nekaj stavkov, a so bili prav vsi sogovorniki navdušeni nad natančnostjo prepisa in prevodom.

Tudi preizkusi v tujem jeziku, ko so nematerni govorci preizkušali nemščino, angleščino, švedščino in hindijščino, so bili nadvse uspešni. Soniox ni potreboval nobenega prilagajanja, zgolj nekaj sekund, da je prepoznal jezik, pa je razumel vse, ne glede ne močan tuji naglas.

Soniox smo preizkusili v babilonskem stolpu kopice jezikov.

Ko v zavihku Prepis vključimo snemanje, se na zaslonu sproti izpisuje prepis govora, če je ta v kateremkoli izmed 60 podprtih jezikov. V kakšnem zelo kratkem pogovoru morda resda zameša hrvaščino in bosanščino, a je sicer jezik in besedilo popolnoma pravilno prepoznal. Ko snemanje končamo, se v nekaj sekundah prepis še obdela. To vključuje segmentacijo po govorcih, postavitev ločil in popravek posameznih netočnosti, če je ob prvi ponovitvi napačno razumel kakšno lastno ime, pa ga je kasneje slišal bolje.

Zvočni posnetek se tudi shrani in ga lahko kasneje vnovič predvajamo, če bi to želeli. Vsak posnetek shranimo pod svojim imenom, Sonioxova umetna inteligenca pa že iz vsebine predlaga smiseln naslov. Prav tako vsebuje vse potrebne malenkosti, kot so deljenje vsebine s prijatelji, kopiranje v odložišče in seveda vabljenje prijateljev kot novih uporabnikov – kar nam mimogrede prinese nekaj točk za brezplačno uporabo, k čemur se bomo še vrnili.

Posneti nagovori

Nato smo Soniox preizkusili še na treh govorih z Youtuba. Šlo je za uvodni nagovor v švedščini na koncertu v čast pokojni Marie Fredriksson, ki je potekal 20. januarja 2020 v Stora Teaternu v Göteborgu, za zaključni nagovor v nemščini, ki ga je imel v zadnji epizodi pogovorne oddaje Wetten dass voditelj Markus Lanz 13. decembra 2014, in uvod v televizijski dnevnik na severnokorejski državni televiziji 1. januarja 2014. Na prenosnem računalniku smo predvajali omenjene posnetke, ki so trajali približno tri minute, s telefonom ob zvočniku pa s Sonixom simultano prevajali.

Rezultati so bili navdušujoči. Ne le da je bil prepis v originalne jezike točen in slovnično pravilen – za korejščino tega sicer nismo znali preveriti –, tudi prevod v angleščino je bil pravilen, razumljiv in smiseln.

Poleg golega prepisa in prevoda nudi Soniox še napredne funkcije umetne inteligence. Te so Povzetek (Summary), Ključni izpostavki (Key points), Seznam opravil (To-Do List), Lastna imena (Named Entities), Povzetek po govorcih (Speaker Summary), bistveni citati (Speaker's Quotes) in razno (Custom Prompt). Umetni inteligenci, ki Soniox poganja, lahko namreč podamo tudi lastna navodila.

Prednastavljene možnosti, do katerih vodijo gumbi, počnejo, kar bi pričakovali od njih glede na imena. Povzetek dobro povzame dogajanje, vsebuje nekakšen predpovzetek, nato pa po točkah navedene ključne dele besedila, opremljene s komentarji. Ključni izpostavki so poudarki iz besedila, navedeni v alinejah, seznam opravil pa bi lahko uporabili, če bi dogodek načrtovali. Za uvodni nagovor na koncertu predlaga poiskati nastopajoče, rezervirati prizorišče, napisati povezovalno besedilo itd. Lastna imena so seznam vseh imen, ki so bila izpostavljena v besedilu, povzetek po govorcih in bistveni citati pa so, kar opisuje že njuno ime. Soniox namreč zmore prepoznati različne govorce, pri čemer se redko zmoti. Zmede ga lahko edino, če isti človek govori v več jezikih, kar v resnici več pove o ljudeh kot o Sonioxu, saj z vsakim jezikom prevzamemo drugačno identiteto, kar se pokaže tudi v nastopanju.

Še zabavnejši primer je bilo iskanje najtršega škotskega naglasa na Youtubu. Na enem izmed posnetkov, kjer je glasovni igralec Johnpaul Wright govoril z zelo močnim naglasom, niti Googlovo samodejno podnaslavljanje – ki je vgrajeno v YouTube – ni pravilno podnaslovilo vseh njegovih besed. Soniox ni imel težav in je vse besede, celo lastno ime Cumberland, prepoznal pravilno. Prevod v slovenščino je bil skorajda povsem pravilen, zmanjkala je zgolj kakšna vejica, povzetki in druge funkcije pa so prav tako odlično delovali. In ker smo to pot prevajali v slovenščino, so bili povzetki, ključni izpostavki in ostala analiza v slovenščini! Ker je Wright (šaljivo) govoril, da koronavirus izvira iz Cumberlanda, kjer so stregli ocvrte netopirje, je Soniox k povzetku dodal opombe, da gre za nepreverjene trditve in da Wright uporablja oster ton ter žaljivke. To drži, saj je kitajsko mesto Vuhan označil za sranje.

Samorog

Simonič je za Finance dejal, da je zapisovanje govorjene besede z umetno inteligenco večji tehnološki preskok, kot je upravljanje naprav na dotik. Te omenja zato, ker je tehnologija za Sonioxom horizontalna, podobno kot na dotik občutljivi zasloni. To pomeni, da se lahko uporabi v najrazličnejših napravah ali izdelkih. Na dotik občutljiv zaslon sam po sebi ni uporaben, temveč to postane šele v telefonu, prenosnem računalniku, televizorju, tablici in podobno. Enako velja za prepoznavanje govora, ki ima po Simoničevih besedah praktično neomejene možnosti. Lahko bi nadomestilo kopico poklicev, a umetna inteligenca tajnic in administratorjev ne bo zamenjala, temveč jim bo olajšala delo, da se bodo lahko posvetili pomembnejšim delom svojih zadolžitev.

Soniox izdela povzetek izvirnika v tarčnem jeziku.

Med preizkusom Sonioxa nismo odkrili omembe vrednih pomanjkljivosti. Grafični vmesnik v aplikaciji je minimalno odrezal zgornjo vrstico besedila, če smo si ogledovali shranjene prepise. Občasno je bila aplikacija preslabo odzivna, saj je trajalo nekaj sekund preveč, da se je pokazalo opozorilo, ali želimo shraniti neshranjeni posnetek. Na vsebinski ravni se je enkrat nenavadno zaciklala, ko je besedilo v švedščini prepisovala v nemščino, prevod v angleščino pa je bil še vedno pravilen. Hrošča nam ni uspelo ponoviti. To so zagotovo porodni krči, saj je bila tehnologija sicer pet let v razvoju, aplikacija kot taka pa je izšla šele avgusta. A to so majhni spodrsljaji, ki bi končni oceni odnesli kvečjemu kakšno desetinko ali dve. V primerjavi z Googlovim ali Microsoftovim prepoznavanjem govora je Soniox za razred boljši.

Aplikacija je v osnovni različici brezplačna, a je omejena na 10 »kreditov« (credits). Ti se vsak teden obnovijo, za obsežnejšo uporabo pa bo treba plačati 20,99 dolarja na mesec. Prav tako dobimo do 100 »kreditov« za vsakega povabljenega prijatelja, ki dejansko ustvari račun. Cene za poslovne uporabnike in razvijalce prek API so sicer zapisane, a so lahko tudi individualne.

Ali bo Soniox postal »slovenski« samorog ali morda celo tehnološki gigant, bo pokazal čas. Prvi znaki so sila spodbudni, četudi je tale prispevek še vedno nastal na klasični način, torej s hitrim udrihanjem po tipkovnici. Stara navada je železna srajca.

Soniox

Kaj: Aplikacija in API za prepoznavanje govora, simultano prevajanje in analizo besedila.

Kje: Na spletnih tržnicah ali na spletni strani www.soniox.com.

Cena aplikacije: Omejena raba brezplačna, Soniox Pro 20,99 evra mesečno.

Cena dostopa prek API: 0,12 dolarja na uro za prepis, 1,5 dolarja za milijon žetonov vhodnega avdia, 3,5 dolarja za milijon žetonov izhodnega besedila (ura govora je 15.000–30.000 žetonov, en znak je 0,3 žetona).

Za: Podpora 60 jezikom in samodejno prepoznavanje, visoka stopnja natančnosti, hitrost, napredne funkcije.

Proti: Grafični vmesnik, zamik pri prepoznavanju jezikov.