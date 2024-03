Razpoznavanje govora brez oblaka!

V januarski številki smo si v članku Stran s tipkovnico, računalniku narekujmo! ogledali kar nekaj orodij, ki znajo pretvoriti govorjeno besedo v besedilo. Večini opisanih rešitev je bilo skupno, da pretvorbo počnejo nekje v »oblaku«. Kaj pa, če besedila nočete izpustiti iz svojih rok, hkrati pa še iščete »cenovno ugodno« (beri: zastonjsko) rešitev?

Rešitev je orodje Whisper, ki ga je podjetje OpenAI konec leta 2022 dalo v javno rabo. Poleg osnovnega pogona so v javno last prepustili tudi nekaj jezikovnih modelov različne velikosti (in seveda tudi kakovosti). Prva različica se je učila na 680.000 urah posnetkov, od katerih je bilo le 117 tisoč ur neangleških. Angleščino je umetna pamet zato prepoznavala bistveno bolje od ostalih jezikov. Kasneje so izdali še dve izboljšani različici jezikovnih modelov in zadnja, large-v3, že kar dobro razume tudi slovenščino. No, vsaj včasih.

