A preden se vržemo v aplikacije, ki ponujajo kloniranje našega lastnega glasu, si na hitro oglejmo osnove, kako tehnologija deluje. Umetnointeligenčni modeli (najpogosteje različni generativni modeli in modeli globokega učenja) analizirajo zvočne vzorce govorca in nato ustvarijo sintetiziran glas, ki zveni zelo podobno izvirnemu. Modeli posnetke razbijejo na foneme (najmanjše enote zvoka) in analizirajo intonacijo, ritem, naglas ter druge značilnosti glasu. Ko je model izurjen, lahko iz besedila ustvari sintetiziran govor, ki zveni zelo podobno kot izvirni govorec, vključno z njegovim tonom, ritmom in celo čustvi.

… so si najbrž rekli na britanskem BBC, ko so raziskovali rusko dezinformacijsko kampanjo, ki je ob pomoči umetne inteligence »ukradla« glasovno identiteto nekega britanskega svetovalca za nujno medicinsko pomoč. Čeprav je šlo v tem primeru za delo ruskih hekerjev, pa aplikacije za glasovno kloniranje lahko brez večjih težav preizkusimo tudi sami.

Naroči se na redna tedenska ali mesečna obvestila o novih prispevkih na naši spletni strani!

… so si najbrž rekli na britanskem BBC, ko so raziskovali rusko dezinformacijsko kampanjo, ki je ob pomoči umetne inteligence »ukradla« glasovno identiteto nekega britanskega svetovalca za nujno medicinsko pomoč. Čeprav je šlo v tem primeru za delo ruskih hekerjev, pa aplikacije za glasovno kloniranje lahko brez večjih težav preizkusimo tudi sami.

A preden se vržemo v aplikacije, ki ponujajo kloniranje našega lastnega glasu, si na hitro oglejmo osnove, kako tehnologija deluje. Umetnointeligenčni modeli (najpogosteje različni generativni modeli in modeli globokega učenja) analizirajo zvočne vzorce govorca in nato ustvarijo sintetiziran glas, ki zveni zelo podobno izvirnemu. Modeli posnetke razbijejo na foneme (najmanjše enote zvoka) in analizirajo intonacijo, ritem, naglas ter druge značilnosti glasu. Ko je model izurjen, lahko iz besedila ustvari sintetiziran govor, ki zveni zelo podobno kot izvirni govorec, vključno z njegovim tonom, ritmom in celo čustvi.

Ključna pri urjenju modela je visoka kakovost posnetkov, ki jih analiziramo (torej zadostna jakost zvoka, čim manj šumov in hrupa v ozadju), za čim večjo natančnost pa je pogosto potrebno dodatno urjenje, ki pomaga modelu razumeti specifične govorčeve posebnosti (uporaba mašil, izgovorjava posameznih glasov in/ali besed, premori, hitrost govorjenja v različnih čustvenih stanjih in še bi lahko naštevali). Smiselnost natančnosti modela je najbolj odvisna od same uporabe; v oglaševanju, e-učenju in podkastih je bolj kot natančnost pomembna konsistentnost, da nam je glas prijeten in ne odbijajoč. Pri poskusih nadomestitve govora za osebe, ki jim govorna funkcija upada in pa za osebne asistente (recimo rehabilitacije po poškodbah glave), kjer je znan glas lahko celo pomembnejši kot videz, pa je dober in natančen model absolutna prioriteta za zadovoljstvo uporabnikov.

Ko se odpravljamo na lov za brezplačnimi aplikacijami, smo seveda velikokrat deležni lažnih obljub, da je nekaj brezplačno, v resnici pa je treba izvleči kreditno kartico.

Radio Ga Ga kar doma?

Seveda nam brezplačne in preizkusne različice umetnointeligenčnih modelov kloniranja glasu ne bodo prinesle velike natančnosti. Nekatere aplikacije se hvalijo s tem, da za osnovno kloniranje potrebujejo le desetsekundni posnetek našega glasu, kar seveda močno skrajša čas izdelave modela, a na račun kakovosti in pristnosti. Podobno je tudi z ustvarjanjem kloniranih glasov znanih osebnosti; dovoljeno nam je klonirati le naš lastni glas, kar bolj ali manj vse spletne aplikacije zelo jasno opozorijo. Mnoge celo zahtevajo podpis izjave, da je naložena oziroma posneta glasbena datoteka v resnici naš glas. Ker pa smo ljudje v resnici dokaj lažniva bitja, imajo boljše aplikacije vgrajene glasovne modele najbolj znanih svetovnih voditeljev, glasbenikov, filmskih in športnih zvezdnikov, ki nam ideje po manipulaciji že v kali zatrejo. V resnici so torej tudi dober lakmusov test, kdo je v resnici slaven.

Po drugi strani si lahko z GitHuba namestimo cel kup aplikacij, ki omogočajo urjenje in ustvarjanje lastnih glasovnih modelov kar doma, s tem pa zaobidemo vse omejitve spletnih aplikacij. Med bolj znanimi in boljšimi takimi aplikacijami so MaskCGT in OpenVoice (obe aplikaciji so razvili na Kitajskem, podpirata angleščino, slovenščine žal ne), ki uporabljata velikojezikovni model (LLM) model T5-TTS. Ta temelji na arhitekturi z dvema glavnima komponentama, od katerih ena obdeluje vhodno besedilo, druga pa generira zvočne foneme na podlagi referenčnega govornega vzorca. Največja prednost tega modela je v bistveno manj napakah pri izgovorjavi, odpravi halucinacij (torej napačno izgovorjenih ali izpuščenih besedah), podpori več govorcem in izražanju čustev v govoru (veselju, jezi, žalosti ipd.), največja slabost pa je relativna počasnost v primerjavi z ostalimi modeli. Drugi znani modeli so XTTS-v2 (ki ni več aktivno vzdrževan), MeloTTS (ne podpira kloniranja), ChatTTS (ima zelo omejeno število jezikov) in še bi lahko naštevali.

Aplikacija naša vsakdanja

Verjetno je na tej točki že samoumevno, pa vseeno zapišimo: samega kloniranja ne moremo absolutno ločiti od drugih glasovnih storitev, kot so besedilo v govor (text-to speech), transkripcija, izboljšava zvočnega zapisa (normalizacija, odstranitev šumov in pokov), posredno pa celo samodejno podnaslavljanje, samodejno snemanje ipd. Navsezadnje je za popolno kloniranje potrebno sodelovanje prej naštetih storitev, mnoge pa so zgrajene tako sorodno, da lahko opravljajo tudi druge storitve. Ponudniki se tega zavedajo in svojo ponudbo »obogatijo« s čim več storitvami, drugi pa se osredotočijo na posamezni profil uporabnika in mu ponujajo izdelavo videa, podkasta, radijske oddaje in ga ne obremenjujejo s podrobnostmi o tehnologiji.

Med pogojno uporabne preizkusne storitve štejejo tiste, ki izdelajo poljubno kloniran glas, le datoteke ne morete shraniti.

Ko se odpravljamo na lov za brezplačnimi aplikacijami, smo seveda velikokrat deležni lažnih obljub, da je nekaj brezplačno, v resnici pa je treba izvleči kreditno kartico. Murf (murf.ai) neposredno laže, da je brezplačen, a ko se prijavite in želite preizkusiti storitev, vas usmerijo na prodajnike. FineVoice (finevoice.fineshare.com) prepričuje, da je naredil glasovni model, vendar ga ne morete uporabiti (čeprav so si shranili vaš glas!), dokler ne plačate naročnine. Podobno prepričujejo tudi pri aplikacijah Speechify Studio (speechify.com/studio), Fliki (fliki.ai), InvideoAI (invideo.io), Fineshare (www.fineshare.com) in še mnogih drugih. Pri ElevenLabs (elevenlabs.io) pa se niti ne trudijo z brezplačnimi različicami, saj, seveda, veljajo za najboljše v poslu.

Med pogojno uporabne preizkusne storitve štejejo tiste, ki izdelajo poljubno kloniran glas, le datoteke ne morete shraniti (Lovo AI (lovo.ai), Uberduck (www.uberduck.ai)), ali pa ponudijo neko reklamno besedilo, ki ga ni mogoče spremeniti (NoteGPT (notegpt.io)). Colossyan (www.colossyan.com) ponuja le video, glasovnega kloniranja pa ni moč samostojno shraniti, Descript (www.descript.com) zahteva namestitev na računalnik in uporabnika zelo omejuje pri dolžini posnetka, a je rezultat za brezplačno storitev nadpovprečno dober. Nekaj podobnega velja tudi za ResembleAI (www.resemble.ai), ki je končno dobil tudi preizkusno različico in ga ni treba namestiti lokalno. V bolj ali manj vse storitve pa se je treba prijaviti, da lahko pridemo do kakršnegakoli rezultata (izjema je le Uberduck), kar je seveda časovno potratno, da ne govorimo o količini podatkov, ki jih je treba posredovati za v resnici, hm, nepotrebne storitve.

Do tod omenjene storitve v preizkusnih različicah delujejo le v angleščini. Pri preizkusu smo uporabili angleškega govorca z močnim slovenskim naglasom, kjer smo za najboljšo izbrali tisto storitev, ki verno ne poustvari le barve glasu, ampak tudi naglas, premore med besedami, skratka da občutek, da zares poslušamo pravo osebo. Najboljše izdelke so dostavili pri Descriptu, Resemble AI in Uberduck, NoteGPT in Colossyan sta se odrezala nekaj slabše, govor Lovo AI pa ni bil niti najmanj podoben klonirani osebi in ga resnično ne priporočamo – niti za preizkušanje.

Govori kdo tudi slovensko?

minimax.png; Edina omembe vredna storitev, ki ima tudi preizkusno različico, je po našem mnenju Minimax Audio (www.minimax.io), ki brez težav ponudi kloniranje glasu slovenskega govorca.

Slovenščino podpira že kar nekaj spletnih aplikacij za kloniranje, med zgoraj naštetimi Murf, MaestraAI, FineVoice in še bi lahko naštevali. Edina omembe vredna »tudi slovenska« storitev, ki ima tudi preizkusno različico, je po našem mnenju Minimax Audio (www.minimax.io), ki brez težav ponudi kloniranje glasu slovenskega govorca in tudi storitve pretvorbe besedila v govor, za nameček pa lahko ustvarja tudi glasbo in petje (in premore tudi lastni API, vmesnik za povezovanje z zunanjimi aplikacijami). Rezultati preizkusa so dali kakovosten in pristen občutek resničnega govorca, brezplačno pa lahko ne le ustvarjamo govorce, ampak glasovne datoteke prenašamo tudi k sebi. V nasprotju z ostalimi storitvami je Minimax usmerjen izključno v govor in glasbo, tako da videa, transkripcije in podnaslavljanja ne podpira.

Kloniranje glasov je zaradi številnih tožb znanih oseb in kraje intelektualne lastnine dandanes že precej omejeno in zaprto, vsaj za tiste, ki ne želijo globlje seči v žep. Še vedno sicer najdemo kako platformo, ki ponuja vsaj delno uporabne in hkrati brezplačne rezultate, a za popolno svobodo že potrebujemo zmogljiv računalnik in napredno računalniško znanje.

Seveda pa ni prav nič nenavadno, da so hekerji posegli po dezinformacijah ob pomoči glasov, ki se ljudem zdijo znani in domači; na podzavest je vedno treba resno računati, kar kažejo številni primeri informacijskih vojn iz bližnje preteklosti. Za okrogle obletnice naših najdražjih in občasne neškodljive meme na družabnih omrežjih pa bo najbrž vedno ostala kakšna preizkusna aplikacija … Le pošteno napišimo, da smo se z njenim rezultatom – hecali.