Objavljeno: 12.9.2016 01:00

Google DeepMind omogoča boljšo sintezo govora

Google je našel še eno zanimivo in nadvse koristno uporabo svoje platforme za umetno inteligenco DeepMind. S pomočjo tehnologij nevronskih mrež in strojnega učenja so razvili novo tehnološko ogrodje imenovano WaveNet, s katerim uspejo pričarati računalniško generirano sintezo govora, ki zveni bistveno bolj naravno, kot dosedanje tehnologije na tem področju. Google trdi, da je po njihovih ocenah WaveNet 50% bližje človeškemu govoru, kot karkoli drugega doslej.

Na področju sinteze govora so proizvajalci, med katerimi je Google nadvse aktiven, uporabljali različne metode. Google je doslej uporabljal zlasti algoritem združevanja različnih glasov, ki tvorijo posamezen fonem, vendar tak pristop ustvarja preveč robotski govor, ki ne vsebuje čustev in variacij pri izgovorjavi.

Izboljšava metode združevanja je parametrična metoda, kjer so podatki o pravilni izgovorjavi shranjeni za vsako kombinacijo besed izrečenih v nekem kontekstu. S tem so kvaliteto govora sicer izboljšali, a so bili uspešni predvsem pri ne-zlogovnih jezikih, kot je kitajščina, precej manj pa pri zlogovnih, kot je angleščina.

Nov pristop z imenom WaveNet deluje na precej drugačen način, saj modificira posamezen vzorec v nizu zvočnih vzorcev glede na parametre izračunane v nevronski mreži in pridobljene z vzorčenjem ter strojnim učenjem. Če imamo denimo sintezo s frekvenco 16.000 Hz, WaveNet prilagodi prav vsakega od 16.000 vzorcev. Programerji so vgradili v izgovorjavo celo take elemente, kot so premik ust pri izgovorjavi in dihanje med govorom, kar najbolje oponaša človeški govor.

Da bi pokazali, kako dober je nov algoritem, so pri Googlu izvedli test z naključno izbranimi posamezniki, ki so ocenjevali 100 izgovorjenih stavkov, brez da bi vedeli, kateri sistem ali človek jih izgovarja. Rezultati pričajo, da WaveNet sicer še ni dosegel prisotnosti človeškega govora, je pa močno zmanjšali razkorak.

Novo tehnologijo bo Google najbrž postopoma uporabil v svojih izdelkih in spletnih storitvah, denimo pametnih pomočnicah, pametnih telefonih, še zlasti pa računalniških napravah, kij nadenemo in je sinteza govora primarni način interakcije z uporabnikom. Trenutno je glavna ovira še razmeroma visoka procesna moč, ko je potrebna za uporabo algoritma WaveNet, kar pa naj bi razrešili z novimi generacijami računsko intenzivnih računalnikov (HPC), ki jim cena v zadnjem času močno pada.

Več novic

Naroči se na redna tedenska ali mesečna obvestila o novih prispevkih na naši spletni strani!

Komentirajo lahko le prijavljeni uporabniki

Najbolj brano

  • Redka zmaga malega rudarja kriptovalut

    V času, ko rudarjenje bitcoina obvladujejo velika podjetja s specializirano opremo in ogromnimi viri, je neodvisnemu solo rudarju uspel izjemen podvig. 

    Objavljeno: 27.7.2025 13:00
  • Šibko geslo in hekerski vdor pogubila 158 let staro podjetje

    Britansko podjetje KNP iz Northamptonshira, ki se je ukvarjalo s prevozi, je po 158 letih obratovanja zaprlo vrata, zaradi česar je brez dela ostalo 700 ljudi. Razlog ni slabo poslovanje, težke tržne razmere, izgube ali celo poneverbe, temveč precej bolj banalen. Podjetje je opustošil hekerski napad, v katerem so napadalci odnesli podatke o vseh strankah.

    Objavljeno: 23.7.2025 05:00
  • Internet umira, krivi smo sami

    Spletne strani in celotni internet se zanašajo na nepisano pravilo, ki se je v zadnjem letu začelo krhati in grozi, da bo pokopalo internet, kot ga poznamo. Zaradi agentov in modelov umetne inteligence čedalje manj klikamo na spletne strani, zaradi česar imajo te čedalje več težav s financiranjem. Zdi sem, da jim škoduje tudi Google, ki je doslej benevolentno zagotavljal promet s svojim iskalnikom.

    Objavljeno: 31.7.2025 05:00
  • Tehnologija je orodje za množično nadzorovanje

    Ko je minuli teden kamera na koncertu skupine Coldplay v Bostonu prikazala par, ki objet posluša Chrisa Martina, bi bil lahko to le še eden izmed množice povsem običajnih in dolgočasni prizor. A ker se je ženska na posnetku obrnila proč in obraz zakopal v roke, moški pa se je sklonil pod kader, je posnetek vzbudil veliko pozornosti. Pevec Chris Martin ga je na odru komentiral z besedami, da sta bodisi zelo sramežljiva bodisi razmerje skrivata – in ostalo je bilo zgodovina.

    Objavljeno: 21.7.2025 05:00
  • ChatGPT-5 bo na voljo avgusta

    Sam Altman, izvršni direktor OpenAI, je potrdil, da bo model GPT-5 izšel že v začetku avgusta. 

    Objavljeno: 25.7.2025 09:00
  • ChatGPT je slab v šahu

    Najboljši šahist sveta Magnus Carlsen je v spletnem dvoboju premagal umetno inteligenco ChatGPT v vsega 53-ih potezah, pri čemer sam ni izgubil niti ene same figure. 

    Objavljeno: 21.7.2025 09:00
 
  • Polja označena z * je potrebno obvezno izpolniti
  • Pošlji