Objavljeno: 12.9.2016 01:00

Google DeepMind omogoča boljšo sintezo govora

Google je našel še eno zanimivo in nadvse koristno uporabo svoje platforme za umetno inteligenco DeepMind. S pomočjo tehnologij nevronskih mrež in strojnega učenja so razvili novo tehnološko ogrodje imenovano WaveNet, s katerim uspejo pričarati računalniško generirano sintezo govora, ki zveni bistveno bolj naravno, kot dosedanje tehnologije na tem področju. Google trdi, da je po njihovih ocenah WaveNet 50% bližje človeškemu govoru, kot karkoli drugega doslej.

Na področju sinteze govora so proizvajalci, med katerimi je Google nadvse aktiven, uporabljali različne metode. Google je doslej uporabljal zlasti algoritem združevanja različnih glasov, ki tvorijo posamezen fonem, vendar tak pristop ustvarja preveč robotski govor, ki ne vsebuje čustev in variacij pri izgovorjavi.

Izboljšava metode združevanja je parametrična metoda, kjer so podatki o pravilni izgovorjavi shranjeni za vsako kombinacijo besed izrečenih v nekem kontekstu. S tem so kvaliteto govora sicer izboljšali, a so bili uspešni predvsem pri ne-zlogovnih jezikih, kot je kitajščina, precej manj pa pri zlogovnih, kot je angleščina.

Nov pristop z imenom WaveNet deluje na precej drugačen način, saj modificira posamezen vzorec v nizu zvočnih vzorcev glede na parametre izračunane v nevronski mreži in pridobljene z vzorčenjem ter strojnim učenjem. Če imamo denimo sintezo s frekvenco 16.000 Hz, WaveNet prilagodi prav vsakega od 16.000 vzorcev. Programerji so vgradili v izgovorjavo celo take elemente, kot so premik ust pri izgovorjavi in dihanje med govorom, kar najbolje oponaša človeški govor.

Da bi pokazali, kako dober je nov algoritem, so pri Googlu izvedli test z naključno izbranimi posamezniki, ki so ocenjevali 100 izgovorjenih stavkov, brez da bi vedeli, kateri sistem ali človek jih izgovarja. Rezultati pričajo, da WaveNet sicer še ni dosegel prisotnosti človeškega govora, je pa močno zmanjšali razkorak.

Novo tehnologijo bo Google najbrž postopoma uporabil v svojih izdelkih in spletnih storitvah, denimo pametnih pomočnicah, pametnih telefonih, še zlasti pa računalniških napravah, kij nadenemo in je sinteza govora primarni način interakcije z uporabnikom. Trenutno je glavna ovira še razmeroma visoka procesna moč, ko je potrebna za uporabo algoritma WaveNet, kar pa naj bi razrešili z novimi generacijami računsko intenzivnih računalnikov (HPC), ki jim cena v zadnjem času močno pada.

Več novic

Naroči se na redna tedenska ali mesečna obvestila o novih prispevkih na naši spletni strani!

Komentirajo lahko le prijavljeni uporabniki

Najbolj brano

  • Severna Koreja s kriptovalutami in lažnimi zaposlenimi nakradla milijarde

    Za razliko od praktično vseh ostalih držav se Severna Koreja v veliki meri zanaša na internetni kriminal in kriptoprevare za financiranje delovanja države in izogibanje sankcijam. Tudi eden večjih letošnjih vdorov, ko so neznanci z borze Bybit ukradli za poldrugo milijardo dolarjev kriptovalute ether, je bil plod Severne Koreje.

    Objavljeno: 27.10.2025 07:00
  • Zakaj nihče ne mara Applovih in Samsungovih tankih telefonov?

    Applov najnovejši in najtanjši iPhone Air, ki v debelino meri le dobrih pet milimetrov in tehta 165 gramov, je čudo tehnike, a ga začuda ljudje niso radostno sprejeli. Medtem ko se iPhone 17 Pro in iPhone 17 Pro Max prodajata rekordno, klasični iPhone 17 pa prav tako žanje visoke številke, iPhone Air zapostaja.

    Objavljeno: 20.10.2025 05:00
  • Nvidia: Kitajska je za nas mrtva

    Nvidijin direktor Jensen Huang je dejal, da je tržni delež podjetja na Kitajskem hitro padel s 95 odstotkov na ničlo. To ni presenetljivo, saj izvoz na Kitajsko prepoveduje kar ameriška administracija. A to v resnici ni čisto res, saj po drugi strani več kot četrtino prodaje predstavlja izvoz v Singapur – od koder na Kitajsko vodijo neuradne poti.

    Objavljeno: 20.10.2025 07:00
  • Popolnoma drugačno električno kolo

    Rivianovo hčerinsko podjetje Also, specializirano za mikromobilnost, je predstavilo inovativno električno kolo TM-B (Transcendent Mobility - Bike), ki obljublja povsem novo izkušnjo vožnje. 

    Objavljeno: 23.10.2025 16:00
  • V Londonu vam bodo verjetno ukradli telefon

    Samo v lanskem letu so v Londonu ukradli 80.000 pametnih telefonov, kar je v milijonski metropoli sicer malo, a vseeno precej več kot v drugih podobno velikih mestih v Evropi. In približno tretjino več kot leto pred tem. Trend je torej zaskrbljujoč.

    Objavljeno: 23.10.2025 05:00
  • SD-kartica na dnu Atlantika preživela implozijo Titana

    Raziskovalci so na dnu Atlantskega ocena v bližini razbitine Titanika našli SanDiskovo spominsko kartico SD, s katere so lahko sneli 12 fotografij in devet videoposnetkov. Kartica je tja potonila pred dvema letoma, ko je implodirala podmornica Titan, s katero je podjetje OceanGate želelo obiskati razbitine slavnega parnika.

    Objavljeno: 22.10.2025 05:00
 
  • Polja označena z * je potrebno obvezno izpolniti
  • Pošlji