Objavljeno: 27.12.2020 20:00 | Teme: umetna inteligenca

DeepMind po šahu, goju in šogiju obvlada tudi igre za Atari

Morda se ne zdi tako, a igrati šah je bistveno laže od igranja še tako primitivne videoigre, kot je na primer Pac-Man. Zato ni presenetljivo, da je umetna inteligenca šah obvladala že leta 1997, igro go leta 2016, videoigre pa – DeepMind pravi, da sedaj.

Razlika je predvsem v togosti okolja, v številu možnih potez, v možnih izidih. Pri šahu in goju so dovoljene poteze zelo dobro znane, njihovo število pa obvladljivo. Go je seveda bistveno kompleksnejši od šaha, a osnovni koncept ostaja enak. Iz zelo jasno določenih pravil se da hitro ugotoviti, katere poteze so dovoljene, od tod pa ostane le premislek, katera bo vodila do najboljšega izida.

Googlova podružnica DeepMind je že leta 2016 predstavila AlphaGo, ki je v goju zmlel človeškega prvaka. AlphaGo Zero je bil naslednja inačica, ki se ni učila iz tisočerih dobro odigranih partij ljudi, temveč je igrala sama s seboj in se izboljševala. AlphaZero je to kasneje še razširil na druge probleme.

Naslednji korak pa so predstavljale manj definirane igre, kot že omenjeni Pac-Man. Novi algoritem so predstavili te dni in ga poimenovali MuZero. V Nature so znanstveni članek objavili 23. decembra, kar seveda pomeni, da je bil algoritem nared že pred meseci, sedaj pa je še boljši.

MuZero uporablja kombinacijo metod, ki so jih izmojstrili njegovi predhodniki, in dodaja nove. Igranja se uči podobno kot otroci, torej najprej brez pravil, kasneje pa sproti osvaja pravila, dokler ne pozna vseh. Sproti se uči čim boljše strategije. Ko je odigral milijon partij, je bil podobno dober kot AlphaZero v šahu, goju in šogiju.

Ključna novost pa je, da se je naučil tudi 42 iger za Atari. To so bistveno bolj odprti problemi, kjer so pravila ohlapnejša, konfiguracijski prostor dopustnih potez širši, končni cilj pa bolj oddaljen. Končni cilj seveda ni izdelati algoritma, ki bo igral igre za Atari, temveč reševanje realnih problemov. Zvijanje proteinov, optimizacija problema trgovskega potnika, stiskanje podatkov itd. To so problemi, kjer pravil v igri ni, le končni rezultat mora biti v skladu z začetnimi predpostavkami in potrebami. Kompleksne probleme iz realnega sveta je lažje reševati, če pravil ne poznamo, saj nas pravila lahko vkalupijo in usmerijo na suboptimalne poti ali celo v slepe ulice.

 Nature

DeepMind

Več novic

Naroči se na redna tedenska ali mesečna obvestila o novih prispevkih na naši spletni strani!

Komentirajo lahko le prijavljeni uporabniki

Najbolj brano

  • Kaj se zgodi, če Samsungov Galaxy Z Fold prepognete 200.000-krat?

    Ustvarjalec vsebin tech-it je s prenosom v živo na YouTubu izvedel maratonski test, v katerem je ročno odprl in zaprl Samsung Galaxy Z Fold 7 kar 200.000-krat

    Objavljeno: 8.8.2025 10:00
  • Programerska naloga, ki je ni rešil nihče

    Vsako leto se najboljši dijaki v programiranju na svetu merijo na olimpijadi iz informatike, kjer nastopa tudi slovenska ekipa. Tekmovalci v dveh tekmovalnih dneh rešujejo šest nalog, kodo pa pišejo v jeziku C++. Ene izmed nalog letos ni rešil nihče izmed 330 tekmovalci.

    Objavljeno: 6.8.2025 07:00
  • Linus Torvalds spet ponorel

    Linus Torvalds, izumitelj in še vedno glavni skrbnik Linuxa, je vedno slovel kot vzkipljiv človek, zato tudi njegov zadnji izbruh ni zelo presenetljiv. Ob pripravi nove verzije jedra 6.17 jih je pošteno napel Palmerju Dabbeltu, ki je predložil kopico popravkov za RISC-V. Torvalds je, milo rečeno, ponorel.

    Objavljeno: 14.8.2025 05:00
  • Xiaomi predstavil pametni ventilator

    Xiaomi je v poletni vročini za evropske trge predstavil Smart Desktop Air Circulation Fan, kompakten pametni ventilator, zasnovan za močan pretok zraka v manjših prostorih. 

    Objavljeno: 6.8.2025 11:00
  • Microsoft bo ukinil enoto GitHub

    Ko je Microsoft leta 2018 prevzel GitHub, se ni nič bistvenega spremenilo, saj je ostal samostojna enota z istim direktorjem. A Thomas Dohmke, ki je od leta 2021čas vodil GitHub, je napovedal odhod iz podjetja, saj ima druge podjetniške cilje. Microsoft zamenjave ne bo iskal.

    Objavljeno: 13.8.2025 05:00
  • Izobraževanje zaposlenih za prepoznavanje ribarjenja je neučinkovito

    Ker so zaposleni eden najučinkovitejših vektorjev za vdore v poslovne sisteme, so različne delavnice, tečaji in urjenja, kako prepoznati ribarjenje (phishing) zlasti v večjih podjetjih postala del rednega izobraževanja. A raziskovalci z Univerze v San Diegu so pokazali, da je uspeh tovrstnih izobraževanj sila pičel.

    Objavljeno: 18.8.2025 07:00
 
  • Polja označena z * je potrebno obvezno izpolniti
  • Pošlji