Objavljeno: 22.2.2022 | Avtor: Andrej Troha | Monitor Marec 2022

Nvidia Canvas - Umetna umetnost

Umetni razum (UR) potihoma prodira v vse pore našega življenja. Že nekaj časa pomaga pri zapletenih odločitvah, diagnosticira paciente, krmili logistiko letališč in namesto nas naroča mačjo hrano. Ravnokar se je odločil tudi umetnosti.

Za zdaj nas še ni doletela umetnorazumska različica Černobila, zato zadevi lagodno zaupamo in jo spuščamo v naša življenja. Tudi ko gredo algoritmi »po svoje«, so rezultati večinoma zabavni. Eno takšnih komičnih iztirjenj smo lahko opazovali pred leti, ko se je Microsoftov čvekač (chatbot) Tay v nekaj urah življenja v tvitosferi prelevil iz človekoljuba v supersociopatsko različico Adolfa Eichmanna. Večje škode sicer ni bilo in Microsoft ga je (precej prepozno) evtanaziral, izkazalo pa se je, da je razumeti človeka in človeštvo bolj zapleteno, kot je kazalo.

Sila enostavno okolje Canvasa je prvi namig, kako preprosto je vse skupaj.

Ukazati Alexi, naj ugotovi, kako zakopati truplo soseda, da družina ne postane sumničava, je precej enostavno, prositi jo, naj za tega istega soseda spesni žalno carmen figuratum, pa utegne predstavljati težavo za precej ozko usmerjen Alexin umetni razum. Ne le da je o umetnosti niso poučili, ustvarjalnost (in s tem umetnost) je ena od bolj zapletenih in neraziskanih človekovih veščin. Tudi definicija umetnosti je precej nehvaležna naloga. A preden zaplavamo med algoritme in umetno umetnost, si vseeno dovolimo potunkati prst v te nepredvidljive in tvegane vode ter poskušajmo vsaj približno razumeti, kaj je umetnost.

Kaj je torej umetnost?

Tole v mednaslovu je morda najbolj idiotsko vprašanje, kar jih je sploh moč zastaviti. Za odtenek manj idiotsko vprašanje bi bilo, kaj je namen umetnosti.

Avtor teh vrstic, na zgražanje večine, z vso vnemo ostro loči med obrtjo in umetnostjo. Dolga stoletja, bolj ali manj do larpurlartizma, je bila umetnost na ravni obrti. Lepo poslikani sakralni objekti, brezhibno izklesani svetopisemski junaki in naročniku všečni portreti, vendar pa je bil pri vseh teh delih production value bistveno nad sporočilnostjo. In ravno v tej dodani vrednosti, sporočilnosti, se skriva vrag.

Umetnost ali obrtniško dodelan kip?

Kaj v resnici novega sporoča Michelangelov David? Nič. Prav nič. Vidimo ga točno tako, kot ga opisuje Stara zaveza: rahlo prestrašenega, a odločnega pred bojem z Goljatom. Je David anatomsko perfekten? Seveda. So žile na njegovi roki nabrekle? Jap. Stoji v idealnem kontrapostu? Mhm. Vse to je res in vse to je super, vendar gre za le za naročen, obrtniško vrhunsko dodelan kip. Na njem ni nič disruptivnega, je pač lep kip.

Video

Kako je videti »umetno razumsko« risanje v Nvidia Canvas, si lahko ogledate na tem video posnetku: www.monitor.si/canvas.

Naloga umetnosti pa je, da nas prestavi iz cone udobja, da nam zastavlja vprašanja, opozarja na težave družbe, nam približa mejno znanost … Umetnost mora imeti družbeni pomen. Banksyjeva dela, denimo, so tehnično (namenoma) naivna, production value je blizu ničle, vendar so tako disruptivna kot malo katera sodobna. Punk je v poznih 70. povzročal hematome v ušesih klasično šolanih glasbenikov, vendar je bila pankerska kritika družbe tako močna, da je bilo katastrofalno »fušanje« frontmenov nepomembno in obupno odigrani kitarski rifi takoj preslišani (če še niste jedli, na Youtubu poiščite Via Ofenziva, Novi Rock, 1983).

Dve freski, Michelangelova in Banksyjeva. Prva je obrtniško bolj ali manj sprejemljiva svetopisemska okrasitev cerkve, druga ima družbenokritični naboj in politično težo, o kateri bi Michelangelo lahko le sanjal.

In umetnost, ki jo trenutno generira umetni razum, je točno na ravni obrti. Kot risar na rivi v Poreču je ali kot Atomik Harmonik na gasilski veselici: nihče od njih ni umetnik, so pa dobri obrtniki. S tem seveda ni nič narobe, dokler tega ne imenujemo umetnost. Obrtniškega dela se vedno drži nezmotljiv občutek že videnega ali pač že slišanega. Praktično vsak narodnozabavni komad ima to lastnost, torej občutek že slišanega, saj je glasba izdelana v skladu z določenim žanrskim pričakovanjem, po določenih normah, konvencijah in črpa iz že znanega in všečnega ... In točno na tem temelji UR.

Umetnost v UR

Trenutno nedosegljivi in najbolj nesnovno-čarobni lastnosti človeka sta torej njegova ustvarjalnost in čustvenost.

So vas prosili, da oblikujete ovitek za glasbo iz filma Apokalipsa zdaj, pa ste se ravno odpravili peljat psa na sprehod? V GauGAN2 vtipkajte »foggy forest with sunrise«, sliko shranite, nasujte helikopterje po okusu in dodajte napis. Čas priprave: minuta in 10 sekund.

Ljudje in programerji so pri snovanju ter učenju umetnega razuma v zadnjih nekaj letih precej napredovali. In povsem mogoče je, da bi že danes ozki umetni razum, kakršna je Alexa, z levo roko opravi prilagojen Turingov test. Ozki UR je danes prisoten v domačih in osebnih asistentih, ustvarjenih za reševanje zelo ozkega nabora problemov. In glede na to, da Alexi, Siri in Cortani zastavljamo preprosta (pogosto zgolj faktografska) vprašanja, se zdi, kot da govorimo s človeškim sogovornikom.

Precej bolj zapleten pa je splošni umetni razum (SUR, angleško AGI), čigar kompleksnost je enaka kompleksnosti človekovih možganov. Alexe ne obremenjujemo z eksistencialnimi krizami, s čustvi in z bizarnostjo včerajšnjih sanj, v katerih Edvard Kardelj nastopa kot skrivnostni prodajalec rib. Za takšne stvari pač ni sprogramirana, medtem ko bi se s splošnim umetnim razumom zlahka zapletli v skrajno subjektivno in čustveno debato o Speransovi vlogi v naših sanjah in mesnopredelovalni industriji.

Ovitka dveh fiktivnih »plat« z malce bolj abstraktnim pridihom, izdelana s Canvasom. Čas priprave za posamezno jed: 40 sekund.

Trenutno je UR na področju »umetnosti« zelo ozek. Podobno kot narodnozabavni ansambli črpa iz nabora že obstoječega in iz te materije poskuša sestaviti nekaj »novega«. A tega »novega« se v vsakem primeru drži priokus že videnega.

Žal trenutno od UR-modelov ne moremo pričakovati radikalnih presežkov in česa res svežega, ne videnega. Za razumevanje, zakaj je tako, lahko naredimo preprost miselni poskus: denimo, da smo leta 1910 in imamo tehnologijo UR, kakršna nam je na voljo danes. V referenčno bazo naložimo vse slike, ki so jih človeški možgani in roke nakracali na bolj ali manj ravno površino. Od prvega pljuvanja barve v jamah do Picassovega Kitarista. Imamo torej bazo, iz katere lahko algoritmi UR črpajo in izrišejo novo »umetnino«. Slike bodo drugačne od že videnih, vendar nobena od njih ne bo tako radikalna, kot je, denimo, Malevičev Črni kvadrat, ki je nastal le nekaj let po našem poskusu. Malevičevo radikalno umetnino bi zavrnitveno-ustvarjalniški (GAN) model gladko zavrnil kot nepravo in umetno generirano. Algoritem namreč preferira že videno in zavrača neznano. In ravno v tem je kavelj 22.

Zavrnitvena ustvarjalnost

Med vsemi področji umetnega razuma je napredek še najbolj viden (nenamenska besedna igra) v razvoju modelov za generiranje slik oziroma fotografij. Kljub navidezni preprostosti je generiranje slik precej zapleteno, saj vsebujejo različne elemente, denimo prvi plan, ozadje, predmete različnih velikosti, snovi v interakciji in še kup drobnarij. Medsebojni vplivi teh elementov naredijo generiranje slik zahtevno, zato lahko postopek hitro postane težaven, dolgotrajen in brez pravega rezultata. Z uporabo tehnik globokega učenja pa se je, kot rečeno, v zadnjih letih ta proces občutno izboljšal. Na tem področju so novi ustvarjalnostni modeli prišli v ospredje zaradi izjemne prepričljivosti, ki jo pri generiranju slik lahko dosežejo. Najuspešnejši model za ustvarjanje realističnih naravnih slik z uporabo nevronskih mrež so trenutno zavrnitveno-ustvarjalniške mreže (ZUM, po domače GAN oziroma Generative Adversarial Networks), v naši literaturi pogosto precej okorno prevedene v »generativne nasprotniške mreže«. To izjemno ogrodje je s kolegi sredi leta 2014 iznašel Ian Goodfellow, tedaj star rosnih 29 let.

Zavrnitveno-ustvarjalniške mreže so del razreda metod, ki se učenja ustvarjalniških modelov lotevajo s teorijo iger in generirajo slike iz slikovnega šuma. ZUM deluje tako, da istočasno usposablja dva modela, ustvarjalnega in zavrnitvenega (generator in diskriminator), pri čemer se modela medsebojno izboljšujeta. Zelo poenostavljeno ZUM deluje tako, da ustvarjalni model generira sliko in jo preda zavrnitvenemu modelu. Ta z uporabo obsežnega nabora pravih slik ugotovi, ali gre za lažno ali pravo sliko. Cilj je postopek ponoviti tolikokrat, dokler ustvarjalni model zavrnitvenega modela ne pretenta in ta »misli«, da gre za pravo sliko. Gre za nekakšno antagonistično igro oziroma igro z ničelnim izidom (zero-sum game).

Arhitektura vodi do samodejno naučenega, nenadzorovanega ločevanja lastnosti na visoki ravni ne glede na nepredvidene spremembe le-teh. Ob pomoči takšne arhitekture lahko dosežemo izdelavo velike zbirke slik, ki niso zaščitene z avtorskimi pravicami, ali pa sproti generiramo vsebinsko ustrezne slike, ki jih potrebujemo. Eno takšnih orodij je Nvidijin Canvas, ki temelji na modelu GauGAN2.

Kako temu streže Nvidia!

In bil je večer in bilo je jutro, tretji dan. Canvas je samostojna aplikacija tega, kar nudi Nvidia na spletni strani gaugan.org/gaugan2. Bistvene razlike med obema načinoma dela ni, je pa Canvas bistveno hitrejši kot spletna različica, ki pa ima stalne nadgradnje, kar se kaže v nekaj funkcijah, ki ji samostoječi Canvas nima. Ta bo od zahteval nekaj več kot 2,5 gigabajta prostora na disku in eno od novejših Nvidijinih kartic RTX. Če česa od tega nimate, se ne trudite s prenašanjem namestitvene datoteke.

Delovno okolje spletne različice GauGAN2 omogoča nekaj več funkcij, je pa zadeva precej počasna in tudi vmesnik zahteva dobre živce.

Orodji sta izjemno preprosti, kar je tudi namen prikaza sposobnosti tega modela. Osnovno delovno okolje je razdeljeno na dve okni in nekaj orodij. Na desno, vhodno, površino nanašamo prej izbrane materiale in objekte (voda, pesek, sneg, hribi …) v obliki sila preproste skice. S »sila preprost« mislim na zelo predšolski nivo, tam nekje med četrtim in petim letom starosti. Pri samostoječi aplikaciji se bodo spremembe dogajale sproti, pri spletni pa bo treba klikniti na ikono s puščico. Žal boste vsi, ki ste brez Nvidie RTX, zamudili ravno ta najbolj neverjetni in čarobni del modela GauGAN2, torej nastajanje fotografije hkrati z risanjem skice.

Takšno sprotno risanje fotografije je zares neverjetno in človeka hitro potegne v nekajurno igranje in ustvarjanje. Zanimive so tudi napake, ki jih delamo, a se nato izkažejo za nekaj povsem drugega. Kot bi rekel genij svoje obrti Bob Ross: »Napak ni, so le vesele nezgodice.«

Model trenutno zmore proizvajati slike v ločljivosti 1.024 x 1.024 pik, kar se zdi malo, vendar moramo upoštevati, da GauGAN2 uporablja na desettisoče visoko ločljivih slik, iz katerih jemlje delce in jih lepi na nastajajoči mozaik. Če nam velikost ne ustreza, jo lahko povečamo s katerim od umetnorazumskih povečevalnikov (AI upscaler).

Invidia je torej prišla do starozaveznega tretjega dne, torej ustvarjanja kopnega, neba in rastlinja. Omejenost na krajine in vedute je tudi druga večja pomanjkljivost tega orodja. To pomeni, da ne zmore narisati letala v zraku, ljudi na parkirišču ali česa podobnega. Razlog je ponovno v količini podatkov, s katerimi se še da manipulirati. Upoštevati pa moramo, da gre za prikaz tehnologije in ne za končno orodje. In ta prikaz je osupljiv.

Sliko, ki jo je generiral GauGAN2, smo še obdelali s Topazovim AI Studiem in dobili nekaj, kar bi lahko viselo nad posteljo v ceneni hotelski sobi.

Mogoče pa je narisano pokrajino prikazati v več različnih »stilih«, od puščavskega, prek tihomorskega do goratega. Vira svetlobe še ni moč upravljati kot tudi ne pozicije kamere, vendar, kot rečeno, gre za tehnologijo v povojih in v tem desetletju se bomo zagotovo poslovili od fotografskih bank (stock photo) in si sproti narisali točno takšno fotografijo, kot nam ustreza. Pa tudi z avtorskimi zaščitami ne bo obremenjena. What a time to be alive, bi rekel Károly Zsolnai-Fehér.