Če bi četdžipiti vprašali, kako bo umetni razum (UR) vplival na človeštvo, bi si, samo za ta namen, ustvaril oči in z njimi zavil ter izpisal, da niti slučajno ne namerava ponavljati vsega, kar je že neštetokrat (na)povedal.

Še pred nekaj leti, morda meseci, s(m)o se norčevali iz umetnorazumsko ustvarjenih slik, češ »poglej, koliko prstov ima«, »zakaj ima tri noge«, »kje pa je četrta guma«, ob vseobsegajočih »aaahhha haha, bedno«. Vsekakor lepi časi ignorantske, v prihodnosti verjetno znane preskynet romantike.
Že danes pa je malo herojev, ki bi si upali brez orodij, kot je Hive moderation, suvereno oceniti, ali so besedila in slike resnični ali 'le' plod domišljije umetnega razuma. Tako ustvarjene vsebine so danes praktično neločljive od organskih (beri: človeško ustvarjenih).
Vendar ima desna, (kvazi) kreativna možganska polobla še vedno nekaj navidezne rezerve. V prejšnji številki smo se dotaknili generiranja trirazsežnih umetnorazumskih teles (počakam, da se jezik razvozla) in ugotovili, da je zadeva na zelo embrionalni stopnji. Na malce višjo, morda fetalno, smo postavljali umetno ustvarjene videoposnetke. Še do nedavna so bili ti izdelki precej ubogi in zdelo se je, da je filmska produkcija trdnjava, ki ji umetni razum še nekaj časa ne bo mogel do živega.
A prvi znaki 'težav' so se pojavili že davnega februarja 2022, ko je Runway predstavil Gen-2, prvi komercialno dostopen ustvarjalnik videoposnetkov z umetnim razumom. Za naslednji potres so poskrbeli pri PikaLabs s svojo Piko 1.0, ki je, kot precej ostalih, temeljila na modelu Stable Video Diffusion. Naslednji mejnik je bila letošnja Sora izpod tipkovnic umetnorazumskih mojstrov pri OpenAI. Čeprav je Sora še vedno v polstabilni (beta) različici, so razvijalci pokazali, kako pomembni so obsežni računalniški resursi in gigantski nabor podatkov.
Pregovorni žebelj v krsto pa je nedavno zabil Google s tretjo različico modela Veo. Ta bi verjetno ostal podobno (ne)opazen kot njegovi vrstniki in predhodniki, če Netflix ne bi 'priznal', da je Googlov model uporabil pri eni od svojih nadaljevank (The Eternaut). Tu so, brez 3D-fizike in modeliranja, 'podrli' eno od stavb v strupeno zasneženem Buenos Airesu. In to za vsaj desetkrat manj denarja kot z uveljavljenimi najcenejšimi tehnikami VFX (verjetno s kakšnimi indijskimi 3D-učinki). Netflix je bil tako prva resna produkcijska hiša, ki se je 'zatekla' k umetnemu razumu (in to uradno priznala). Tako sta se umetnorazumski video in strah pred njim ponovno znašla na naslovnicah. Pisci in novinarji so Veo 3 z enako mero raztrgali in hvalili.
A Veo 3 ni edini ustvarjalnik videoposnetkov. Teh je kar nekaj. Noben v primerjavi z Googlom sicer ne seže prav visoko, a so vsekakor vredni omembe in ocene.
Modeli, ustvarjalniki in kako do njih
Ustvarjalniški modeli so brez uporabniškega vmesnika precej … hmm … neuporabni. Precej se jih je sprva zateklo k družbenim platformam, kot je Discord. Tam, denimo, se je zataknil izvrstni Midjourney. A uporabniška izkušnja je na teh platformah precej slaba. Ena od alternativ so zbirne spletne strani, agregatorji, ki ponujajo širok nabor modelov pod eno streho. Eden takšnih je španski Freepik, ki je tudi osnova naših testiranj. Freepik je bil še do pred nekaj let precej obskuren iskalnik zastonjskih fotografij za škrte dizajnerje. A s pojavo skoraj zastonjskega DALL-E 2 je Joaquín Cuenca Abela, eden od ustanoviteljev, z glasno izjavo »Oh shit, this is real«, celotno zadevo premaknil v okolje umetnega razuma. Pod tem okriljem so, proti plačilu, kakopak, na voljo praktično vsi omembe vredni ustvarjalniki umetnorazumskih videov. Oglejmo si štiri najkakovostnejše, od povprečnih do nadpovprečnih.
Zrcalce, zrcalce na steni, povej, kdo najboljši v deželi je tej
Wan 2.2

Wan, izdelek Tongyi Laba (del Alibabe), je na področju umetnorazumskega videa nekoliko podcenjen, vendar ponuja vrsto impresivnih funkcij, vključno doslednim upoštevanjem opisa.
Vključuje uporabniku prijazen vmesnik (sicer neopazen pod Freepikom) in je ena najcenejših platform, ki ponuja neomejeno število generacij tudi pri nižjih paketih. Vključuje tudi orodje za slikanje z UR, ki uporabnikom omogoča spreminjanje posameznih področij videa s prilagajanjem barv, tekstur in elementov, s čimer izboljša in preoblikuje vizualno vsebino.
Monitor.si/VideoUI_WAN
Za: Cena, upoštevanje prompta.
Proti: Artefakti in težave pri podaljševanju videa.
MiniMax Hailuo 02

MiniMax je eden boljših video ustvarjalnikov. Dosledno upošteva opis, obenem pa nudi 'režiserski način', ki uporabnikom omogoča večji nadzor nad ustvarjanjem videoposnetkov. Tako lahko podrobno prilagajamo prizore, gibe in interakcije likov, kar zagotavlja, da je končni rezultat precej usklajen z uporabnikovo vizijo.
www.monitor.si/VideoUI_Minimax
Za: Hitro dostavi precej dobre rezultate.
Proti: Dolžina videov je omejena na šest sekund.
Kling 2.1 Master

Model Kling odlikujeta izvrstna dinamika in fizika. Je eden najboljših umetnorazumskih video modelov, ki so trenutno na voljo, saj blesti v vizualnem realizmu in gladkem gibanju. Ponuja dodatne funkcije, kot sta sinhronizacija ustnic za dialoge (lip sync) in možnost podaljševanja posnetkov.
Klingovi videoposnetki so običajno videti zelo realistični, četudi ne upoštevajo opisa. Vključujejo boljše teksturiranje in osvetlitev kot drugi modeli z bolj doslednim gibanjem. Žal pa ostajajo težave z gibanjem teles (ljudje, živali …), vendar je na splošno boljši od tekmecev.
Monitor.si/VideoUI_Kling
Za: Vrhunski videi, dinamika.
Proti: Počasno generiranje videa.
Google Veo 3

Googlov Veo 3 močno izstopa in je tudi z naskokom najdražji. A nudi precej možnosti, ki jih ostali ne, med drugim ustvarjanje zvočnih učinkov na podlagi generiranega videa. Zadeva je impresivna in tudi zelo, zelo uporabna.
Veo 3 dosledno sledi navodilom, lahko pa mu prepustite videografsko svobodo. Veovi posnetki imajo globino, kamera se premika z namenom, vse je, kot bi sekvenco režiral dober režiser. Tudi kompozicija mu ni tuja, vsak kader je uravnotežen in harmoničen.
Monitor.si/VideoUI_Veo3
Za: Daleč najboljši rezultati, vrhunski videi, podaljševanje posnetkov.
Proti: Počasno generiranje videa, visoka cena (kakšna trenutno je, preverite, a se pripravite na blažji šok).
Midjourney

Freepik v svoji paleti sicer ne ponuja svežega Midjourneyjevega videa, zato moramo ponj prek midjourney.com ali pa (še vedno) prek Discorda. Proces je precej enostaven. Najprej na klasičen način ustvarite sliko oziroma štiri različice, ki vam jih Midjourney ponudi. Ko izberete eno (gumb U+številka), orodje ponudi ponovno 'klasičen' izbor nadgradenj, ob tem pa še dve izbiri: animate (low motion) in animate (high motion). Prva izbira iz izbrane slike naredi štiri videe, kjer je gibanje precej omenjeno, kamera je statična in tudi znotraj kadra je scena precej umirjena. Druga možnost, high motion, pa iz izbrane slike naredi štiri animacije, ki so bistveno bolj dinamične. Težava je, da ni vmesne možnosti, saj sta low in high zelo skrajni, vmesne pa (še) ni.
Monitor.si/VideoUI_Midjourney
Za: Del izjemnega Midjourneyja.
Proti: Dve skrajnosti gibanja, precej začetniška animacija, omejitev na pet sekund z zelo slabim širjenjem, zelo očiten umetnorazumski pridih.
'Prompt', ključ do uspeha
Prompt ali opis je niz želja, lahko v stavku ali zgolj suhoparno, faktografsko, ki opisujejo želeno sceno. S tem nizom umetnemu razumu povemo, kaj naj ustvari. Pomembno je razumeti (vsaj) dve stvari: zadeve potekajo večinoma v angleščini in želje opisujte v jeziku videastov, režiserjev, lučkarjev, snemalcev, direktorjev fotografije …
Če ustvarjalnik prosite za »stunning cinematic video of a beach at sunset«, je to sicer precej lepo in lirično, vendar precej nedefinirano. Takšni bodo tudi rezultati. Namesto nejasne želje poskušajte biti bolj jasni, opis (prompt) »wide establishing shot of a beach at golden hour, camera slowly panning left« bo nedvomno dal boljše rezultate. Kot rečeno, uporabljajte privzete kinematografske izraze. Pri sodobnih ustvarjalnikih, kot sta Veo 3 ali Kling, gre tako imenovani AI look pripisati slabemu opisu in ne toliko ustvarjalniškemu modelu. Sledi nekaj nasvetov, kako umetnemu razumu razložiti, kaj hočemo (seveda v angleščini):
Kot in pot kamere:
Establishing shot – Širok kader, ki opiše, kje se scena dogaja (ulica, fasada hiše …). Primer: establishing shot of a busy street in the morning sun.
Close-up – Bližnji posnetek, detajl. To je lahko obraz, roka, del motorja … Primer: close-up of an old man's wrinkled hand.
Wide shot / Long shot – Pokaže subjekt v naravnem okolju. Primer: long shot of a horse in the field.
Over-the-shoulder – Kamera je za protagonistom, nekako nakaže, kaj igralec (subjekt) vidi. Primer: over-the-shoulder shot watching a man speak.
Tracking shot / Dolly shot – Kamera drsi po tračnicah (vozičku) in sledi subjektu. Primer: dolly shot fo a man walking in front of a building.
Crane shot – Dinamičen posnetek, kot bi kamera lebdela. Primer: sweeping crane shot of a racing car.
Static shot – Ni gibanja kamere, kader je statičen. Primer: static shot of man and woman arguing.
Zoom in/out – Približevanje ali oddaljevanje od objekta/subjekta zgolj z uporabo lečja (brez dollyja). Primer: fast zoom into a man's eye.
Handheld camera – Stresen kader, ki je videti dokumentarno. Primer: handheld shot of a man running.
POV shot – Posnetek s točke gledišča (point of view), prvoosebni pogled. Primer: POV shot of a ski downhill, GoPro-style realism, immersive movement.
Dutch angle – Kamera je postavljena pod kot tako, da horizont ni raven. Primer: robbers running down the street, dutch angle.
Svetloba in atmosfera:
Low-key lighting – Slika je temnejša, lahko prikazuje mučno, svinčeno atmosfero ali noč. Primer: interior of an industrial building, low key light.
High-key lighting – Slika je svetla, lahko tudi presvetljena. Deluje optimistično in lahko, poletno. Primer: spring meadow with yellow flowers, high key.
Natural light – Naravna svetloba.
Backlighting – Svetloba, ki prihaja za objektom/subjektom, poudari obrise, silhuete. Primer: people walking across the shot, silhouettes, backlight, godrays.
Lens flare – Izriše lom svetlobe v lečju objektiva. Načelno je nezaželena, a doda realistični videz. Primer: dolly shot form right to left over a rice field, lens flare.
Cinematic glow – Slika je mehka, brez izrazitih robov, učinek je med domačimi filmarji znan kot 'najlonka'. Primer: slow motion of a woman running, warm cinematic glow.
Film grain – Sliki doda zrnatost in jo naredi realnejšo. Podobni učinki so tudi VHS effect, polaroid look in podobni. Primer: black and white panoramic shot over a industrial setting, heavy film grain.
Torej
Kling 2.1 in predvsem Googlov Veo 3 sta trenutno brez konkurence. Tako po kakovosti kot tudi (žal) po ceni. Vendar je to vagon vlaka, ki bo kmalu odpeljal. Tako kot je bilo okoli leta 2000 neumno investirati v razvijalko analognih filmov in precej bolj pametno v digitalno fotografijo, je danes smiselno obvladati umetnorazumsko video produkcijo.