Objavljeno: 30.11.2023 07:00

Stable Video Diffusion iz slik dela videoposnetke

Stability AI je razvil nov algoritem Stable Video Diffusion, ki omogoča predelavo slik v kratke videoizseke. Gre za amalgam dveh modelov, ki uporabljata tehnologijo image-to-video. Model je dostopen z vsemi parametri, zato ga lahko poganjamo lokalno. Teče na zmogljivejši Nvidiini grafični kartici.

Lani je iz iste hiše prispel algoritem Stable Diffusion, ki je omogoča izdelavo slik po besedilnem opisu. Ker so parametri javno objavljeni, lahko model uporablja vsakdo, prav tako ga je možno spreminjati. Sledila je kopica predelanih verzij, ki so bile specializirane za različne nišne potrebe.

Stable Video Diffusion ima dva modela. Eden iz slike izdela videoposnetek s 14 sličicami (SVD), drugi pa 25 sličic (SVD-XT). Frekvenca je lahko kjerkoli med 3 in 30 sličicami na sekundo, torej so rezultati največkrat dolgi od 2 do 4 sekunde v ločljivosti 576 x 1024 v formatu MP4.

Generiranje kratkega videoposnetka traja približno pol ure na Nvidii RTX 3060, kar lahko s poganjanjem v oblaku (npr. Hugging Face) bistveno skrajšamo. Rezultat je venomer presenečenje. Običajno glavno slike ostane statična, spremeni pa se na primer ozadje, kjer začne deževati, lahko se centralni objekt približa in podobno. Drastičnih sprememb torej ni. Nekaj podrobnosti o algoritmu lahko preberemo tudi v znanstvenem članku, kjer opisujejo velikost vhodne baze podatkov kot 600 milijonov vzorcev v skupni dolžini 212 let.

Stable Video Diffusion ni prvi tovrstni model. Svoje so že predstavili Meta, Adobe, Google in drugi. Najboljši je trenutni Runway Gen-2. Naslednja meja bo text-to-video. Razvoj že poteka.

StabilityAI

Naroči se na redna tedenska ali mesečna obvestila o novih prispevkih na naši spletni strani!

Komentirajo lahko le prijavljeni uporabniki

 
  • Polja označena z * je potrebno obvezno izpolniti
  • Pošlji