Objavljeno: 30.11.2023 07:00

Stable Video Diffusion iz slik dela videoposnetke

Stability AI je razvil nov algoritem Stable Video Diffusion, ki omogoča predelavo slik v kratke videoizseke. Gre za amalgam dveh modelov, ki uporabljata tehnologijo image-to-video. Model je dostopen z vsemi parametri, zato ga lahko poganjamo lokalno. Teče na zmogljivejši Nvidiini grafični kartici.

Lani je iz iste hiše prispel algoritem Stable Diffusion, ki je omogoča izdelavo slik po besedilnem opisu. Ker so parametri javno objavljeni, lahko model uporablja vsakdo, prav tako ga je možno spreminjati. Sledila je kopica predelanih verzij, ki so bile specializirane za različne nišne potrebe.

Stable Video Diffusion ima dva modela. Eden iz slike izdela videoposnetek s 14 sličicami (SVD), drugi pa 25 sličic (SVD-XT). Frekvenca je lahko kjerkoli med 3 in 30 sličicami na sekundo, torej so rezultati največkrat dolgi od 2 do 4 sekunde v ločljivosti 576 x 1024 v formatu MP4.

Generiranje kratkega videoposnetka traja približno pol ure na Nvidii RTX 3060, kar lahko s poganjanjem v oblaku (npr. Hugging Face) bistveno skrajšamo. Rezultat je venomer presenečenje. Običajno glavno slike ostane statična, spremeni pa se na primer ozadje, kjer začne deževati, lahko se centralni objekt približa in podobno. Drastičnih sprememb torej ni. Nekaj podrobnosti o algoritmu lahko preberemo tudi v znanstvenem članku, kjer opisujejo velikost vhodne baze podatkov kot 600 milijonov vzorcev v skupni dolžini 212 let.

Stable Video Diffusion ni prvi tovrstni model. Svoje so že predstavili Meta, Adobe, Google in drugi. Najboljši je trenutni Runway Gen-2. Naslednja meja bo text-to-video. Razvoj že poteka.

StabilityAI

Več novic

Naroči se na redna tedenska ali mesečna obvestila o novih prispevkih na naši spletni strani!

Komentirajo lahko le prijavljeni uporabniki

Najbolj brano

  • Redka zmaga malega rudarja kriptovalut

    V času, ko rudarjenje bitcoina obvladujejo velika podjetja s specializirano opremo in ogromnimi viri, je neodvisnemu solo rudarju uspel izjemen podvig. 

    Objavljeno: 27.7.2025 13:00
  • Šibko geslo in hekerski vdor pogubila 158 let staro podjetje

    Britansko podjetje KNP iz Northamptonshira, ki se je ukvarjalo s prevozi, je po 158 letih obratovanja zaprlo vrata, zaradi česar je brez dela ostalo 700 ljudi. Razlog ni slabo poslovanje, težke tržne razmere, izgube ali celo poneverbe, temveč precej bolj banalen. Podjetje je opustošil hekerski napad, v katerem so napadalci odnesli podatke o vseh strankah.

    Objavljeno: 23.7.2025 05:00
  • ChatGPT je bogatejši za pravega raziskovalnega agenta

    ChatGPT agent je nova generacija digitalnega pomočnika, ki združuje sposobnosti vizualnega in tekstovnega brskanja ter neposredne interakcije z zunanjimi platformami, kot so Google Drive, GitHub in SharePoint.

    Objavljeno: 18.7.2025 08:00
  • Tehnologija je orodje za množično nadzorovanje

    Ko je minuli teden kamera na koncertu skupine Coldplay v Bostonu prikazala par, ki objet posluša Chrisa Martina, bi bil lahko to le še eden izmed množice povsem običajnih in dolgočasni prizor. A ker se je ženska na posnetku obrnila proč in obraz zakopal v roke, moški pa se je sklonil pod kader, je posnetek vzbudil veliko pozornosti. Pevec Chris Martin ga je na odru komentiral z besedami, da sta bodisi zelo sramežljiva bodisi razmerje skrivata – in ostalo je bilo zgodovina.

    Objavljeno: 21.7.2025 05:00
  • ChatGPT je slab v šahu

    Najboljši šahist sveta Magnus Carlsen je v spletnem dvoboju premagal umetno inteligenco ChatGPT v vsega 53-ih potezah, pri čemer sam ni izgubil niti ene same figure. 

    Objavljeno: 21.7.2025 09:00
  • ChatGPT-5 bo na voljo avgusta

    Sam Altman, izvršni direktor OpenAI, je potrdil, da bo model GPT-5 izšel že v začetku avgusta. 

    Objavljeno: 25.7.2025 09:00
 
  • Polja označena z * je potrebno obvezno izpolniti
  • Pošlji