Netflixov VOID briše objekte — i fiziku s njima

Netflixov VOID briše objekte — i fiziku s njima📷 © Tech&Space
- ★VOID generira realistične interakcije nakon brisanja objekata
- ★5B parametara i 3D Transformer iz Alibabe kao baza
- ★GitHub aktivnost već pokazuje interesa VFX timova
Netflix i istraživači s INSAIT-a objavili su VOID — model koji ne samo da briše objekte iz videa, nego i simulira fizičke posljedice tog brisanja. Ako iz scene maknete osobu koja drži gitaru, alat neće ostaviti instrument da lebdi: on će pasti, otkotrljati se ili se raspasti, ovisno o kontekstu. To je ključna razlika u odnosu na postojeće alate poput Runway ML Gen-3 ili Adobe Topaz, koji uglavnom boje praznine bez obzira na uzročnost.
Razlog zašto ovo nije samo još jedan 'AI čarobnjak za video' leži u arhitekturi: VOID koristi CogVideoX-Fun-V1.5-5b — Alibabin 3D Transformer s 5 milijardi parametara, optimiziran za generiranje dinamike, a ne statičnih slika. Umjesto binarnog maskiranja (objekt/pozadina), korisnik navodi quadmask s četiri vrijednosti: što brisati, što zadržati, i — kritično — kako se scena treba ponovno sastaviti. To je prvi put da vidimo AI koji eksplicitno modelira uzročnost u video inpaintingu.
Među konkurentima koje su istraživači usporedili — od ProPainter do DiffuEraser — VOID je jedini koji ne zaostaje iza ručno uređenih scenarija u testovima s padajućim objektima. Ali tu počinje i problem: benchmark ≠ realni performansi. Model radi s rezolucijom 384×672 i do 197 okvira po sekvenciji, što je daleko od 4K standarda filmske industrije. Ipak, čak i u ovom ograničenju, rezultat je dovoljan da VFX umjetnici na Redditu već raspravljaju o integraciji u pipeline.

Demo nasuprot deploymentu: tko će zapravo moći koristiti ovaj alat📷 © Tech&Space
Demo nasuprot deploymentu: tko će zapravo moći koristiti ovaj alat
Netflixovo otvaranje koda nije samo dobrotvorni gest — to je strategijski potez. Kompanija ima interes u automatizaciji postprodukcije za svoje volume sadržaje (recimo, reality show-ove s ponavljajućim elementima koje treba brisati). Ali pravi signal ovdje je širi: VOID dokazuje da se fizika može naučiti iz podataka, a ne samo hardkodirati. To otvara vrata za alate koji ne zahtijevaju ručno podešavanje svake scene — što bi moglo smanjiti troškove za studije koji nisu na razini ILM-a ili Wēta.
Iako je model open-source, stvarno usko grlo možda uopće nije tamo gdje ga marketing traži. Problem nije algoritam, nego podaci: VOID zahtijeva obučavanje na sekvencama s jasno definiranim fizičkim zakonima. A to znači da će kompanije s pristupom visokokvalitetnim 3D skeniranim scenama (npr. Unreal Engine ekosustav) imati prednost u finetuningu. Za ostale, čak i sa FP8 kvantizacijom za uštedu memorije, troškovi pokretanja ovog modela na cloud GPU-ima mogu biti zabranjujući.
Dio zajednice već primjećuje da VOID nije univerzalno rješenje: loše funkcionira s tekućinama, dimom ili scenama s previše pokretnih dijelova. Ali to je i očekivano — prva iteracija uvijek ima rupe. Zanimljivije je pitanje tko će prvi integrirati ovaj pristup u postojeće alate. Blackmagic Design ili Foundry bi mogli ugraditi slične module u svoje Nuke ili Fusion pakete, čime bi VOID postao feature, a ne samostalni projekt.