Nova Microsoftova 15G multimodalka ulazi u igru

Nova Microsoftova 15G multimodalka ulazi u igru📷 © Tech&Space
- ★15 milijardi parametara otvorenog koda
- ★GUI agenti i multimodalno rasuđivanje
- ★debija na Product Hunt-u
Microsoft je na Product Huntu predstavio Phi-4-reasoning-vision, multimodalni model s 15 milijardi parametara koji kombinuje tekst, sliku i rasuđivanje. Riječ je o otvorenom modelu — što znači da su mu težine javno dostupne, barem za sada.
Sama oznaka 'reasoning-vision' sugerira da model može obrađivati vizualne interfejse, a ne samo statične slike. Rani signali sugeriraju da bi Phi-4 mogao biti naslednik serije Phi modela, koje je Microsoft prethodno objavio kao lake, ali efikasne alternative većim jezgrama.
Ako je to tačno, kompanija bi mogla da ponudi alat koji je dovoljno moćan za GUI automate, a istovremeno dovoljno lagan za lokalno izvođenje. Naravno, sve dok ne dobijemo zvanične benchmarke, radi se o spekulacijama.
Community reaguje oprezno: neka preterivanja vezana za 'autonomne agente' već su se pokazala kao preuranjena. Ipak, interes za multimodalnim alatima koji mogu da 'vide' interfejse umesto da samo čitaju kod raste.

Od demo ka konkretnim alatima: što je novo u praksi?📷 © Tech&Space
Od demo ka konkretnim alatima: što je novo u praksi?
Što se ovde zapravo promenilo u odnosu na prethodnike? Pre svega, veličina: 15 milijardi parametara nije neka astronomska cifra, ali je dovoljna da se izbegnu kompromisi koji prate manje modele.
Drugi aspekt je otvorenost — Microsoft je već dokazao da ne zatvara Phi modele u crne kutije, što može privući razvojnu zajednicu. Ali postoji i rupa između obećanja i realnosti.
Naime, niko još nije video kako ovaj model rešava stvarne GUI zadatke. Demo sesije na Product Huntu obično donose impresivne prikaze, ali retko kada prežive kontakt sa realnim scenarioima.
Da li će Phi-4 biti izuzetak, ostaje da se vidi. Za sada je jedino sigurno da se radi o još jednom pokušaju da se napravi alat koji može da 'razume' interfejse, a ne samo da ih automatski klikće.
Pitanje je ko će prvi uspešno integrisati ovaj model u proizvod — i koliko će vremena proći dok ne vidimo prvu ozbiljnu aplikaciju.