Microsoftovi novi AI modeli: Glas, slika i 60 sekundi slave

Microsoftovi novi AI modeli: Glas, slika i 60 sekundi slave📷 © Tech&Space
- ★25 jezika za transkripciju
- ★60 sekundi generiranog glasa
- ★Bing i PowerPoint dobivaju nadogradnju
Microsoft je konačno skinuo rukavice i objavio tri nova AI modela koji idu dalje od teksta. Glasovni i transkripcijski alati podržavaju 25 jezika, što je značajan skok u odnosu na prethodne verzije koje su se često spoticale na engleskom ili kineskom. Drugi model, namijenjen generiranju glasa, može proizvesti audio snimke dužine do 60 sekundi — dovoljno za kratke odgovore ili upozorenja, ali nedovoljno za cijeli podcast. Treći model, nadograđena verzija generativne slike, obećava bržu obradu i realističnije detalje, premda je još uvijek u igračkama poput Microsoftovog Foundryja i MAI playgrounda.
Za razliku od uobičajenih PR objava punih nejasnih fraza poput „revolucionarno“ ili „game-changer“, ovdje imamo konkretne brojke: 25 jezika, 60 sekundi, ubrzanje slike. To je rijetkost u svijetu gdje se benchmarki često ograničavaju na laboratorijske uvjete. Međutim, Microsoft još uvijek ne otkriva koliko će ta poboljšanja zapravo značiti korisnicima Bing Chata ili PowerPointa, koji bi trebali dobiti integraciju. Je li ovo korak naprijed ili samo bolje upakirani stari proizvod?
Najveći izazov nije tehnologija, već deployment. Dok konkurencija poput Googla i NVIDIE također radi na multimodalnim AI-ima, Microsoft ima prednost u enterprise segmentu, posebno s Copilotom koji je već duboko integriran u Office 365 i Azure. No, ako novostima nedostaje jasna prednost u stvarnom svijetu — recimo, bolja točnost transkripcije u bučnim okruženjima ili brže generiranje slika bez artefakata — korisnici će ih ignorirati isto kao i prošle godine.

Demo nasuprot deploymentu: Što se ovdje stvarno promijenilo?📷 © Tech&Space
Demo nasuprot deploymentu: Što se ovdje stvarno promijenilo?
Ono što je zanimljivo u ovoj priči nije toliko tehnološki napredak, koliko Microsoftova strategija. Umjesto da se fokusira na jedan spektakularan model poput OpenAIjeva GPT-4o, kompanija je raširila napore na tri različite funkcionalnosti. To je pametan potez jer smanjuje rizik od neuspjeha, ali i otežava marketinšku priču. „Tri nova modela“ zvuči impresivno, ali ako svaki od njih radi samo 10 % bolje od konkurencije, korisnici neće primijetiti razliku.
Transkripcijski modeli već su dostupni u Foundryju, ali koliko će ih korporativnih korisnika zapravo koristiti? Microsoft tvrdi da su alati optimizirani za video titlove, sastanke i glasovne agente, ali realnost je često drugačija: većina poduzeća i dalje koristi stare alate poput Otter.ai ili čak manualne transkripcije. Isto vrijedi i za sliku — brže generiranje zvuči dobro, ali ako rezultati i dalje izgledaju umjetno, tko će plaćati za to?
Prava priča ovdje nije u samim modelima, već u tome kako će ih Microsoft integrirati u postojeće proizvode. Ako Bing Chat dobije bolju sliku i glas, to bi moglo privući korisnike koji su razočarani njegovom trenutnom performansom. Isto vrijedi i za PowerPoint: ako AI može automatski generirati slajdove iz teksta, to bi moglo smanjiti vrijeme potrebno za izradu prezentacija. No, to je samo drugi način da se kaže: Microsoft želi da plaćate još jednu pretplatu.
Budućnost ovih AI modela ovisit će o njihovoj sposobnosti da se integriraju u alate koje ljudi već koriste. Bez toga, čak i najnapredniji modeli ostaju samo obećanja bez učinka.