Gemini 3.1 Flash Live: Googleov real-time bluff ili stvarni napredak?

Gemini 3.1 Flash Live: Googleov real-time bluff ili stvarni napredak?📷 Image: Press (official)
- ★Najniža latencija u Googleovoj povijesti — ali samo u demo uvjetima
- ★Multimodalni streamovi bez prethodnog bufferinga (bar u teoriji)
- ★Developeri već primjećuju ograničenja u API dokumentaciji
Google je upravo u preview režimu otpustio Gemini 3.1 Flash Live — model koji, prema njihovim riječima, nudi «najkvalitetniji audio i govor do sada» s «ultra-niskom latencijom» za real-time interakcije. Problem? «Preview» znači da je to još uvijek igračka za odabrane developere u Google AI Studiju, a ne gotov proizvod za masovnu upotrebu.
Čak i tako, tvrtka ističe kako model «nativno procesuira multimodalne streamove» — audio, video i alate — bez potrebe za prethodnim spajanjem podataka. To mogli biti koraci prema agentima koji stvarno «razumiju» kontekst, ali je preuranjeno slaviti.
Dok marketing govori o «prirodnijim» razgovorima, stvarni test će biti koliko će ova «niža latencija» funkcionirati van kontroliranih demo okruženja. Google navodi poboljšanja u «real-time reakcijama», ali bez konkretnih brojeva o kašnjenju u stres-testovima (npr. s 10.000 istovremenih korisnika) — a to je upravo gdje se obično otkrivaju «magične» performanse.

Između benchmarka i proizvoda: tko zapravo može koristiti ovu ‘revoluciju’?📷 © Tech&Space
Između benchmarka i proizvoda: tko zapravo može koristiti ovu ‘revoluciju’?
Zanimljivije od samog modela je što Google ovdje ne govori o općoj dostupnosti, već cilja isključivo developere koji grade «AI agente». To nije slučajno — tržište za real-time glasovne asistente (od call centara do igara) raste za 28% godišnje, a tko god prvi stabilizira ovakav stack moći će diktirati standarde.
Pravi signal ovdje nije u samom modelu, već u tome što Google opet gura granice API pristupa. Gemini Live API nudi «streaming» podršku za audio i video, ali s ograničenjima: maksimalno 5 minuta neprekidnog streama po sesiji, a dokumentacija upozorava na «moguće degradacije performansi» pri kompleksnijim multimodalnim upitima.
Developer community već reagira: na GitHubu se pojavljuju pitanja o «skalabilnosti» i «cijenama» (jer «preview» obično znači «besplatno dok ne postane plaćeno»), dok neki ističu kako slične funkcije već nude open-source alternativi — samo bez Googleovog «polirane» marketinške ambalaže. Zanimljivo je i što se Nvidia još nije oglasila s vlastitim rješenjem za ovakve use case-ove, iako imaju hardver prednosti.