Google TurboQuant skuplja KV cache za LLM-e u 3 bita

Google TurboQuant skuplja KV cache za LLM-e u 3 bita📷 © Tech&Space
- ★TurboQuant komprimira cache u samo 3 bita
- ★8 puta brža obrada na H100 GPU-ima
- ★bez gubitka točnosti modela
Google Research uvodi TurboQuant, algoritam koji komprimira ključno-vrijednosne (KV) cacheove velikih jezičnih modela (LLM-ova) u samo tri bita bez ikakvog utjecaja na točnost. Testovi provedeni na Nvidijinim H100 GPU-ima pokazuju osamostruko povećanje brzine izračuna attention logita u odnosu na nekomprimirane 32-bitne ključeve. Ova tehnika, predstavljena u sklopu dugotrajnih benchmarkova poput LongBench i Needle In A Haystack, cilja na rastući problem memorijskih uskih grla u modelima s povećanim kontekstnim prozorima.
TurboQuant djeluje kao dvostupanjski proces koji uklanja tradicionalni memorijski overhead kvantizacijskih metoda. Umjesto samo smanjenja veličine cachea, on reorganizira podatke kako bi se izravno eliminirali redundantni računski troškovi. Prema prvim mjerenjima, ova optimizacija omogućuje i do šest puta manju potrošnju memorije za potrebe cachea, što otvara mogućnost obrade većih serija podataka i dužih sekvenci u produkcijskim okruženjima. Također, ovaj pristup ne zahtijeva retraining modela, što ga čini posebno atraktivnim za industriju.

Nova Googleova tehnika eliminira memorijsko usko grlo u velikim jezičnim modelima📷 © Tech&Space
Nova Googleova tehnika eliminira memorijsko usko grlo u velikim jezičnim modelima
Iako je Google ovaj put izbjegao klasičan call-to-action, činjenica da će rad biti predstavljen na ICLR-u 2026. sugerira da se radi o ozbiljnoj tehnologiji, a ne samo o marketinškom pokretu. Trenutno je još otvoreno pitanje koliko će TurboQuant biti prenosiv na druge GPU arhitekture uz Nvidijin H100, iako rani signali sugeriraju mogućnost šire primjene.
Community već reagira na mogućnost smanjenih memorijskih zahtjeva, posebice među korisnicima visokoperformantnih AI inference zadataka. Za developere i kompanije koje rade s LLM-ovima u produkciji, ovakva optimizacija može značiti ključno smanjenje troškova na hardveru. Jedino preostalo pitanje jest koliko će brzo ovaj algoritam biti integriran u postojeće frameworkove poput TensorFlowa ili PyTorcha.