PAM: Kompleksni brojevi stižu u jezične modele

PAM: Kompleksni brojevi stižu u jezične modele📷 © Tech&Space
- ★100 milijuna parametara, 30.0 perplexity
- ★4× veći računski trošak bez optimizacija
- ★Transformeri i dalje 10% bolji na WikiText-103
PAM: Phase-Associative Memory (PAM) nije samo još jedan akronim u gomili AI modela. Istraživači s arXiva [1] odlučili su napustiti realne brojeve i u potpunosti se prebaciti na kompleksne reprezentacije — što tehnički zvuči kao napredak iz udžbenika kvantne mehanike, ali u praksi donosi konkretne rezultate. Na WikiText-103 benchmarku, PAM s približno 100 milijuna parametara postigao je perplexity od 30,0, što je samo 10 % slabije od transformera (27,1) treniranog pod istim uvjetima. To nije revolucija, ali jest signal da kompleksni brojevi možda nisu samo matematička igračarija.
Problem? PAM plaća cijenu za svoju ambicioznost. Kompleksne operacije znače četiri puta veći računski trošak, a model i dalje nema prilagođene jezgre koje bi taj jaz smanjile. Drugim riječima, radi se o dokazu koncepta koji funkcionira — ali tek nakon što se riješi pitanje učinkovitosti. Istraživači su ovdje napravili zanimljiv izbor: umjesto da optimiziraju, fokusirali su se na dokazivanje da alternativni pristupi mogu konkurirati dominantnim paradigmama. [2]
Ključna inovacija PAM-a leži u matričnom stanju $S_t \in \mathbb{C}^{d \times d}$, gdje se asocijacije pohranjuju putem vanjskih produkata. To je korak dalje od vektorskih modela, koji pate od $O(1/\sqrt{n})$ degradacije kapaciteta zbog superponiranih asocijacija. No, dok teorija zvuči obećavajuće, pravo pitanje je koliko će ovaj pristup skalirati izvan kontroliranih benchmarka.

Što se dogodilo kad su inženjeri zamijenili realne brojeve kompleksnima📷 © Tech&Space
Što se dogodilo kad su inženjeri zamijenili realne brojeve kompleksnima
Za sada, PAM ostaje akademski eksperiment — ali eksperiment koji potkopava pretpostavku da su realni brojevi jedini put za napredne jezične modele. Konkurencija s transformerima na istoj razini parametara sugerira da kompleksne reprezentacije možda nude bolju učinkovitost memorije, čak i uz veći računski trošak. To bi moglo biti posebno relevantno za specijalizirane zadatke gdje je kapacitet memorije kritičan, poput dugoročnog kontekstualnog pamćenja. [3]
Međutim, industrijski igrači vjerojatno neće žuriti s implementacijom. Četverostruki računski trošak bez jasne staze za optimizaciju znači da PAM za sada ostaje zanimljivost za istraživače, a ne alat za inženjere. Ipak, ova studija šalje jasnu poruku: prostor za inovacije u arhitekturi modela nije zatvoren, čak i ako se čini da su transformeri osvojili sve.
Zanimljivo je i kako PAM pristupa problemu asocijativnog pamćenja. Umjesto da se oslanja na pažnju kao transformeri, koristi konjugirani unutarnji produkt $K_t^* \cdot Q_t / \sqrt{d}$, što je elegantno rješenje — ali i podsjetnik da su alternativni pristupi često samo pitanje perspektive. [4] Pravo testiranje tek slijedi: hoće li PAM uspjeti na realnim podacima, ili će ostati još jedan zaboravljeni eksperiment u moru AI istraživanja?
Ova priča podsjeća na one dane kad su neki tvrdili da će neuronske mreže umrijeti — samo da bi se kasnije pokazalo da su one bile tek početak.