Umjetna inteligencijadb#2636

PAM: Kompleksni brojevi stižu u jezične modele

(18h ago)
Menlo Park, CA
arxiv.org
PAM: Kompleksni brojevi stižu u jezične modele

PAM: Kompleksni brojevi stižu u jezične modele📷 © Tech&Space

  • 100 milijuna parametara, 30.0 perplexity
  • 4× veći računski trošak bez optimizacija
  • Transformeri i dalje 10% bolji na WikiText-103

PAM: Phase-Associative Memory (PAM) nije samo još jedan akronim u gomili AI modela. Istraživači s arXiva [1] odlučili su napustiti realne brojeve i u potpunosti se prebaciti na kompleksne reprezentacije — što tehnički zvuči kao napredak iz udžbenika kvantne mehanike, ali u praksi donosi konkretne rezultate. Na WikiText-103 benchmarku, PAM s približno 100 milijuna parametara postigao je perplexity od 30,0, što je samo 10 % slabije od transformera (27,1) treniranog pod istim uvjetima. To nije revolucija, ali jest signal da kompleksni brojevi možda nisu samo matematička igračarija.

Problem? PAM plaća cijenu za svoju ambicioznost. Kompleksne operacije znače četiri puta veći računski trošak, a model i dalje nema prilagođene jezgre koje bi taj jaz smanjile. Drugim riječima, radi se o dokazu koncepta koji funkcionira — ali tek nakon što se riješi pitanje učinkovitosti. Istraživači su ovdje napravili zanimljiv izbor: umjesto da optimiziraju, fokusirali su se na dokazivanje da alternativni pristupi mogu konkurirati dominantnim paradigmama. [2]

Ključna inovacija PAM-a leži u matričnom stanju $S_t \in \mathbb{C}^{d \times d}$, gdje se asocijacije pohranjuju putem vanjskih produkata. To je korak dalje od vektorskih modela, koji pate od $O(1/\sqrt{n})$ degradacije kapaciteta zbog superponiranih asocijacija. No, dok teorija zvuči obećavajuće, pravo pitanje je koliko će ovaj pristup skalirati izvan kontroliranih benchmarka.

Što se dogodilo kad su inženjeri zamijenili realne brojeve kompleksnima

Što se dogodilo kad su inženjeri zamijenili realne brojeve kompleksnima📷 © Tech&Space

Što se dogodilo kad su inženjeri zamijenili realne brojeve kompleksnima

Za sada, PAM ostaje akademski eksperiment — ali eksperiment koji potkopava pretpostavku da su realni brojevi jedini put za napredne jezične modele. Konkurencija s transformerima na istoj razini parametara sugerira da kompleksne reprezentacije možda nude bolju učinkovitost memorije, čak i uz veći računski trošak. To bi moglo biti posebno relevantno za specijalizirane zadatke gdje je kapacitet memorije kritičan, poput dugoročnog kontekstualnog pamćenja. [3]

Međutim, industrijski igrači vjerojatno neće žuriti s implementacijom. Četverostruki računski trošak bez jasne staze za optimizaciju znači da PAM za sada ostaje zanimljivost za istraživače, a ne alat za inženjere. Ipak, ova studija šalje jasnu poruku: prostor za inovacije u arhitekturi modela nije zatvoren, čak i ako se čini da su transformeri osvojili sve.

Zanimljivo je i kako PAM pristupa problemu asocijativnog pamćenja. Umjesto da se oslanja na pažnju kao transformeri, koristi konjugirani unutarnji produkt $K_t^* \cdot Q_t / \sqrt{d}$, što je elegantno rješenje — ali i podsjetnik da su alternativni pristupi često samo pitanje perspektive. [4] Pravo testiranje tek slijedi: hoće li PAM uspjeti na realnim podacima, ili će ostati još jedan zaboravljeni eksperiment u moru AI istraživanja?

Ova priča podsjeća na one dane kad su neki tvrdili da će neuronske mreže umrijeti — samo da bi se kasnije pokazalo da su one bile tek početak.

complex number integration in LLMsmathematical reasoning in language modelsNLP model architecture modificationsAI symbolic computation advancementsPAM (complex number-enhanced models)

//Comments

AIAmazon’s $50B OpenAI bet: Trainium’s real test begins nowSpaceMapping the Local Bubble’s magnetic field reshapes cosmic scienceAIGoogle’s Gemini games flop: AI hype hits gamer realitySpaceStarship’s Tenth Test: The Reusability Threshold CrossedAINvidia’s AI tax: half your salary or half your careerSpaceJWST peels back dust to reveal star birth in W51AITriangle Health’s $4M AI won’t replace your doctor—yetSpaceAI’s Copyright Chaos Threatens Space Exploration DataAIHumble AI is just healthcare’s latest buzzword for ‘don’t trust us yet’SpaceExoplanet spins confirm a planetary mass ruleAIOpenAI’s teen safety tools: open source or open question?GamingCrimson Desert’s AI art fail: a mockup that slipped throughAITinder’s AI gambit: swiping left on endless swipingGamingPearl Abyss hid AI assets in Crimson Desert—now players want answersAINVIDIA’s Alpamayo AI: Self-Driving’s Hardest Problem or Just Another Demo?GamingCapcom Rejects AI AssetsAIWaymo’s police problem exposes AV’s real-world blind spotsRoboticsAtlas Redefines Humanoid DesignAILittlebird’s $11M bet: AI that reads your screen—without the screenshotsRoboticsOne antenna, two worlds: robot sniffs out realityAIUK firms drown in AI hype, emerge with empty spreadsheetsRoboticsDrone swarms take flight—but not off the demo lot yetAIApple’s Gemini Distillation: On-Device AI Without the Cloud HypeTechnologyTaiwan’s chip giants bet on helium and nukes to dodge supply shocksAICapcom’s AI partner talk is just corporate speak for ‘we’ll use it carefully’MedicineTelmisartan Boosts Cancer TreatmentAIOpenSeeker’s open gambit: Can 11K data points break AI’s data monopoly?MedicineXaira Unveils X-CellAIGimlet Labs Solves AI BottleneckMedicineAI Fails to Speed Lung Cancer DiagnosisAIHelion Powers OpenAIAINVIDIA’s OpenShell: Security for AI Agents or Just Another Hype Shell?AIDRAFT Boosts AI SafetyAIProject Glasswing: AI finds flaws everywhere—except in its own hypeAIPAM: Complex Math for a 10% Performance HitAIOpenAI’s erotic chatbot pause exposes AI’s adult content dilemmaAIAI Ranks Recovery Factors—but Who’s Really Listening?AIDeepMind’s AI safety play: real guardrails or just another demo?AIAmazon’s $50B OpenAI bet: Trainium’s real test begins nowSpaceMapping the Local Bubble’s magnetic field reshapes cosmic scienceAIGoogle’s Gemini games flop: AI hype hits gamer realitySpaceStarship’s Tenth Test: The Reusability Threshold CrossedAINvidia’s AI tax: half your salary or half your careerSpaceJWST peels back dust to reveal star birth in W51AITriangle Health’s $4M AI won’t replace your doctor—yetSpaceAI’s Copyright Chaos Threatens Space Exploration DataAIHumble AI is just healthcare’s latest buzzword for ‘don’t trust us yet’SpaceExoplanet spins confirm a planetary mass ruleAIOpenAI’s teen safety tools: open source or open question?GamingCrimson Desert’s AI art fail: a mockup that slipped throughAITinder’s AI gambit: swiping left on endless swipingGamingPearl Abyss hid AI assets in Crimson Desert—now players want answersAINVIDIA’s Alpamayo AI: Self-Driving’s Hardest Problem or Just Another Demo?GamingCapcom Rejects AI AssetsAIWaymo’s police problem exposes AV’s real-world blind spotsRoboticsAtlas Redefines Humanoid DesignAILittlebird’s $11M bet: AI that reads your screen—without the screenshotsRoboticsOne antenna, two worlds: robot sniffs out realityAIUK firms drown in AI hype, emerge with empty spreadsheetsRoboticsDrone swarms take flight—but not off the demo lot yetAIApple’s Gemini Distillation: On-Device AI Without the Cloud HypeTechnologyTaiwan’s chip giants bet on helium and nukes to dodge supply shocksAICapcom’s AI partner talk is just corporate speak for ‘we’ll use it carefully’MedicineTelmisartan Boosts Cancer TreatmentAIOpenSeeker’s open gambit: Can 11K data points break AI’s data monopoly?MedicineXaira Unveils X-CellAIGimlet Labs Solves AI BottleneckMedicineAI Fails to Speed Lung Cancer DiagnosisAIHelion Powers OpenAIAINVIDIA’s OpenShell: Security for AI Agents or Just Another Hype Shell?AIDRAFT Boosts AI SafetyAIProject Glasswing: AI finds flaws everywhere—except in its own hypeAIPAM: Complex Math for a 10% Performance HitAIOpenAI’s erotic chatbot pause exposes AI’s adult content dilemmaAIAI Ranks Recovery Factors—but Who’s Really Listening?AIDeepMind’s AI safety play: real guardrails or just another demo?
⊞ Foto Review