Umjetna inteligencijadb#725

Geometrija značenja: Kako LLMevi gube u prijevodu

(3w ago)
San Francisco, CA
arxiv.org
Geometrija značenja: Kako LLMevi gube u prijevodu

Geometrija značenja: Kako LLMevi gube u prijevodu📷 © Tech&Space

  • Skrivena stanja kao točke na Riemannovoj površini
  • Voronijeve regije objašnjavaju diskretni jaz rječnika
  • Dva teorema o granici izobličenja i skaliranju volumena

Kad se Large Language Models hvale kao 'razumijevanjem jezika', rijetko tko spomenuje da radi s kontinuiranim vektorima koji moraju proizvesti diskretne tokene — kao da biste pokušali ispisati Pi koristeći samo slova abecede. Novi rad na arXiv-u (2603.22301v1) ne nudi još jednu metaforu o 'crnim kutijama', već matematički model koji taj problem pretvara u geometrijski: skrivena stanja modela su točke na latentnom semantičkom mnogostrukoću (Riemannova potprostor opremljen Fisherovom informacijskom metrikom), a tokene predstavljaju Voronijeve regije koje taj prostor dijeli. To nije samo elegantna analogija. Autori uvode expressibility gap — mjeru koliko se značenje izobličava prilikom pretvaranja kontinuiranog prostora u konačni rječnik. Što je važnije, dokazuju dva teorema: donju granicu izobličenja za bilo koji konačni rječnik (rate-distortion bound) i linearno skaliranje expressibility gap-a preko coarea formule. Drugim riječima, ne radi se o 'boljem fine-tuningu', već o fundamentalnom ograničenju koje vrijedi za sve današnje LLMeve — bez obzira na veličinu. Čudno je da se o ovome ne govori više u industrijskim krugovima, kad je upravo diskretizacija jedan od glavnih razloga zašto modeli 'haluciniraju' ili gube nijanse u dugačkim kontekstima. Ali evo ironije: dok se Anthropic i Mistral natječu tko će imati 'najveći kontekstni prozor', ovaj rad sugerira da je stvarno usko grlo možda uopće ne u broju tokena, već u geometriji prostora kojeg oni pokušavaju aproksimirati.

Matematički okvir koji pretvara hype u stvarne brojeve

Matematički okvir koji pretvara hype u stvarne brojeve📷 © Tech&Space

Matematički okvir koji pretvara hype u stvarne brojeve

Da je ovo samo teorija, nije bilo vrijedno pažnje. Ali rad nudi konkretne implikacije za benchmarkove — i tu počinje zanimljivo. Trenutni testovi kao što su MMLU ili HELM mjere 'točnost' kao binarni rezultat, ignorirajući kako se značenje gubi u prijevodu između vektorskog prostora i tokena. Ako je expressibility gap stvaran, onda bi benchmarkovi trebali mjereni ne samo 'pogodak', već i koliko je odgovor semantički udaljen od optimalnog — što bi dramatično promijenilo ljestvicu usporedbe modela. Za razliku od uobičajenog 'otvorenog pisma' ili blog posta s grafovima bez osi, ovdje imamo matematičku strukturu koja omogućava precizno usporedbu arhitektura. Na primjer, ako se pokaže da neka varijanta Mixtral ili LLama 3 ima manji expressibility gap od konkurenata, to bi bilo prvi put da imamo geometrijski argument za superiornost — a ne samo 'bolje rezultate na nekom datasetu'. Razvojna zajednica na r/MachineLearning već primjećuje da bi ovo moglo objasniti zašto neki modeli 'bolje razumiju' uz isti broj parametara: ne radi se o magiji, već o efikasnijem mapiranju prostora. No, pravi signal ovdje nije u samom radu, već u tome tko će ga ignorirati. Startupi koji prodaju 'AGI u kutiji' neće htjeti čuti za fundamentalna ograničenja, a velika laboratorija kao DeepMind ili OpenAI vjerojatno već imaju interne varijante ovog pristupa — ali ih neće objaviti dok ne pronađu 'rješenje'. Dok god se o LLMevima govori u terminima 'veličine' i 'brzine', a ne geometrije prostora u kojem operiraju, sve su to samo marketingovske figure. A geometrija, nažalost, ne laže.

Ovo je važan korak u razvoju LLMeva, jer nam omogućava bolje razumijevanje njihovih ograničenja. Time ćemo moći stvoriti bolje modele koji će bolje razumijevati ljudski jezik. Ovo je samo početak, ali je važno što smo konačno počeli razgovor o geometriji prostora u kojem operiraju LLMevi.

LLMLanguage TranslationMathematical Framework

//Comments

AIDeepSeek’s Engram: A Fix or Just Another Benchmark Mirage?RoboticsZoox’s robotaxis hit the road—but real miles reveal real limitsAISpotify’s AI slop filter: Control for artists or PR fig leaf?RoboticsMotor-free robotic hand shifts shape in under a secondAIDatabricks buys AI security startups—hype or real edge?MedicineDown Syndrome StudyAIArm’s first solo chip: hype meets hardware realityMedicinePediatric epilepsy treatment shows promise—with clear limitsAIMeta’s EUPE: A 100M-Param Vision Model That’s Actually UsefulTechnologyPerovskite solar skips cleanrooms—what it really savesAIAI royalty fraud exposed: $8M scam reveals streaming’s bot problemTechnologyWi-Fi 8: Reliability Over Speed—What It Really MeansAITalat AI NotesSpaceApple’s AI Shortcuts Could Rewrite Automation for Space SystemsAIFlipper Zero Gets AI BoostGamingNeuralink trial shows promise—but don’t call it a cure yetAIAI Chip Smuggling ScandalAIReleaslyy AI: Automation or Another AI Hallucination?AIClaude Code’s Auto Mode: Safety Theater or Real Progress?AIMeta’s AI shopping assistant: more sizzle than sellAIDeepSeek’s Engram: A Fix or Just Another Benchmark Mirage?RoboticsZoox’s robotaxis hit the road—but real miles reveal real limitsAISpotify’s AI slop filter: Control for artists or PR fig leaf?RoboticsMotor-free robotic hand shifts shape in under a secondAIDatabricks buys AI security startups—hype or real edge?MedicineDown Syndrome StudyAIArm’s first solo chip: hype meets hardware realityMedicinePediatric epilepsy treatment shows promise—with clear limitsAIMeta’s EUPE: A 100M-Param Vision Model That’s Actually UsefulTechnologyPerovskite solar skips cleanrooms—what it really savesAIAI royalty fraud exposed: $8M scam reveals streaming’s bot problemTechnologyWi-Fi 8: Reliability Over Speed—What It Really MeansAITalat AI NotesSpaceApple’s AI Shortcuts Could Rewrite Automation for Space SystemsAIFlipper Zero Gets AI BoostGamingNeuralink trial shows promise—but don’t call it a cure yetAIAI Chip Smuggling ScandalAIReleaslyy AI: Automation or Another AI Hallucination?AIClaude Code’s Auto Mode: Safety Theater or Real Progress?AIMeta’s AI shopping assistant: more sizzle than sell
⊞ Foto Review