LSD za MLLM: Kada AI prestaje kopirati i počinje birati

LSD za MLLM: Kada AI prestaje kopirati i počinje birati📷 © Tech&Space
- ★Reinforcement Learning mijenja odabir primjera
- ★kNN gubi na kompleksnim regresijskim zadacima
- ★Pet benchmarka, nula realnih scenarija
Multimodalni veliki jezični modeli (MLLM) godinama se oslanjaju na jednostavnu, ali ograničenu strategiju: k-Nearest Neighbor (kNN) pretragu za odabir primjera u in-context learningu (ICL). Problem?
Sličnost ne znači relevantnost. Kada je zadatak kompleksna regresija — recimo, precizno procjenjivanje dubine na slikama ili kvantificiranje medicinskih nalaza — kNN često odabere redundantne primjere koji ne pokrivaju cijeli raspon izlaza.
Novi rad s arXiva Learning to Select Visual In-Context Demonstrations uvodi Learning to Select Demonstrations (LSD), pristup koji demonstracije tretira kao sekvencijalni problem odlučivanja, a ne kao statični skup sličnosti. LSD koristi Dueling Deep Q-Network (DQN) s query-centričnim Transformer Decoderom kako bi naučio politiku koja maksimizira performanse MLLM-a na downstream zadacima.
Umjesto da se oslanja na unaprijed definirane metričke udaljenosti, model dinamički gradi skup demonstracija prilagođen specifičnom upitu.

Novi pristup demonstracijama pokazuje gdje kNN zapinje, ali pitanje je tko će ga koristiti📷 © Tech&Space
Novi pristup demonstracijama pokazuje gdje kNN zapinje, ali pitanje je tko će ga koristiti
Rani rezultati na pet vizualnih regresijskih benchmarka pokazuju poboljšanja u odnosu na kNN, ali — kao i uvijek u AI — benchmark nije stvarnost. Istraživači priznaju da metodologija još nije testirana na stvarnim podacima s šumom ili nepredvidivim varijacijama, što je ključno za praktičnu primjenu. Zanimljivo je da se LSD fokusira na vizualne zadatke, iako bi pristup teoretski mogao funkcionirati i za tekstualne scenarije.
To otvara pitanje: je li ovo optimizacija za specifičan problem ili temelj za širu primjenu? Industrijski gledano, LSD bi mogao biti zanimljiv za tvrtke koje se bave preciznim vizualnim analizama — od autonomnih vozila do medicinske dijagnostike.
Međutim, trenutačno je najveći izazov upravo ono što rad ne adresira: skalabilnost i trošak treniranja RL agenta za svaki novi zadatak.
Trenutačno nedostaje otvorena implementacija, a bez nje, tehnologija ostaje nedostupna većini istraživača. Ako se pokaže da LSD stvarno donosi značajna poboljšanja na stvarnim podacima, mogao bi potaknuti cijelu seriju sličnih pristupa. Očekivanja su velika, ali još uvijek je rano za konačne zaključke.