AI ipak zna i oboriti tvrdnje, tvrde znanstvenici

AI ipak zna i oboriti tvrdnje, tvrde znanstvenici📷 © Tech&Space
- ★Fine-tuning LLMs za counterexample u Lean 4
- ★Symbolička mutacija strategija
- ★Tri nova benchmarka za provjeru
Istraživači s arXiv:2603.19514v1 pokazuju kako su veliki jezični modeli (LLM) naučili generirati counterexample za matematičke tvrdnje i automatski ih provjeriti u Lean 4. To nije samo akademska vježba – to je pokušaj da se popuni golema rupa u AI matematičkom rasuđivanju.
Dotad su modeli poput DeepSeek ili AlphaTensor mogli samo izgraditi formalne dokaze za istinite tvrdnje, zanemarujući istovremenu potrebu za obaranjem neistinitih. Ključan pomak dogodio se prijenosnim učenjem modela koji sada mogu ne samo potvrditi već i opovrgnuti tvrdnje, a integrirana provjera u Lean 4 osigurava da counterexamplei nisu samo pogađanja već formalno valjani.
Problem je što se dosadašnja istraživanja u matematičkom rasuđivanju gotovo isključivo usmjeravala na konstrukciju dokaza, dok je generiranje counterexamplea ostajalo u sjeni – iako je jednako važno za robusno formalno provjeravanje.

Od dokaza do obaranja: zaboravljena vještina umrežena s formalnim provjerama📷 © Tech&Space
Od dokaza do obaranja: zaboravljena vještina umrežena s formalnim provjerama
Metoda se temelji na simboličkoj mutaciji strategiji koja sintetizira raznovrsne trening podatke tako što iz teorema izbacuje odabrane hipoteze i pritom generira nove counterexamplee. Uz to, korištena je višestruka nagradna iteracija stručnjaka kako bi se modeli dodatno usavršili u generiranju counterexamplea i dokaza.
Eksperimenti su provedeni na tri nova benchmarka koji testiraju sposobnost modela da kontradiktorno argumentira, a rezultati sugeriraju da je ovaj pristup djelotvorniji od tradicionalnih metoda. Što ovo znači za industriju?
Dobavljači formalnih alata i istraživački timovi koji rade na AI matematičkom rasuđivanju sada imaju jedan košarki način za praćenje i provjeru counterexamplea, što bi moglo ubrzati razvoj robusnijih AI sustava za verifikaciju. Istraživači napominju kako će biti presudno pratiti napredak na sva tri benchmarka, posebno u integraciji s Lean 4.
Ta platforma već godinama služi kao standard za formalnu matematiku i verifikaciju softvera, pa je prirodno da postaje i arena za AI modele koji žele zaroniti u formalna okruženja.
Ovo otkriće ima veliki potencijal za poboljšanje AI sustava u matematičkom rasuđivanju. U budućnosti, možda ćemo vidjeti još naprednije aplikacije ovih modela. Time će se otvoriti nove mogućnosti za istraživanje i razvoj.