Baiduov Qianfan-OCR Ai model sa 4B parametara i impresivnim benchmark rezultatima

Baiduov Qianfan-OCR Ai model sa 4B parametara i impresivnim benchmark rezultatima📷 © Tech&Space
- ★Kineski gigant lansira model od 4 milijarde parametara
- ★Izravna konverzija slika u Markdown bez višestupanjskog OCR-a
- ★93.12 bodova na OmniDocBench v1.5 nadmašuje konkurenciju
Kineski gigant Baidu predstavio je Qianfan-OCR, model dokumentne inteligencije koji više ne igra po starim pravilima višestupanjskih OCR pipelineova. Umjesto razdvajanja detekcije rasporeda, prepoznavanja teksta i razumijevanja sadržaja u zasebne module, ovaj model integrira sve u jedan neuronski sustav od 4 milijarde parametara.
Čuda se događaju na OmniDocBench v1.5: s rezultatom od 93.12, Qianfan-OCR nadmašuje konkurente i postavlja novi standard za end-to-end rješenja. Što je zapravo novo osim marketinga?
Tradicionalni OCR alati kao što su Tesseract ili ABBYY oduvijek su ovisili o složenim pipelineovima — prvo se detektira raspored, pa tekst, pa se na kraju pokuša razumjeti sadržaj. Qianfan-OCR zaobilazi taj kaos time što sliku dokumenta direktno pretvara u Markdown, uključujući strukturu, tablice i čak odgovore na pitanja o sadržaju.

Zdrav razum trpi: što zapravo mijenja ovaj model?📷 © Tech&Space
Zdrav razum trpi: što zapravo mijenja ovaj model?
Ipak, tu je i pitanje stvarnih performansi naspram benchmarka. Dok je 93.12 na OmniDocBench impresivan broj, pitanje je koliko će ovaj model odraditi u realnim scenarijima gdje su dokumenti rastrgani, loše oslikani ili pisani rukom.
Trenutno je dostupan samo kroz Qianfan-VL okvir, što znači da ga uglavnom koriste kineski korisnici i tvrtke koje već imaju infrastrukturu za slične alate. Industrija dokumentne inteligencije već dugo čeka tehnologiju koja će uroditi plodom izvan akademskih laboratorija.
Ako se potvrde rani signali, Qianfan-OCR mogao bi biti prvi model koji to uspijeva — barem u kontekstu kineskog tržišta. Za globalnu publiku, međutim, još je rano za slavlje.
Kako će se ovaj model nositi s europskim standardima dokumentacije, pravnim tekstovima ili višejezičnim materijalima? To će biti presudno za širu adopciju.
Qianfan-OCR bi mogao biti revolucionaran za kinesko tržište, ali njegova globalna primjena ovisi o njegovoj sposobnosti da se nosi s različitim jezicima i standardima. Ako će uspjeti u tome, mogao bi postati novo standardno rješenje za OCR potrebe. No, za sada, još je previše nepoznanica da se donesu konačni zaključci.