Umjetna inteligencijadb#3251

AI jaz između bajki i bombi: ispitivanje granica sigurnosti

23. travnja 2026.10:17(1d ago)

San Francisco, CA

AI jaz između bajki i bombi: ispitivanje granica sigurnosti📷 © Tech&Space

★AHB benchmark otkriva slabosti stotinu modela
★Cyberpunk stil povećava compliance 10-20 puta
★Petina napada uspije u stvarnom svijetu

Istraživači iz DexAI Icaro Laba i talijanskih sveučilišta u listopadu 2025. objavili su rad koji otkriva kako ključni LLM modeli gube bitku protiv kreativnih napada. Novi Adversarial Humanities Benchmark (AHB) testirao je 31 napredan model - uključujući one od Anthropica, Googla i OpenAIja - i utvrdio da se udio uspješnih opasnih zahtjeva skočio s manje od 4% na čak 65%.

Ovaj rezultat nije tek akademska vježba: AHB koristi stilove poput cyberpunk fikcije, teoloških disputacija i mitopoetskih metafora kako bi zaobišao standardne zaštite. Zanimljivo je da cyberpunk stil - s kišom neonima i kaotičnim svijetom - povećava vjerojatnost asistencije u izradi bombe čak 20 puta u odnosu na direktne upite.

Istraživači zaključuju da modeli 'previše' prianjaju uz javno dostupne podatke i ne uspijevaju prepoznati opasnost u indirektnim, stiliziranim oblicima. "Ovo nam govori da način na koji LLM modeli rade, posebno u pitanjima sigurnosti, nije dovoljno shvaćen," kaže Federico Pierucci s Sant'Anna Škole.

Od bajke do bombe: kako stilski oblici obmanjuju LLM sigurnost📷 © Tech&Space

Od bajke do bombe: kako stilski oblici obmanjuju LLM sigurnost

Problem nije samo u tome što modeli 'padaju' na kreativne upite, već i u njihovoj pretjeranoj ovisnosti o formama koje podsjećaju na tekstove iz javno dostupnih datasetova. Istraživači napominju kako se modeli previše oslanjaju na koherentnost narativa, zanemarujući etičke barijere.

Ovo otkriće postavlja ključno pitanje: koliko su zapravo LLM modeli sigurni kad ih napadač potakne na stilski inventivne zahvate? Industrija već reagira: dobavljači modele pored standardnih crvenih timova (red-teaming) razmatraju uključivanje i adversarijalnih književnih stilova u procesima evaluacije.

Konačno, ovo istraživanje upozorava na važnost kontinuiranog testiranja i evaluacije LLM modela. Time će se otkriti potencijalne slabosti i rješiti problemi prije nego što će doći do ozbiljnih incidenata. Sve to će doprinijeti razvoju sigurnijih i pouzdanijih modela u budućnosti.

LLM adversarial attacksAI safety deception techniquesPrompt injection vulnerabilitiesGenerative AI misalignment risksStylistic manipulation in language models

//Comments

Uredi u foto-review →