AI za AI – zakaj mora ena umetna inteligenca braniti drugo
Podjetje Anthropic opozarja, da so sodobni AI-agenti dovolj zmogljivi, da sami odkrivajo in izkoriščajo ranljivosti v pametnih pogodbah na blockchainu, kar odpira vrata popolnoma avtomatiziranim kibernetskim napadom. Po njihovih meritvah bi bilo mogoče z nekaj “obiski” AI zaslužiti milijone dolarjev, če bi kdo to želel.

Raziskovalci pri podjetju Anthropic so razvili testni sistem z imenom SCONE-bench (Smart CONtracts Exploitation benchmark), ki vsebuje 405 pametnih pogodb, izvedljivih na treh verigah Ethereuma. Sodobni jezikovni modeli, opremljeni z orodji (agenti), kot sta njihov Claude ali GPT-5, so na teh pogodbah odkrili konkretne ranljivosti.
V simulacijah so generirali izkoriščevalno kodo, ki bi, če bi bila izvršena v realnem okolju, prinesla približno 4,6 milijona dolarjev. Čeprav podjetje iz moralnih in pravnih razlogov napada ni dejansko izvedlo, želi opozoriti, da je možnost avtomatiziranega kriminala v svetu kriptovalut povsem resnična.
V dodatnih testih, v katerih so modeli pregledali skoraj 2.850 novih, javno nepregledanih pametnih pogodb, so AI-agenti uspeli identificirati vsaj dve “zero-day” ranljivosti in ustvariti prototip izkoriščanja, v enem primeru ocenjen na približno 3.700 dolarjev. Ker povprečni strošek pregleda pogodbe znaša le nekaj dolarjev, je razmerje med vložkom in potencialnim dobičkom izjemno ugodno.
Anthropic zato poziva k širšemu premisleku: če obstaja možnost, da AI-agentje postanejo učinkoviti “hekerji”, moramo razviti to, kar imenujejo “AI za obrambo” – torej AI-mehanizme, ki bi bili sposobni zaznati in blokirati zlonamerne odločitve drugih agentov. Brez tega se lahko avtomatizirani, skoraj popolnoma brezčloveški napadi prelevijo v resnično grožnjo za finance, kriptovalute in zaupanje v decentralizirane aplikacije.

