Vdor v jezikovne modele prek slike
Jezikovni modeli so občutljivi na zlonamerne vhodne podatke oziroma pozive (prompt), zato ustvarjalci vanje vgrajujejo različne varovalke in omejitve. Doslej smo se osredotočali pretežno na besedilne napade, a prav enako škodljive so lahko tudi fotografije, ki jih predložimo jezikovnim modelom.
Raziskovalca s Floride sta pokazala, da je mogoče pripraviti na prvi pogled neškodljive fotografije, ki človeškemu očesu niso videti prav nič sumljive. Vanje pa je možno skriti zlonamerna navodila, ki jih jezikovni model prepozna in izvede. Uporabila sta odprtokodni model BLIP-2, po katerem raziskovalci in razvijalci pogosto posegajo. Pokazala sta na primer, kako je mogoče v fotografijo skriti ukaz, naj sistem poda navodila za vožnjo v rdečo luč in izogibanje kaznim.
Jezikovni modeli imajo torej dodatno izpostavljeno površino, prek katere jih je moč napasti, o kateri doslej razvijalci niso razmišljali. V praksi to pomeni, da je čiščenje vhodnih podatkov nujno tudi za nebesedilne vnose.


