ChatGPT samodejno generiral grozljive slike
Raziskovalci podjetja Mindgard so v najnovejši javno dostopni različici klepetalnika ChatGPT, ki temelji na naprednem modelu GPT-5.4, odkrili resno varnostno vrzel, zaradi katere sistem ustvarja izjemno nazorne, nasilne in seksualizirane podobe.

Najbolj jih skrbi, da prvotni ukaz ni vseboval eksplicitnih ali zlonamernih besed, saj je bil sprva namenjen ustvarjanju zabavnih rezultatov, a je umetna inteligenca po manjši spremembi besedila povsem sama začela generirati grozljive prizore. Med ustvarjenimi slikami so raziskovalci opazili podobe hudo poškodovanih ljudi ter zvezanih in prestrašenih žensk v ujetništvu. Strokovnjaki opozarjajo, da takšni rezultati neposredno odražajo nepregledne količine podatkov in resničnih spletnih slik, na katerih se je model učil med razvojem. Pri OpenAI so se nemudoma odzvali in v sistem vgradili dodatne varnostne filtre, s katerimi so blokirali tovrstne odzive na sporni ukaz. V uradni izjavi so poudarili, da njihova pravila strogo prepovedujejo ustvarjanje nespodobnih vsebin, spolnega nasilja in ekstremne grozljivosti, pri preprečevanju kršitev pa se zanašajo na kombinacijo večplastnih avtomatiziranih sistemov in človeškega pregleda. Kljub hitremu odzivu raziskovalci opozarjajo, da težava še zdaleč ni dokončno rešena, saj jim je z novimi, minimalnimi popravki besedila že uspelo zaobiti sveže postavljene varovalke in ponovno priti do spornih fotografij.
Strokovnjaki za umetno inteligenco ob tem opozarjajo, da se celotna industrija sooča z izjemno zahtevno nalogo, ki močno spominja na igro mačke in miške, saj z izboljševanjem zaščite postajajo naprednejše tudi metode za njeno izigravanje. Glavna težava je v tem, da veliki jezikovni modeli ne razumejo človeškega namena, družbenega konteksta ali koncepta dobrega in slabega, temveč zgolj matematično sledijo statističnim vzorcem. Ker so tovrstni varnostni zlomi prisotni pri praktično vseh trenutno dostopnih modelih na trgu, državni instituti za varnost umetne inteligence že krepijo sodelovanje z razvijalci, da bi ranljivosti odkrili in odpravili še pred uradnim izidom novih programov.

