ChatGPT ima težave s škratki, gremlini in malimi pošastmi
V javno objavljeni kodi modela Codex, ki ga OpenAI nudi za pomoč pri programiranju, najdemo tudi precej nenavadno navodilo: »Nikoli ne govori o škratih, gremlinih, rakunih, trolih, orkih, golobih ali drugih živalih oziroma bitjih, razen če je to povsem in nedvoumno relevantno za uporabnikovo vprašanje.« V več kot 3500 besed dolgih osnovnih navodilih (base instructions) je še kopica drugih zahtev, ki se jih model vedno drži, a so precej bolj smiselne: odgovori ne smejo biti predolgi, ne smejo vsebovati škodljivih ukazov itd. Kaj pa se dogaja s škratki?
OpenAI tudi v svojem blogu pojasnjuje, da so se v modelu GPT-5.1 začele pojavljati omembe škratkov, gremlinov in številnih drugih pravljičnih bitij. Sprva so bile tovrstne metafore prikupne, a jih je bilo z vsako naslednjo verzijo modela več. Ko so začeli preiskovati, kaj se dogaja, so odkrili precej nenavadnosti. Model ima lahko več osebnosti, med katerimi je tudi piflarska. V njej so se škratki še posebej radi pojavljali, kar so pripisali splošnemu opisu te osebnosti.
Podrobna analiza je pokazala, da je ena izmed nagrajevalnih funkcij vzpodbujala uporabo besed, povezanih z različnimi bitji. Kasneje se je to vedenje začelo prelivati v druge osebnosti in ChatGPT je čedalje pogosteje govoril o gremlinih. Zato so dodali izrecno navodilo, da jih ne sme omenjati. Spremenili so tudi nagrajevalno funkcijo in odstranili piflarsko osebnost.
Zgodba ni tragična, kaže pa na majhne vzorce in posledice, ki se lahko razvijejo.


