OpenAI razkriva, kako v resnici deluje umetna inteligenca
Podjetje OpenAI, razvijalec ChatGPT, je ustvarilo eksperimentalni veliki jezikovni model, ki ga je bistveno lažje razumeti kot običajne modele.
Will Douglas Heaven, MIT Technology Review

To ni od muh, saj so današnji veliki jezikovni modeli kot črne skrinjice: nihče natančno ne razume, kako počnejo to, kar počnejo. Razvoj modela, ki je preglednejši, osvetljuje delovanje velikih jezikovnih modelov na sploh in raziskovalcem pomaga razvozlati, zakaj modeli halucinirajo, zakaj iztirijo in v kakšni meri bi jim sploh smeli zaupati ključne naloge.
»Z vse večjo zmogljivostjo umetnointeligenčnih sistemov se jih bo tudi vse pogosteje vključevalo na zelo pomembnih področjih,« je med ekskluzivnim predogledom za MIT Technology Review povedal Leo Gao, raziskovalec pri OpenAI. »Zelo pomembno je poskrbeti za njihovo varnost.«
Raziskave so še vedno v začetni fazi. Novi model, imenovan transformator redkih uteži (weight-sparse transformer), je mnogo manjši in precej manj zmogljiv kot vrhunski komercialni modeli, na primer GPT-5 podjetja OpenAI, Anthropicov Claude in Gemini Google DeepMinda. Po Gaojevih besedah je zmogljiv kvečjemu toliko kot GPT-1, model, ki ga je OpenAI razvil leta 2018 (s kolegi niso opravili neposredne primerjave).
A cilj ni tekmovati z najboljšimi (vsaj za zdaj še ne), temveč želi OpenAI s preučevanjem delovanja tega eksperimentalnega modela predvsem bolje razumeti skrite mehanizme znotraj večjih in boljših različic tehnologije.
Gre za zanimive raziskave, pravi Elisenda Grigsby, matematičarka z bostonskega kolidža, ki preučuje delovanje velikih jezikovnih modelov in pri projektu ni sodelovala: »Prepričana sem, da bodo metode, ki jih prinaša, imele opazen vpliv.«
Lee Sharkey, raziskovalec pri zagonskem podjetju Goodfire, se strinja: »Ta raziskava gre v pravo smer in se zdi dobro izvedena.«
Zakaj je modele tako težko razumeti
Delo OpenAI sodi v hitro razvijajoče se raziskovalno področje, imenovano mehanistična interpretabilnost; ta poskuša določiti notranje mehanizme, ki jih modeli uporabljajo pri izvajanju nalog.
To je težje, kot zveni. Veliki jezikovni modeli so namreč sestavljeni iz nevronskih mrež, ki jih tvorijo vozli, imenovani nevroni, razporejeni v plasteh. V večini mrež je vsak nevron povezan z vsemi v sosednjih plasteh. Takšno ureditev imenujemo gosta mreža.
Učenje gostih mrež je razmeroma učinkovito in gladko opravljajo svoje naloge, vendar to, kar se naučijo, razporedijo po velikem vozlišču povezav. Tako se lahko preprosti pojmi in funkcije včasih porazdelijo med nevrone v različnih delih modela. Hkrati se lahko zgodi, da posamezni nevroni predstavljajo več različnih funkcij. To je pojav, znan kot superpozicija (izraz, izposojen iz kvantne fizike), zato točno določenih delov modela ni mogoče povezati s točno določenimi koncepti.
»Nevronske mreže so velike, zapletene, prepletene in zelo težko razumljive,« pravi Dan Mossing, vodja ekipe za mehanistično interpretabilnost pri OpenAI. »Zato smo si rekli, kaj pa, če bi mi poskusili drugače.«
Namesto modela z gosto mrežo je OpenAI začel z vrsto nevronske mreže, imenovane transformator redkih uteži (weight-sparse transformer), v kateri je vsak nevron povezan le z nekaj drugimi. To model prisili, da funkcije izrazi v lokaliziranih grozdih, namesto da bi jih razpršil.
Model je veliko počasnejši od komercialnih velikih jezikovnih modelov, je pa zato nevrone oziroma skupine nevronov lažje povezati s točno določenimi koncepti in funkcijami. »Razlika v interpretabilnosti je res izjemna,« pravi Gao.
Gao in sodelavci so novi model preizkusili z zelo preprostimi nalogami. Prosili so ga, naj dopolni besedilo, ki se začne z narekovaji, tako da na koncu doda ustrezna ločila.
Za vsak veliki jezikovni model je to banalna naloga, a razčlenjevanje celo tako preprostega postopka razkrije, da se za njim skriva zapleten klobčič nevronov in povezav, je pojasnil Gao. Kljub temu jim je pri novem modelu uspelo natančno slediti posameznim korakom.
»Dejansko smo odkrili tokokrog, ki ustreza predvidenemu ročnemu postopku, kot bi ga ubral človek, model pa se ga je v celoti sam naučil,« je razložil. »To je res izjemno in zanimivo.«
Kako se bodo raziskave nadaljevale? Grigsby dvomi, da bi bila ta tehnika primerna za prenašanje na večje modele, ki morajo obvladovati težje naloge.
Gao in Mossing priznavata, da ima model v sedanji obliki veliko omejitev ter da s takšnim pristopom ne bodo prišli do modelov, ki bi se lahko kosali z najnaprednejšimi, kot je GPT-5. A OpenAI vseeno ocenjuje, da bi tehniko lahko izboljšali vsaj do transparentnega modela na ravni GPT-3, s katerim so leta 2021 dosegli takšen preboj.
»Morda bomo v nekaj letih imeli povsem interpretabilen GPT-3, tako da bomo lahko pogledali v vsak njegov del in razbrali, kako opravi posamezno nalogo,« upa Gao. »Če bi imeli tak sistem, bi se iz njega ogromno naučili.«
Copyright 2025 Technology Review. Distribucija Tribune Content Agency.

