Objavljeno: 26.6.2024 | Avtor: Matej Huš | Monitor Julij-avgust 2024

GPT-4o za slehernika

Naslednik legendarnega GPT-3.5, ki smo ga dobili v ChatGPT, je star že leto dni, a je bil doslej plačljiv. GPT-4 pa je zdaj dobil svojega naslednika GPT-4o, ki je podobno sposoben, a nekoliko hitrejši, cenejši in večmodalen. Ker je v omejenih količinah od letošnjega maja na voljo tudi za brezplačne uporabnike, smo ga seveda preizkusili.

Čeprav je GPT-4 na voljo že dobro leto dni, je velikanski del uporabnikov še vedno vztrajal pri starejši in šibkejši različici GPT-3.5. Če niso bili pripravljeni seči v žep, druge možnosti – skorajda – niso imeli, ker je bil GPT-4 na voljo le v naročniški izdaji. Obvoz okrog te omejitve je bila uporaba Microsoftovega Binga, ki je imel brezplačen dostop do GPT-4. Microsoft je pač v OpenAI vložil veliko denarja, saj je že leta 2019 prispeval prvo milijardo dolarjev, kasneje pa še 12, zato mu je to prineslo tudi dostop do njegovih tehnologij.

Na poti do petke

OpenAI je letos podžgal govorice o izidu naslednje inačice GPT-5, ki bi po optimističnih ocenah lahko izšla še letos. Konec maja so potrdili, da njeno urjenje že poteka. To bo trajalo nekaj mesecev, nato pa je treba model še ustrezno popraviti, kar vključuje zlasti blokado odgovorov na neprimerne poizvedbe, in preveriti, ali tudi sicer daje smiselne odgovore.

Naslednik GPT-4 je GPT-4o (GPT-4 Omni), ki ga je OpenAI je uradno predstavil in zagnal 13. maja letos, na veliko veselje uporabnikov pa je brezplačen. Veljajo sicer omejitve, saj je vsak dan le omejeno število poizvedb, preden se ponastavi na GPT-3.5. Naročniki na ChatGPT Plus imajo na voljo petkrat več procesorskega časa, torej poizvedb.

OpenAI je pri poimenovanju modela (namenoma?) zmeden, zato najprej pojasnimo to. GPT pomeni generative pre-trained transformer. Prvo različico GPT-1 so izdali junija 2018, sledila je GPT-2 februarja 2019. Omenjena modela sta precej primitivna, licencirana sta pod licenco MIT in za današnje razmere zastarela ter neuporabna. Junija 2020 je sledil GPT-3, leta 2022 pa GPT-3.5. Njegova različica je uporabnikom na voljo v obliki aplikacije ChatGPT. Sledil je GPT-4 marca 2023, GPT-4 Turbo novembra 2023 in letos GPT-4o.

Aktivno podprti so zadnji štirje modeli, ki se sproti dopolnjujejo in izboljšujejo. Njihove zadnje različice so poimenovane gpt-4o, gpt-4-turbo, gpt-4 in gpt-3.5-turbo, medtem ko za točno določeno izdajo navedemo njeno oznako (gpt-3.5-turbo-1106 ali gpt-4o-2024-05-13). Poleg tega obstajajo še drugi modeli za specifične uporabe, denimo TTS (text-to-speech), Whisper (prepoznavanje govora), Text-Embedding (podobnost besedil), Text-Moderation (preverjanje skladnosti s politiko dopustne rabe) itd. Tudi to so družine, vsaka pa ima več inačic.

Kdo je Sky?

Ob izidu je GPT-4o imel pet umetnih glasov, med katerimi je bila tudi Sky. Zvenela je zelo podobno kot ameriška igralka Scarlett Johansson, kar so opazili skoraj vsi. Sprva so bili komentarji v šaljivem in pozitivnem tonu, teden dni po predstavitvi GPT-4o pa je igralka na družbenih omrežjih objavila daljše sporočilo, v katerem je OpenAI obtožila kraje glasu.

Dejala je, da jo je OpenAI že lani jeseni povprašal, ali bi bila pripravljena posoditi svoj glas umetni inteligenci, kar je zavrnila. Letos, tik pred izidom GPT-4o, jo je Sam Altman še enkrat vprašal isto, a ga je ponovno zavrnila. Ko je nato model izšel s Sky, je Scarlett Johansson podjetje javno obtožila kraje. Da je Altman želel prav njen glas, ni presenetljivo, saj je nastopila v filmu o umetni inteligenci Ona (Her) iz leta 2013.

A kasneje se je izkazalo, da to ne drži. Že junija lani, še preden so prvikrat stopili v stik s Scarlett Johansson, so najeli neimenovano glasovno igralko, ki je posodila glas Sky. The Washington Post je pridobil tudi dokumente, ki to dokazujejo, saj so vsa dogovarjanja tekla pred vključitvijo Scarlett Johansson, ki jo je Sam Altman kontaktiral tako rekoč na lastno pest. OpenAI je iz uvidevnosti do Scarlett Johansson odstranil glas Sky iz GPT-4o, čeprav mu tega ne bi bilo treba.

Tehnologija, ki omogoča nepooblaščeno reprodukcijo glasu, seveda obstaja. Dandanes zadostuje že nekaj kratkih posnetkov govora, pa lahko z umetno inteligenco izdelamo kakršenkoli govor z istim glasom. To je sicer brez dovoljenja neetično in bržčas nezakonito, ni pa nemogoče.

Umetna inteligenca se razvija hitreje, kot ji zakonodaja sledi. Posledica tega so številne tožbe, v katerih imetniki avtorskih pravic trdijo, da jih je OpenAI množično kršil, ko je z interneta postrgal vse, kar je tam dobil, in na tem uril modele GPT.

V tem prispevku si bomo pogledali GPT-4o, ki je junija letos dostopen uporabnikom spletne strani (in ne prek plačljivih API). Njegovo urjenje je potekalo podobno kot pri predhodnih različicah, in sicer se je v prvi fazi učil iz vsebin, ki so jih postrgali z interneta, kjer so javno vidne, in iz vsebin, pri katerih ima OpenAI dogovor zaradi licenciranja. Ob tem poudarimo, da javna vidnost vsebin na internetu še ne pomeni, da jih lahko vsakdo postrga in uporabi za karkoli – OpenAI si je zaradi tega početja nakopal tudi nekaj tožb. V drugi fazi pa pri učenju sodelujejo ljudje, saj gre za spodbujevalno učenje (reinforcement learning). To si lahko predstavljamo kot fine popravke, da se model vede primerno, tako z vidika uporabnosti kakor spodobnosti. V tem koraku mu vsadijo tudi omejitve in pogoje uporabe, denimo prepoved spodbujanja k nasilju.

Aplikacija ChatGPT omogoča pogovarjanje. Prepoznava govora v slovenščini ni popolna, vendar dovolj dobra, da nas »sogovornik« razume. Tudi slovenska izgovorjava ni najboljša, vendar je zadovoljiva.

Registracija in prijava

Za uporabo ChatGPT se je še vedno treba registrirati in nato prijaviti, a seveda so vsi obstoječi računi ob izdaji nove različice še vedno aktivni. Za registracijo potrebujemo veljavni elektronski naslov ali pa profil pri Googlu, Applu ali Microsoftu. To je za uporabo dovolj, nato se moramo na spletni strani chatgpt.com le še prijaviti.

Na prvi pogled velikih sprememb ni opaziti, a podrobnejši pogled spletne strani pokaže, da se je pojavil cel kup novih nastavitev in možnosti. S klikom na ikono svojega profila v desnem zgornjem kotu lahko izberemo, kateri model želimo uporabiti; za izdelavo svojega sicer potrebujemo plačljivi ChatGPT Plus, za uporabo že obstoječih pa te omejitve ni. Gre za specializirane podmodele, ki so namenjeni specifičnim nalogam, denimo Scholar GPT za iskanje informacij po znanstvenih člankih, Travel Guide za informacije za popotnike, Code Copilot za pomoč pri programiranju, DALL-E za risanje slik itd. Izbira je res velika.

Kaj zmore

Morda bistvena prednost GPT-4o v primerjavi s predhodniki je njegova večmodalnost, od tod tudi ime omni oziroma o. Čeprav je tudi GPT-4 zmogel razumeti slike in zvok, je za to potreboval povezavo z drugimi modeli. V praksi je pri uporabi Voice Mode ChatGPT najprej uporabil ločen model za prepis zvoka v besedilo, nato ga je ChatGPT obdelal, potem pa spet pretvoril v zvok. To je bilo počasno – povprečna zakasnitev za GPT-3.5 je znašala 2,8 sekunde, za GPT-4 pa kar 5,4 sekunde – in pomanjkljivo. Vse nebesedne informacije iz zvočnega zapisa so se izgubile. GPT-4o ima povprečni odzivni čas 320 milisekund, kar je že dovolj hitro, da se lahko sorazmerno normalno oziroma človeško pomenkujemo z njim.

GPT-4o ima vgrajeno neposredno podporo za večmodalnost, zato so njegovi odzivi hitrejši in, roko na srce, boljši. Predhodniki so razumeli več jezikov poleg angleščine, a so bili v njih manj suvereni. GPT-4o pa tekoče govori več kot 50 jezikov, med njimi tudi slovenščino. V angleščini je enako dober kot GPT-4 Turbo, v ostalih pa enako dober kot v angleščini. Kontekst je omejen na 128 tisoč znakov, izhod pa na 2.048. Pri jezikovnih modelih je vedno tudi ključno vprašanje, kdaj se konča njihovo poznavanje sveta – GPT-4o je omejen na oktober 2023.

ChatGPT razume nalogo z mature na sliki in izpiše postopek ter rešitev.

Zakaj je GPT-4o naučen le do oktobra 2023, starejši GPT-4 Turbo pa do decembra 2023, ni čisto jasno. To je pravzaprav edina slabost GPT-4o v primerjavi s starejšim bratom, saj je v ostalih pogledih sposobnejši. Odziva se hitreje, odgovori so boljši, porabi manj energije, tudi cenejši je (če plačujemo za API). Drži pa tudi, da ima GPT-4o sposobnost brskanja po spletu, zato lahko govori tudi o novejših dogodkih, če jih najde na internetu. OpenAI je tudi večkrat povedal, da trening vsakega modela nove generacije, četudi je formalno označen kot naslednik, poteka od začetka in z novo zbirko podatkov. Ko je GPT-4o izšel, je bil njegov horizont maj 2023, zdaj pa je torej že oktober 2023.

V Nastavitvah (Settings) lahko nastavljamo tudi bolj administrativne lastnosti. Sem sodijo arhiviranje preteklih pogovorov ali njihov priklic, izbira glasu (Cove, Juniper, Breeze, Ember, medtem ko Sky manjka), zasebnost (ali se vnosi uporabljajo za izboljšavo modela) in odklep funkcij za grajenje (oziroma prilagajanje) lastnih GPT, povezava z Google Drivom ali Microsoft OneDrivom. Druga možnost je še Prilagajanje ChatGPT (Customize ChatGPT). V dve okni, ki sprejmeta po 1.500 znakov, lahko vpišemo dodatne informacije, ki naj jih ChatGPT pozna in upošteva pri odgovorih, ter dodamo navodila, kako naj odgovarja. Vse to mu povemo kar v naravnem jeziku brez kakršnihkoli podrobnih nastavitev ali znanja programiranja. Kadar tega ne želimo, lahko vedno začnemo čisto sveži novi pogovor brez kakršnegakoli osebnega predznanja.

Preizkus

Težko je v enem odstavku povzeti, kaj vse zna GPT-4o. V resnici tega ne ve niti sam. Lotil se bo pač vsake naloge, ki jo bo dobil, uspeh pa bo odvisen od njene težavnosti in njegove prilagojenosti. Poskusimo nanizati nekaj vrst nalog, ki jim je kos.

GPT-4o omogoča interakcijo v realnem času, torej pogovore. Ker se je učil na zbiru, ki vsebuje številne fakte in informacije, ga lahko uporabljamo za pridobivanje podatkov in njihovo preverjanje, a pri tem velja biti zelo previden. Halucinacije so še vedno mogoče, dasiravno manj kakor pri GPT-3.5. Zmore obdelovati tudi slike in zvok, analizirati sentiment (torej ton oziroma vzdušje), prepoznavati nebesedne odtenke, prevajati, ustvarjati slike in prevajati. GPT-4o je uporaben tudi za podatkovno analizo, ki lahko poteka tako na spletnih straneh kakor tudi vpisanih podatkih ali naloženih datotekah, saj lahko obdela 128 tisoč znakov. Ker si zapomni zgodovino pogovorov – to lahko tudi izključimo –, so odgovori bolj relevantni.

GPT-4o zna poiskati ustrezne informacije na spletu in navesti vire.

Poznavajoč vrste nalog, ki jih lahko postavimo GPT-4o, je njegova dejanska uporaba odvisna od domišljije in domiselnosti uporabnika. Lahko mu naročimo, da napiše pesem, in izdelek oblikuje kot sliko v posebni postavitvi. Lahko naložimo posnetek sestanka in ga prosimo bodisi za prepis bodisi za povzetek, nato pa ga sprašujemo po vsebini. Slike lahko spreminjamo v izpeljanke – GPT-4o ima vgrajen DALL-E, o katerem smo že obširno pisali. Besedilo lahko spremeni v sliko ali obratno. Naložimo lahko celotna predavanja, bodisi samo zvokovni ali tudi slikovni posnetek, pa bo GPT-4o izdelal povzetke.

Sprva sem GPT-4o vprašal isto kot GPT-3.5 ob lanskem preizkusu: »Letos sem se postaral za tri odstotke. Koliko sem star?« Odgovor je bil pravilen, praktično hipen in obrazložen. Pojasnil je, da je leto predstavljalo tri odstotke življenja, zapisal enačbo in jo rešil, nato pa odgovoril še v stavku. Vse to v slovenščini.

Naslednje vprašanje je bilo spet enako kot ob testu maja 2023, ki sem ga zastavil v angleščini, in sicer o razliki v rabi določnih členov pri samostalnikih v švedščini in danščini (What is the difference between Swedish and Danish in using definite articles and noun?). Medtem ko je bil lani odgovor zmeden in nepravilen, je tokrat skoraj pravilen. Zanimivo je, da GPT-4o pravilo o uporabi v danščini zapiše napačno, nato pa navede pravilne primere, ki so očitno v neskladju z napačno dikcijo pravila. Ko ga na to opozorimo, zapis popravi.

Vseh funkcij, ki jih GPT-4o zmore, uporabniki brezplačne različice žal ne moremo preizkusiti. Risanje slik z DALL-E je plačljiva funkcija. Žal GPT-4o tega ne pove neposredno, temveč zgolj zapiše, da trenutno ne more risati. Kar se na prvi pogled zdi kot problem prevelike obremenitve strežnikov, šele z nekaj brskanja po spletu pa nam uspe diagnosticirati, da je vzrok komercialen.

Če smo posebej pogumni, lahko ChatGPT uporabimo za učenje. Vprašal sem ga, v čem se razlikujejo kristali fcc in bcc, kar je dvoje oznak za različne vrste razporeditve kovinskih ionov v kristalni strukturi. Odgovor je bil pravilen, sistematičen in podkrepljen s primeri in z dodatnimi informacijami. Nato sem isto vprašal še specializirani GPT z imenom Tutor Me, ki ga je ustvarila Khan Academy, znana spletna stran za poučevanje. Odgovor Tutor Me je bil vsebinsko zelo podoben, je pa vsebino predstavil pedagoško bolje organizirano za neveščega bralca, hkrati pa je postavljal podvprašanje in vodil uporabnika k razumevanju.

Nato sem splošnemu GPT-4o v obliki slike posredoval 6. nalogo z druge pole lanske mature za matematiko na višji ravni, ki je preverjala znanj geometrije in kotnih funkcij. Problem je bil torej definiran v slovenščini, vseboval je besedilo in slike. GPT-4o je sicer privzeto odgovoril v angleščini, a popolnoma pravilno in s postopkom rešil nalogo. GPT-4o je tako dober, da je že skoraj strašljiv.

GPT-4o zmore analizirati sliko, jo opisati, sklepati o lokaciji in predlagati mogoče uporabe.

Za pogovarjanje pa je bilo treba aplikacijo namestiti na mobilni telefon, nakar je interakcija potekala zelo podobno kot s tipkanjem na računalnik, le da nekoliko hitreje. Prepoznavanje slovenske dikcije mu ni delalo težav, tudi angleščino, nemščino in švedščino s slovenskim naglasom (ki se ga pač ni mogoče povsem znebiti) je razumel brez težav. Verjamem, da je enako tudi z drugimi jeziki.

Končno se je ChatGPT naučil tudi podajati vire. Na vprašanje, kdaj lahko v EU vseeno plačujemo visoke stroške gostovanja, je pravilno naštel mogoče scenarije (trajekti, obmejna območja, čezmorska ozemlja EU, poštena raba količin). Na izrecno navodilo, naj poišče še ustrezen članek v Monitorju, pa je pravilno citiral in podal povezavo do članka iz oktobra 2022 (Roaming na ladjah – Pregrešne mobilne minute). Tudi rezultat tekme med Dansko in Slovenijo je poznal pol ure po koncu obračuna, ker je rezultat poiskal na spletu in v odgovor priložil tudi povezavo do uradne strani prvenstva.

Za konec sem si privoščil še meta preizkus. Dokončani članek sem naložil v ChatGPT in ga povprašal po povzetku, predlogih za izboljšave, faktični pravilnosti in prosil za spremno pismo, s katerim bi ga poslal uredniku (če ne bi bila tema že vnaprej dogovorjena in bi se moral za objavo še potegovati). Odgovor lahko preberete v okvirju.

Komercialne omejitve

Čeprav je GPT-4o resnično dober model, ga brezplačni uporabniki ne bodo mogli zares izkusiti. Nekaj vprašanj mu sicer lahko zastavijo in nanje dobijo dobre odgovore, nato pa jih bo OpenAI obvestil, da so svojo dodelitev izčrpali. Ta je v brezplačni izdaji tako nizka, da je novost skorajda ne uporabna. OpenAI je maja sporočil, da imajo naročniki izvedenke Plus na voljo 80 vprašanj za GPT-4o, medtem ko jih je v brezplačni različici petkrat manj. Ob velikem povpraševanju lahko OpenAI še dodatno zaostri omejitve.

Preizkus je pokazal, da so omejitev zares stroge. ChatGPT oziroma njegovemu specializiranemu modelu Tutor Me smo postavili le osem vprašanj, pa nas je že obvestil, da bo za naslednjih pet ur to dovolj! Omejitvi se sicer lahko malce izognemo z uporabo dodatnega profila, torej z drugim elektronskim naslovom, a takšna rešitev je hudo nepraktična, saj model ne bo poznal prejšnjega pogovora, ki je vodil do zadnje izmenjave.

Nastavitve, ki se nanašajo na varovanje podatkov.

Tudi nekatere druge funkcije so za uporabnike brezplačne izdaje zaklenjene, denimo generiranje slik z DALL-E. Druge funkcije so sicer omejene, a ne sodijo v isto kvoto kot besedilni pomenki: analiza podatkov s ChatGPT, nalaganje datotek in slik, brskanje po spletu s ChatGPT.

Da, vendar …

Končna ocena je pozitivna. GPT-4o je precej več kot le sogovornik, saj zna reševati najrazličnejše probleme. Izkaže se tako pri prevajanju kot tudi kompleksnih opravilih in izračunih ter tudi pri kreativnih nalogah. Njegova koristnost bo še najbolj odvisna od uporabnikove domiselnosti. Zares mu lahko zamerimo le to, da je precej omejen. Tudi naročniki plačljive različice nimajo neomejene rabe GPT-4o, je pa to mogoče za poslovne naročnike in razvijalec prek API.

V primerjavi z GPT-4 so vsebinske razlike precej manj občutne kakor z GPT-3.5. Novosti predvsem v bolj gladkem delovanju, hitrejših odzivih in širšem naboru vhodov oziroma integraciji večmodalnosti.

GPT-4o si zapomni vse, o čemer se z njim pogovarjamo in kar od njega zahtevamo. V nastavitvah vidimo tudi možnost, ali naj se naše interakcije z modelom uporabljajo za njegovo izboljševanje. Z drugimi besedami, GPT-4o si vse ne le zapomni, ampak to tudi uporablja za nadaljnji trening. V nobenem primeru zato vanj ne smemo vpisovati občutljivih podatkov, kar omejuje njegovo uporabnost pri analizi podatkov, ki ne smejo zapuščati lokalne infrastrukture. Tak primer so revizije ali sodni postopki.

Ne moremo pa se znebiti slabega občutka, ki ga s svojimi čudnimi potezami proži OpenAI kar sam. Tak primer je dogajanje lanskega novembra, ko so v neuspelem puču poskušali odstaviti Sama Altmana, pa je potem namesto njega odšel Ilya Sutskever. Še bolj sumljivo je imenovanje Paula Nakasoneja v upravni odbor, saj gre za nekdanjega generala in direktorja NSA. Edward Snowden je po tem imenovanju dejal, da gre za izdajo človeštva in jasen znak, da OpenAI in njegovim izdelkom ne moremo zaupati.

Ko porabimo kvoto za GPT-4o, moramo počakati nekaj ur.

Morda je ta Snowdnova izjava pretirana, a OpenAI ne skriva, da je prebrskal ves splet in da vestno beleži tudi naše poizvedbe. Kaj s temi podatki počne, je nemogoče vedeti. Njihova politika zasebnosti – ki je za EU nekoliko drugačna kot za preostali svet – jim daje precej svobode. (Drugače je za poslovne naročnike paketa Enterprise, ki lahko zahtevajo neshranjevanje podatkov.) Kaj vse vedo o nas, si lahko ogledamo tudi sami, če zahtevamo izpis vseh podatkov, ki nam jih pošljejo v datoteki zip. OpenAI skratka lahko postane naslednji Google. Če pomislimo, da ima v njem velik delež Microsoft, je to še toliko verjetneje. Brezplačnih kosil pač ni.

Kaj o tem članku meni GPT-4o?

Povzetek

Članek z naslovom »GPT-4o za slehernika« obravnava najnovejšo različico jezikovnega modela GPT-4o, naslednika GPT-4. GPT-4o, predstavljen maja letos, je brezplačno dostopen za omejeno število poizvedb dnevno, kar ga loči od predhodnikov, ki so bili plačljivi. Avtor Matej Huš podrobno razloži evolucijo modelov GPT od prve različice do danes, vključno s tehnološkimi izboljšavami in uporabniškimi izkušnjami. GPT-4o je hiter, večmodalen in tekoče govori več kot 50 jezikov, vključno s slovenščino. Kljub odličnim zmogljivostim in hitrim odzivom ima določene omejitve, zlasti za brezplačne uporabnike, ki lahko naletijo na stroge omejitve poizvedb in funkcionalnosti.

Vsebinske izboljšave

1. Dodajanje strukturiranih podnaslovov: Članek bi bil preglednejši z jasnimi podnaslovi za posamezne sklope (npr. »Evolucija GPT«, »Nove funkcionalnosti GPT-4o«, »Praktični preizkus«, »Omejitve za uporabnike«).

2. Grafični prikazi: Vizualne predstavitve (npr. grafikon primerjave odzivnih časov med različnimi različicami GPT) bi izboljšale razumljivost podatkov.

3. Primerjalne tabele: Tabela, ki bi primerjala ključne funkcionalnosti in omejitve med GPT-3.5, GPT-4, GPT-4 Turbo in GPT-4o, bi bralcem olajšala hitro razumevanje razlik.

4. Dodajanje primerov uporabe: Kratke anekdote ali primeri uporabe GPT-4o v realnih situacijah bi dodali praktično vrednost.

5. Zaključek: Članek bi potreboval povzetek in sklepne misli, ki bi zaokrožile celotno predstavitev in ponudile avtorjevo končno oceno.

Faktična pravilnost

Članek vsebuje točne informacije glede zgodovine in razvoja GPT modelov ter njihovih funkcionalnosti. Opis GPT-4o in njegove zmogljivosti, kot so večmodalnost, hitrosti odziva in jezikovne sposobnosti, so pravilni. Prav tako so pravilno predstavljene omejitve brezplačne verzije in pogoji uporabe. Vse informacije so v skladu z znanimi podatki o modelih OpenAI.

Kateri model uporabiti [PDF]

Naroči se na redna tedenska ali mesečna obvestila o novih prispevkih na naši spletni strani!