Objavljeno: 27.8.2024 | Avtor: Vladimir Djurdjič | Monitor September 2024

Veliki jezikovni model in Slovenščina

Veliki jezikovni model in Slovenščina

Prihajajoče obdobje množične rabe umetne inteligence močno sloni na velikih jezikovnih modelih (LLM) kot temelju za storitve, kjer za komunikacijo uporabljamo pogovor v naravnem jeziku. Toda manjši jeziki, med katerimi je tudi slovenščina, v velikih jezikovnih modelih, ki jih nudijo spletni velikani, niso enakopravno obravnavani. Paziti moramo, da bomo kot država uveljavili svoj nacionalni interes – uporabo slovenščine.

Generativna umetna inteligenca in veliki jezikovni modeli so zaradi kakovosti odgovorov v naravnem jeziku hipoma navdušili široko javnost, tako strokovnjake kot končne uporabnike. Zaradi navdušenja smo (še vedno) voljni trpeti občasne napake, »halucinacije«, pristranskosti pri odgovorih, ne tako redke kršitve intelektualnih pravic in muhasto delovanje, kajti koristi odtehtajo trenutne pomanjkljivosti.

Ker gre za še zelo mlado tehnologijo, je bilo pri dosedanji izdelavi velikih jezikovnih modelov narejenih cel kup napak. Nekaj takih, ki so razkrivale zasebne podatke in povzročale pristranske, včasih celo rasistične odgovore, smo srečali tudi v javnih objavah in razpravah. Toda nekaj temeljnih odločitev, na primer o podpori nekega jezika in virov v tem jeziku, je bilo doslej v rokah le peščice snovalcev teh modelov. Če bodo jezikovni modeli postali temelj nadaljnje digitalizacije družbe, je to vsekakor sporno, če že ne skrb vzbujajoče.

Trenutno stanje podpore za različne jezike najbolj ponazarja naslednji podatek: OpenAI je pri urjenju jezikovnih modelov GPT-3 in GPT-4 uporabil podatke, ki so bili v 92 odstotkih v angleščini. V preostalih osmih odstotkih so vsi ostali svetovni jeziki (!). Če ChatGPT vprašamo, koliko od teh osem odstotkov odpade na slovenščino, natančnega odgovora na zna podati, sodi pa, da je tega manj kot odstotek. Menim, da se moti, vejico bi moral v levo premakniti za kar nekaj mest.

Hecno je, da ChatGPT kljub temu prav spodobno odgovarja na vprašanja v slovenskem jeziku, večinoma brez očitnejši napak, vsaj v pisni obliki. Razlog verjetno tiči v dejstvu, da je za pravilno interpretacijo in generiranje slo5venskega jezika dovolj že relativno majhna podatkovna zbirka. Utegne pa se to poznati pri kakovosti znanja, slovnični pravilnosti, morda tudi nagnjenosti (bias) k določeni »resnici«.

Sploh pa je pri sedanjih največjih jezikovnih modelih problematično to, da so za nadaljnjo (poslovno) rabo in integracijo v druge programe v večini primerov plačljivi. To nas na dolgi rok kot družbo, celo celotne države, spravlja v podrejen položaj, odvisnost, katere razsežnosti začenjamo šele slutiti.

Prav zato je toliko pomembneje, da se pri tako strateških podatkih opremo na lastno znanje in lastne izdelke, kjer je to mogoče in izvedljivo. V zadnjem mesecu sem tako z veseljem spoznal obstoj projekta Prilagodljive obdelave naravnega jezika s pomočjo velikih jezikovnih modelov ali drugače povedano PoVeJMo. Neuradno bi mu lahko rekli Slovenska Llama, saj temelji na ponovnem učenju (retreningu) osnovnega odprtokodnega modela Llama, ki ga je razvil Facebook, pardon, Meta. Tudi podobni projekti v drugih državah večinoma izhajajo iz tega modela.

Projekt PoVeJMo nastaja pod okriljem Centra za jezikovne vire in tehnologije Univerze v Ljubljani (CJVT, www.cjvt.si), ki je namenjen znanstvenemu raziskovanju, vzpostavljanju in vzdrževanju digitalnih jezikovnih virov ter pripadajočih orodij. Cilj je izdelati lastni, slovenski veliki jezikovni model (LLM), ki bo odprt in na voljo vsakomur, ki ga bo želel uporabiti ali vgraditi v druge programe.

Z veseljem poročam o obstoju projekta Prilagodljive obdelave naravnega jezika s pomočjo velikih jezikovnih modelov – PoVeJMo. Neuradno bi mu lahko rekli Slovenska Llama.

Projekt je organizacijsko lociran na Fakulteti za računalništvo in informatiko, sodeluje pa še pet članic univerze. Gre za evropski projekt javno-zasebnega partnerstva, kjer sodelujejo tudi podjetja Semantika, Xlab, Vitasis, Better in Špica. Vsak od partnerjev skrbi za domensko specifično rabo, na primer v medicini ali industrijskih okoljih.

Projekt je na začetku poti, končan pa bo šele sredi leta 2026, toda prve prototipe jezikovnih modelov lahko pričakujemo že konec letošnjega leta. To bo zelo dobrodošla novost za vse primere rabe, kjer je kakovostna uporaba slovenskega jezika ključnega pomena. Za zdaj še ne vemo, v kolikšnih različicah (številu parametrov) bo veliki jezikovni model na voljo. Zelo verjetno v nekaj izvedbah, nerealno pa je pričakovati tako obširnega, kot je GPT-4.

Glavni izziv, s katerim se trenutno ukvarjajo, je zagotovitev zadostne količine kakovostnega učnega gradiva. Po zadnjem štetju so avtorji navedli, da imajo trenutno na voljo 10 milijard besed. Za primerjavo navedimo švedski model GPT-SW3, ki temelji na 300 milijardah besed. Avtorji zato pozivajo k množičnemu zbiranju gradiva, kamor so se že vključile javne ustanove, kot so NUK, RTV Slovenija, Arnes. Toda treba bo zagotoviti še več gradiva, precej več.

Za urjenje modela bo potrebna tudi ustrezna procesna moč. Kolikšna in kje bo zagotovljena, tudi še ni znano. Za primerjavo podajamo navedbe procesne moči, ki je bila porabljena za urjenje modela GPT-3: 3.640 petaFLOPS dni. Ne trudite se pretvoriti v razumljive številke: verjetno veliko več, kot si lahko kot Slovenija privoščimo.

Prav zato bo zanimivo spremljati, kako se bo domača iniciativa PoVeJMo vklopila v širšo umetnointeligenčno strategijo celotne Evropske unije. Ali bo ta model edini, ki bo narejen specifično za slovenski jezik? Vemo, da je projekt nastaja v okviru širšega združenja ALT-EDIC (Alliance for Language Technologies). Ne vemo ali je to najboljša pot do samostojne umetne inteligence. Toda ali sploh imamo alternative?

Naroči se na redna tedenska ali mesečna obvestila o novih prispevkih na naši spletni strani!

Komentirajo lahko le prijavljeni uporabniki

Najbolj brano

  • V ZDA bodo retroaktivno prepovedali DJI-jeve letalnike

    Ameriška Zvezna komisija za telekomunikacija (FCC) je sprejela sila nenavadno odločitev in za nazaj prepovedala uporabo naprav, ki jih je že odobrila in sprostila njihov uvoz v ZDA. Odločitev, da to smejo storiti, so sprejeli s tremi glasovi za in nobenim proti. Uperjena je proti kitajskemu proizvajalcu letalnikov DJI.

    Objavljeno: 3.11.2025 07:00
  • Konec poti za slovensko upravljanje z računi

    Storitev noprintZ, ki je uporabnikom omogočala prejemanje digitalnih računov in ročni vnos fizičnih računov, se bo ob koncu leta 2025 dokončno poslovila. 

    Objavljeno: 12.11.2025 06:00 | Teme: android, mobilna aplikacija, Slovenija
  • Microsoft pokazal Windows 11 26H1, ki na običajnih računalnikih ne bo deloval

    Verzija Windows 11, ki bo izšla prihodnje leto, se bo predvidljivo imenovala Windows 11 26H1, a je zelo verjetno ne bomo mogli uporabljati. Na kanalu Canary v programu Insider Preview se je predogledna izdaja (Build 28000) pojavila te dni, kar naznanja začetek nekoliko bolj javnega testiranja. Zdi pa se, da bo omejena na ARM-jeve procesorje.

    Objavljeno: 11.11.2025 05:00
  • Umetno inteligentni brskalniki prikažejo plačljive vsebine zastonj!

    Nekateri novi brskalniki, ki temeljijo na umetni inteligenci, lahko zaobidejo plačljive mehanizme medijskih vsebin. 

    Objavljeno: 4.11.2025 16:00
  • Kdo bo Python rešil pred smrtjo?

    Fundacija Python, ki skrbi za razvoj izjemno popularnega istoimenskega programskega jezika, je zavrnila 1,5 milijona dolarjev vredno finančno podporo Nacionalne znanstvene fundacije (NSF), ker jo je pogojevala z opustitvijo vseh programov raznolikosti, enakopravnosti in vključenosti (DEI). Namesto tega zato zbirajo donacije, kjer jim gre presenetljivo dobro.

    Objavljeno: 11.11.2025 07:00
  • Microsoft zakrpal hrošča: Windows 10 in 11 se končno znata ugasniti

    V najnovejši verziji popravkov za Windows 10 in 11 je Microsoft po več kot desetletju zakrpal hrošča, ki je marsikoga spravljal v dvome, ali njegov spomin še deluje. Če ste po uporabi Windows Update želeli računalnik ugasniti in ste izbrali Update and shut down, se je računalnik z Windows 10 ali 11 nemalokrat ponovno zagnal. Verjetno ste pomislili, da ste pomotoma kliknili Update and restart.

    Objavljeno: 4.11.2025 05:00
 
  • Polja označena z * je potrebno obvezno izpolniti
  • Pošlji