Objavljeno: 25.4.2023 | Avtor: Matej Huš | Monitor Maj 2023

Slovenščina v digitalnem svetu

Prejšnji mesec se je končal večmilijonski konzorcijski projekt RSDO, ki je slovenskemu jeziku podaril orodja za njegovo polnopravno bivanje v digitalni družbi. Prevajalniki, razpoznavalniki govora, analizatorji in druga orodja namreč ne nastanejo v vakuumu, temveč zahtevajo urejene zbirke podatkov, analizo in obilico dela. Končni rezultat so orodja, ki po eni strani olajšajo življenje posamezniku, po drugi pa dajejo potrebno infrastrukturo za uporabo slovenščine v modernih tehnologijah in aplikacijah.

Projekt RSDO je razvil veliko orodij za delo s slovenščino.

Daleč so že časi, ko smo v elektronski pošti pisali s ali sh namesto š. Čeprav je Microsoft že leta 1991 v beta različici DOS 5 omogočil izbiro jugoslovanskega znakovnega nabora in kodne tabele CP852, je slovenščina vse do preloma tisočletja ostala izziv. Samo spomnimo se zapletov z različnimi kodnimi tabelami (YUSCII, CP852, CP1250, ISO-8859-2), ki so podpirale slovenske oziroma jugoslovanske znake, a so bile med seboj slabo združljive. Besedila, ki so imela na enem računalniku č, š in ž, so imela drugod krace. Dokončno je težave odpravil šele Unicode, o čemer smo že pisali (Unicode – en standard za en svet, Monitor 04/22).

Starejši bralci se gotovo spomnijo, da Windows 95 v originalni izvedbi ni podpiral šumnikov. Obstajala je posebna različica Windows 95 z oznako Pan-European, ki je vsebovala slovenske znake, še najbolj zanesljiva rešitev pa je bila namestitev lokalizirane, prevedene različice. Tudi v Linuxovem taboru je šele društvo Lugos, ki je nastalo leta 1996, poskrbelo za lokalizacijo. V novem tisočletju pa je postalo normalno, da je programska oprema na voljo v slovenskem jeziku. Ta ne obsega le operacijskih sistemov, temveč tudi čedalje več programov. Edini trmasti upornik ostaja Apple, ki si je očitno izračunal, da s prevodom ne bi pridobil dovolj novih uporabnikov, pa četudi bi ga stal le zanemarljiv del dobička.

Ko so računalniki obvladali prikaz slovenščine, so se začeli uporabljati tudi kot pomočniki in v vsebinskem smislu. Slovarji, ki so bili skozi zgodovino impozantne debele knjige tako s praktično kakor z izrazito simbolno vlogo, so se digitalizirali. Sprva je to pomenilo le selitev iz debelih knjig na diskete in zgoščenke, medtem ko vsebinske in konceptualne spremembe ni bilo. Videz je ostal enak. Vrsto let so po slovenskih računalnikih – često v nezakoniti različici – krožili slovarji v zbirki ASP32, ki jih je digitaliziral Amebis.

Od leta 2000 je na spletu prosto dostopen SSKJ na portalu, od leta 2010 pa pravopisni slovar. Prelomnico predstavlja vzpostavitev portala fran.si, ki je zaživel leta 2014. Inštitut za slovenski jezik Fran Ramovša (ISJFR) in podjetje Amebis sta pripravila storitev, ki je nudila 20 različnih slovarjev, dialektološki atlas, svetovalnici ter povezavo do več zbirk in korpusov. Brezplačni, prosto dostopni portal je tako na enem mestu zbral vse slovarje, ki jih uporabniki slovenščine potrebujejo. Portal Fran se je v desetletju obstoja redno posodabljal in nadgrajeval, leta 2019 pa je dobil tudi mlajšega brata (franček.si), ki je namenjen rabi v osnovnih in srednjih šolah. Fran je danes izjemno obsežen vir podatkov, ki poleg obče znanih slovarjev (SSKJ, SP) vsebuje še številne manj znane (na primer Slovenska vezljivost, Slovar slovenskih frazemov) in celo visoko specializirane (Farmacevtski terminološki slovar, Slovar bovškega govora), korpuse in druge zbirke ter jezikovno in terminološko svetovalnico.

Med množico slovenistov, ki sodelujejo pri projektu RSDO, je očitno umanjkal tisti, ki naj bi lektoriral spletno stran projekta

Tehnologija dandanes omogoča še bistveno več kot zgolj digitalizacijo slovarjev in zbirk, ki so seveda strojno berljivi. Medtem ko so slovenski slovarski pripomočki v svetu nišne dobrine, ki so nastali zaradi podpore z javnimi sredstvi, so strojni prevajalniki komercialne beštije, kjer kopja lomijo največji svetovni igralci (Ko prevajalcev več ne bo, Monitor 03/23). A popis zmožnosti moderne tehnologije se tu še ne konča. Strojna pamet je namreč prebrala vse, kar je prebrati bilo mogoče, zato zna danes analizirati besedila, sintetizirati govor, pisati po nareku, če omenimo le končnim uporabnikom najbolj znane funkcije. Strokovnjakom pa omogoča še marsikaj drugega.

Digitalna slovenščina

Omejenost na digitalne inačice slovarjev in vključenost med dobrih sto jezikov Google Translata dandanes ne zadostuje. Slovenščini se ni bati izumrtja, saj je z dvema milijonoma rojenih govorcev, s statusom uradnega jezika v razviti evropski državi (Sloveniji) ter v mednarodni organizaciji (Evropska unija) v boljšem položaju kot 99 odstotkov jezikov na svetu. A če želimo ohraniti kondicijo jezika tudi v prihodnosti, ki postaja čedalje bolj digitalna, moramo zanj razviti ustrezne tehnologije. Danes namreč moderna tehnologija ne narekuje le dela, temveč komunikacijo, preživljanje prostega časa in večino aspektov življenja. Jeziki, ki ne bodo držali koraka s tem, morda res ne bodo izumrli, a jim grozi zaton v irelevantnost, v pogovorne jezike vsakdana, ki so izključeni iz čedalje več krogov modernega življenja.

Strojno prepoznavanje lastnih imen.

Ta svarila že utelešajo pametni pomočniki. Alexa govori osem jezikov, Google Assistant 13 in Siri 21, kar predstavlja zelo majhen delež med približno 7.000 jeziki na svetu. Slovenščine v tej elitni družbi še ni, za kar je razlogov več. Gotovo tehnološke zmožnosti niso edini razlog, a pred zvijanjem rok tehnološkim velikanom velja poskrbeti, da jim bomo mogli očitati le skopost.

Vsi, ki kaj štejejo, za vse, ki kaj potrebujejo

Mnoštvo orodij je uporabnikom slovenščine poklonil projekt RSDO, ki se je formalno zaključil 23. februarja letos, s predstavitvijo rezultatov v Zbornični dvorani Univerze v Ljubljani pa 6. marca letos še simbolično. Razvoj slovenščine v digitalnem okolju (RSDO) je bil velik, štiri milijone evrov težak konzorcijski projekt, ki sta ga financirala Ministrstvo za kulturo in Evropski sklad za regionalni razvoj. V njem so sodelovali Univerza v Ljubljani, Univerza v Mariboru, Univerza v Novi Gorici, Znanstvenoraziskovalni center Slovenske akademije znanosti in umetnosti (ZRC SAZU), Inštitut Jožef Stefan, Inštitut za novejšo zgodovino in podjetja Amebis, Aikwit, Alpineon, STA, Pošta Slovenije in VITASIS. To so tako rekoč vsi akterji, ki so se v samostojni Sloveniji kadarkoli resneje ukvarjali z razvojem jezikovnih virov in tehnologij za slovenščino. Trije glavni dosežki projekta so strojni prevajalnik, terminološki slovar in razpoznavalnik govora. Zadnjega v slovenščino še ni bilo, zanemarljivi pa niso niti ostali dosežki. A pojdimo po vrsti.

Projektni cilj je bil »zadovoljiti potrebe po računalniških izdelkih in storitvah s področja jezikovnih tehnologij za slovenski jezik za raziskovalne organizacije, podjetja in širšo javnost«, je dejal vodja doc. dr. Simon Krek z IJS. To pomeni, da so končni izdelki v pomoč pri sporazumevanju, sodelovanju, poslovanju, izmenjavi znanja, udeleževanju v družabnih in političnih razpravah ter premagovanju jezikovih meja.

Kaj smo dobili

Na spletni strani slovenscina.eu (deluje tudi različica slovenščina.eu) so dostopna naslednja orodja, ki so sad RSDO: prevajalnik iz angleščine in v njo, razpoznavalnik govora, terminološki portal, prepoznavanje imenskih entitet, izvleček povezav, odkrivanje konferenčnosti, povzemanje, odgovarjanje na vprašanja in razdvoumljanje. Poleg tega vsebuje stran še povezave do nekaterih drugih zunanjih orodij, kot so korpus Šolar, CJVT Označevalnik (strojno označevanje slovenskih besedil), CJVT Svala (ročno označevanje popravljenih besedil), repozitorij z jezikovnimi viri CLARIN.SI, zdravorazumsko sklepanje in odkrivanje semantičnih premikov. Pisana druščina, v kateri so nekatera imena poznana vsem, druga pa strokovnjakom.

Prepoznavanje, katere besede se nanašajo na isto entiteto.

Spletni prevajalnik RSDO je omejen na pozive v dolžini 5.000 znakov in prevaja iz slovenščine v angleščino ter obratno. Preverili smo ga z enakimi vatli kakor preostale prevajalnike v prejšnji številki Monitorja in ugotovili, da ni slab. Vsi njegovi prevodi so bili razumljivi in smiselni, do popolnosti pa so mu zmanjkali kakšna slaba predložna zveza, nerazumljen pomen in občasno nenavadna izbira besed, medtem ko slovničnih napak ni delal veliko. Ocenili bi ga za spoznanje manj sposobnega, kot je Google Translate, Bing Translator ali DeepL. Ti so odlomek iz knjige Asimova (I /.../ was bathed in the heady liquid heat up at the very center of the glow) prevedli kot omamno ali opojno segreto tekočino ali, bolje, vročino, medtem ko je Prevajalnik RSDO govoril o mlahavi tekoči toploti. Zanimivo je, da si RSDO vzame med vsemi orodji največ svobode pri prevajanju, ko dve krajši povedi združi v večstavčno poved v prevodu, česar konkurenca ne počne.

Javna sredstva za javno korist

Rezultati raziskav, ki so financirane z javnimi sredstvi, tako evropskimi kot slovenskimi, morajo biti javno dostopni. To je eden izmed razlogov, da je portal fran.si od samega nastanka brezplačen. Enako velja tudi za novi projekt RSDO, ki sta ga podprli Slovenija in Evropska unija. Vsa programska koda in zbirke podatkov, ki so nastale med projektom, so dostopne z licenco CC BY-SA 4.0. V praksi to pomeni, da na Githubu (github.com/RSDO-DS3, github.com/clarinsi) najdemo kodo, ki so jo razvili med projektom in poganja aplikacije. Dostopni so tudi modeli, kazalniki in drugi pripomočki, ki so bili nujno potrebni za delovanje, denimo strojnega prevajalnika. Na koncu pa so vse aplikacije (prepoznava govora, transkripcija, strojno prevajanje, terminološki portal in luščenje terminologije) sleherniku na voljo na spletni strani projekta slovencina.eu brez plačila ali omejitev.

Razpoznavalnik analizira govor kot narek in ga zapiše. Na spletno stran lahko naložimo do 300 sekund dolge posnetke ali pa se posnamemo z mikrofonom. In sem se posnel. Rezultat je bil osupljiv. Resda sem štajerski naglas pritajil, kolikor se je dalo, a vseeno popolnoma pravilnega zapisa nisem pričakoval. Bral sem različna besedila, od novic in člankov do esemesov, pa je bil RSDO vedno povsem natančen. Dokler nisem zašel v hudo slengovske ali narečne besede, težav ni bilo. Celo ločila je postavljal bolje kot povprečen Slovenec. Podobno velja tudi z nalaganjem datotek, kjer razume vse pomembnejše formate.

Prepoznavanje povezav med besedami.

Tretji pomemben dosežek je terminološki portal, ki povezuje več specializiranih slovarjev in virov. Denimo, če vpišemo besedo 'davek', se lahko seznanimo s prevodi v angleščino in hrvaščino v več terminih in stalnih zvezah. Davek na bilančno vsoto bank in hranilnic ter konkludentna dejanja sta dva termina, za katera sem prvič slišal, zdaj pa vem celo, kako se prevedeta v angleščino in hrvaščino. Portal ponuja tudi definicije, kjer se lahko podrobno seznanimo s pomenom. Moram pa reči, da sem malo razočaran, da je davkom namenjenih 20 strani zadetkov, mitohondrijev in ribosomov pa v terminološkem slovarju ni. To je pač posledica slovarjev, ki so vključeni (Glosar akademske integritete, Davčni terminološki slovar, Glosar s področja konjeništva, Slovensko-angleški pojmovnik s področja vzgoje in izobraževanja, Terminološki slovar elektronskega kajenja, Terminološki slovar s področja umetne inteligence in Vojaški slovar študentov obramboslovja).

Dobro je vedeti

Preostalih dosežkov projekta na predstavitvi niso podrobno opisovali in tudi na spletni strani povezave do njih niso tako izstopajoče pobarvane, a so kljub temu zanimivi. Prepoznavanje imenskih entitet v besedilu označi lastna imena (imena oseb, organizacij, zemljepisna in stvarna). Po domače povedano to pomeni, da algoritem ugotovi, da sta Janez in Ljubljana lastni imeni. Enako ugotovi tudi za Google Translate, Azure in Apple.

Izvlek povezav išče povezave med besednimi zvezami. Ta poišče pomenske povezave med besedami, ki jih je 29 tipov. Rezultati še niso najboljši, ker je model izurjen zgolj na besedilih iz Wikipedije, so pa obetavni. Predpripravljeno vzorčno besedilo (»Janez, predsednik stranke Slovenski ljubitelji, je rojen na Malem Lipoglavu«) model odlično razčleni, saj ugotovi, kaj so Janezov položaj, državljanstvo in kraj rojstva, medtem ko je na drugih besedilih iz tega članka rezultat bolj klavrn.

Odkrivanje koreferenčnosti (coreference resolution) poskuša razumeti besedilo na višji ravni, saj poišče vse omenitve, ki se nanašajo na isto entiteto. V besedilu »Janez Novak je šel v avtomobilski salon, kjer je preizkušal novo vozilo. Le-to mu je bilo zelo všeč, zato se je odločil za nakup novega Golfa 9« se besede vozilo, je bilo, zelo všeč, Golfa 9 nanašajo na isto entiteto – avto. Omejitev je 200 znakov, rezultati na bolj realističnih besedilih pa vnovič bolj klavrni.

Povzemanje je opravilo, v katerem blestijo moderni jezikovni modeli (denimo Bing Chat, ChatGPT ali DuckAssist). RSDO lahko prežveči do 3.000 znakov besedila in ga zgosti z enim izmed šestih modelov. Nekateri vračajo najpomembnejše povedi, drugi resnično povzamejo besedilo ali celo vrnejo le kratke naslove. Rezultati s povzemanjem posameznih odstavkov tega članka so bili katastrofalni, pri povzemanju vesti z MMC RTV pa se je izkazal presenetljivo dobro. Povzetek prvih 1.500 znakov vesti o prvem kranjskogorskem veleslalomu je bil: »Svetovni in olimpijski prvak Marco Odermatt v Podkorenu v nedeljo nadaljuje zmagoviti niz. Na drugem mestu se je s petega povzpel Francoz Alexis Pinturault. Kliknite tukaj za vse najnovejše novice o svetovnem prvenstvu.« Strojno generiran naslov pa »Kranjec brez stopničk v Podkorenu, Kranjec 5«. Ima torej izvrsten potencial za razvoj orodij za agregiranje in povzemanje slovenskih vesti.

Na koncu omenimo še razdvoumljanje (disambiguation), kakor imenujemo strojno prepoznavanje konkretnega pomena sicer večpomenske besede v stavku. Ta se ni najbolje izkazal, saj smučarskega tečaja ni ločil od tečaja dolarja.

Ob bok velikim

Nápak bi bilo RSDO predstaviti kot edini ali največji dosežek na področju računalniške obdelave slovenščine ter razvoja povezanih orodij, zagotovo pa je največji enoten in koordiniran projekt. A v preteklih treh desetletjih se je zvrstilo že ogromno manjših projektov, ki so dali številna orodja, za katerega pa marsikdo ne ve. ISJFR sistematično spremlja in raziskuje slovenski jezik že vse od ustanovitve, osrednja točka pa je portal fran.si. DARIAH-SI je infrastruktura na področju humanistike, CLARIN.SI pa je infrastruktura istoimenskega konzorcija (Slovenska raziskovalna infrastruktura za jezikovne vire in tehnologije), kjer poleg akademskih institucij sodelujeta tudi pionirja Alpineon in Amebis. Pokukajte na njihove strani, pa v oba laboratorija IJS iz tega projekta (Center za jezikovne vire in tehnologijo, Odsek za tehnologije znanja), kaj vse že obstaja.

 Fran.si že skoraj desetletja nudi slovarske pripomočke in podobna orodja za uporabnike slovenščine.

Kljub znatnemu proračunu in številnim deležnikom je bil domet projekta RSDO omejen. Nekatere storitve delujejo bolje, druge slabše. A cilj ni bil razviti devetih komercialno uporabnih rešitev, temveč orodja in podporno infrastrukturo, ki so nujno potrebni za nadaljnji razvoj. Slovenščina je po številu govorcev majhen jezik, kar predstavlja omejitve, do kam bo segel korporativni interes. Manko bomo morali nadoknaditi sami.

Položaj je v resnici daleč od črnega. Ker ima slovenščina srečo, da sodi med uradne jezike razvite in tehnološko pismene države, dandanes ne manjka pripomočkov, orodij in tehnologij. Korpusi, slovarji, strojni prevajalniki, razpoznavalniki govora, podatkovne zbirke in drugi jezikovni viri so v veliki meri brezplačno dostopni. Med njimi bo prav vsakdo našel nekaj zase. Tudi povsem običajni uporabniki jezika, torej prislovični slehernik, si lahko s tem olajšajo življenje. Z vpogledom v tehnologijo, ki je za tem, pa vse skupaj bolj cenijo. Končni komercialni izdelki imajo namreč svoje korenine v znanstvenoraziskovalnem delu, ki daje prototipska orodja, vzorčno kodo in ogromne podatkovne zbirke. Škoda pa bi bilo, če od tega ne bi imeli nič tudi domači uporabniki.

Naroči se na redna tedenska ali mesečna obvestila o novih prispevkih na naši spletni strani!

Komentirajo lahko le prijavljeni uporabniki

 
  • Polja označena z * je potrebno obvezno izpolniti
  • Pošlji