Objavljeno: 30.4.2019 | Avtor: Matej Huš | Monitor Maj 2019

Tezaver nove generacije in slovenskega porekla

Tezavri ali slovarji sopomenk so že stara orodja, kjer so zapisane bolj ali manj ustrezne sopomenke besed v jeziku. Klasični so nastajali počasi, ob pisanju slovarjev, moderna tehnologija pa omogoča uporabo računalniških jezikovnih modelov, ki funkcijo tezavrov še širijo.

Medtem ko besedne zveze revija Monitor Kontekst.io še ne najde, so predlagani rezultati za tednik Mladina zelo relevantni.

Eden najbolj znanih prizorov iz serije Prijatelji je Joeyjeva uporaba tezavra, s katerim je tople, prijazne ljudi z velikim srcem prekrstil v vlažne, vabljive homo sapiense z aortnimi črpalkami naravne velikosti. Dasiravno komičen bi bil pred dvema desetletjema to povsem resničen prikaz uporabe računalniških tezavrov. Do danes pa sta računalniška analiza ter umetna inteligenca dovolj napredovali, da so novi modeli bistveno uporabnejši. Eden boljših je Kontekst.io, ki je dostopen na istoimenskem spletnem naslovu in je vse kaj več kakor tezaver.

Kontekst.io je plod dela Marka Plahute, znanega pod psevdonimom Virostatiq, v sodelovanju s Clarin.si (Slovenska raziskovalna infrastruktura za jezikovne vire in tehnologije) in z Založbo Eno. Na elegantno minimalistični spletni strani je osrednje iskalno polje, kamor vpišemo besedo ali besedno zvezo v slovenščini (ali hrvaščini, ker zna Kontekst.io oba jezika). Spletna stran vrne seznam podobnih izrazov in sinonimov, ki imajo pripisano pogostost in podobnost.

Že prvi primeri uporabe razkrijejo, da Kontekst.io ne vrača samo sinonimov, temveč izraze, ki imajo podoben pomen ali podobno polje uporabe. Za besedo »čebula« so prvi zadetki paprika (pogostost: 0,14, podobnost: 79 %), šalotka (0,01, 77 %), cvetača (0,05, 76 %) in špinača (0,08, 76 %). Za »miško« so zadetki še bolj zanimivi, in sicer: tipkovnica (0,27, 74 %), miš (0,24, 72 %), muca (0,17, 71 %) in veverica (0,06, 68 %). Niže na seznamu najdemo tudi izraze Logitechova, podgana, želva, sledilna ploščica, Sapra in tablica. Jasno je, da se miška uporablja v dveh zelo različnih pomenih, kar je tudi razlog za zelo zanimive rezultate. Mimogrede, iskalnik je hiter, saj v noben primeru na rezultat ni bilo treba opazno čakati.

Poleg seznama spletna stran vrne še izpise iz korpusa (zbirka besedil), ki prikažejo uporabo vpisane besede v stavkih. Izbiramo lahko med desetimi korpusi, od uravnoteženega do znanstvenega ali pogovornega. Drugih javno dostopnih funkcij Kontekst.io nima, a jih niti ne potrebuje. Storitev je namenjena iskanju podobnih besed, kar tudi zelo dobro počne.

Kontekst.io ni tezaver. Kdor želi tezaver, ga najde na naslovu www.tezaver.si. Ta vé, da sta edina slovenska sinonima za monitor ekran in zaslon, medtem ko besedne zveze »ameriška administracija« seveda ne pozna. Kontekst.io pa na besede gleda širše in pozna tudi takšne fraze. Ker se je učil iz ogromne množice besedil v korpusih, je njegovih predlogov več: Busheva administracija, Obamova administracija, Bela hiša, mednarodna skupnost, vladajoča koalicija, zvezna vlada, vlada itd. To pa seveda niso sopomenke, temveč besede, ki jih uvrščamo v semantično polje ali leksikalno verigo. Gre za besede, ki imajo pomene, ki so smiselno povezani z danim leksemom.

To jasno piše tudi v navodilih za Kontekst.io. Išče fraze, ki se uporabljajo v podobnem kontekstu, kamor sodijo sinonimi (sopomenke), antonimi (nasprotja), hipernimi (nadpomenke), hiponimi (podpomenke) in ostali pomensko sorodni izrazi. V iskalniku je skoraj 600.000 izrazov (za ilustracijo: SSKJ vsebuje nekaj manj kot 100.000 besed). Našli bomo redke besede (zavržno), imena oseb (Luka Dončić), zdravila (lekadol), blagovne znamke, razvade in navade (pitje alkohola), mamila, geografske pojme itd. Kontekst.io je zato še bolj kot iskalnik sinonimov uporaben za osvetlitev pojmov, saj si lahko ustvarimo zelo dobro predstavimo o neznanih pojmih, če vidimo, v kakšnem kontekstu se pojavljajo. Ob besedi Tito se pojavijo: Stalin, Hitler, Josip Broz, Kardelj, Lenin, Kučan, Mussolini, Slobo itn. Z nekaj iznajdljivosti lahko s strani Kontekst.io izvlečemo marsikaj zanimivega. Ker se je model učil tudi iz forumov, lahko z iskanjem po besedi censored ugotovimo, katere slovenske žaljivke spletni moderatorji največkrat cenzurirajo.

Besede, ki jih izpiše Kontekst.io, so na seznamu, ker se uporabljajo na podoben način. Tako sta skupaj besedi pašnik in travnik, ker se njuna pomena v dobršni meri prekrivata in ker je porazdelitev besed v njuni okolici statistično zelo podobno. Prav tako pa bo Kontekst.io skupaj shranil tudi »toplo« in »hladno«, ki se uporabljata na podoben način. Čeprav imata nasprotni pomen, ju lahko v stavkih običajno zamenjamo, pa bo stavek še vedno smiseln. V praksi to pomeni, da se pojavljajo zelo podobne tvorbe z eno ali drugo besedo (Danes je toplo, Danes je hladno), torej Kontekst.io vidi, da je njuna okolica podobna.

Kontekst.io podatke črpa iz približno 20 gigabajtov slovenskih besedil, ki so jih pridobili iz knjig (založbi Beletrina in Eno), spletnih novic, komentarjev, objav na forumih, referenčnih korpusov (inštitut Jožef Stefan), prevajalskih korpusov (OPUS), slovenskih podnapisov, kuharskih receptov in drugih besedil. Skratka, Kontekst.io je zagotovo prebral vse vrste slovenščine, ki se danes uporablja.

Ta besedila so uporabili za matematični model jezika (word2vec). Tako se imenuje skupina modelov za numerično reprezentacijo besed (word embedding). Gre za nevronske mreže z nevroni v dveh ravneh, ki so naučene na velikem številu besedil. Rezultat je vektorski prostor, ki ima več sto dimenzij (od 100 do 1000), v katerem je vsaki besedi prirejen vektor. Besede s sorodnim pomenom ali uporabo ležijo blizu druga drugi. Te modele so prvi razvili v Googlu, kjer je Tomaš Mikolov vodil raziskovalno skupino Google Brain (danes Mikolov sicer dela pri Facebooku). V Googlu so word2vec razvili leta 2013 in je do danes postal najbolj priljubljen ter najhitrejši način za trening modelov na osnovi vektorskih prostorov.

Spletna stran Kontekst.io, ki omogoča ročni vnos terminov in pregled rezultatov, nima popolnoma nobenih omejitev. Za napredne namene, kamor bi sodili uporaba za izboljšanje spletnega iskanja, numerične reprezentacije (embedding), raziskovanje v jezikoslovju in kulturi itd., pa bi seveda potrebovali računski model ali dostop do storitve prek API. Če bi želeli matematični model jezika uporabljati na področjih, kjer je besedišče specifično, denimo v medicini ali farmaciji, ali pa na starejših besedil, bi morali model učiti zgolj na tovrstnih besedil. Za vse takšne želje pa bo treba stopiti v stik z avtorjem.

Kontekst.io

matematični model jezika za iskanje podobnih fraz

Kdo: Virostatiq

Kje: kontekst.io

Cena: brezplačno

Za: Enostavnost uporabe, preglednost, izpis korpusnih zgledov.

Proti: Samo spletna različica.

Naroči se na redna tedenska ali mesečna obvestila o novih prispevkih na naši spletni strani!

Komentirajo lahko le prijavljeni uporabniki

Najbolj brano

  • Android vam bo povedal, ali vam policija prisluškuje

    Čedalje popularnejši način prisluškovanja in prestrezanja podatkov z mobilnih telefonov je uporaba lažnih baznih postaj (IMSI catcher), ki jih imajo organi pregona v nekaterih državah, lahko pa tudi drugi akterji. Na takšno napravo se povežejo vsi telefoni v okolici, saj njen signal preglasi legitimne bazne postaje, upravljavec pa potem zlahka prestreza komunikacijo. Uporabnik tega početja praktično ne more zaznati.

    Objavljeno: 1.7.2025 07:00
  • Tisoče severnokorejskih uslužbencev prikrito na daljavo delalo v ameriških podjetjih

    Ameriško pravosodno ministrstvo je vložilo obtožnice zoper devet ljudi, ki so skrbeli za prikrito zaposlovanje računalnikarjev iz Severne Koreje za delo na daljavo v ameriških podjetjih. En Američan, šest Kitajcev in dva Tajvanca so obtoženi prevare, pranja denarja, kraje identitete, nepooblaščenega dostopa v računalniški sistem in kršenja mednarodnih sankcij.

    Objavljeno: 2.7.2025 07:00
  • Podjetja nočejo Copilota, ker zaposleni raje uporabljajo ChatGPT

    Microsoft kljub velikim naporom (beri: finančnemu vložku) podjetjem težko proda storitve umetne inteligence Copilot.

    Objavljeno: 27.6.2025 09:00
  • Naprava, ki z laserji uničuje komarje

    Čeprav še nimamo letečih avtomobilov ali robotov strežnikov, lahko zdaj naročimo nekaj, o čemer smo od nekdaj sanjali - lasersko napravo, ki zazna in ubije komarja v nekaj milisekundah.

    Objavljeno: 3.7.2025 11:00
  • Kitajski prenosniki so dve leti za zahodnimi

    Čeprav se Kitajci močno trudijo in izdatno investirajo v domači razvoj in proizvodnjo čipov, so še vedno vsaj dve generaciji za zahodnimi izdelki. To izkazuje tudi najnovejši Huaweijev prenosnik MateBook Fold Ultimate, ki poganja lastni HarmonyOS in ima same kitajske komponente. A te v primerjavi z zahodnimi zaostajajo.

    Objavljeno: 25.6.2025 07:00
  • Pametna očala s samodejnim ostrenjem bi lahko nadomestila bifokalna stekla

    Finsko podjetje IXI razvija inovativna očala z lečami, ki se samodejno ostrijo glede na pogled uporabnika. 

    Objavljeno: 23.6.2025 10:00 | Teme: pametna očala
 
  • Polja označena z * je potrebno obvezno izpolniti
  • Pošlji