Objavljeno: 30.8.2016 | Avtor: Matej Huš | Monitor September 2016

Google, kaj tu piše?

Strojno učenje je z rastjo količine podatkov, ki bi jih bilo koristno analizirati, in čedalje zmogljivejšimi računalniškimi sistemi z miz raziskovalnih inštitutov prispelo v gospodarstvo. Pri tem mu obilno pomagajo tehnološki velikani, ki so pripravili vrsto bolj in manj specializiranih orodij za različne uporabe pridobitev strojnega učenja. Google Natural Language API je namenjen analizi naravnega besedila.

Google je konec julija javnosti odprl (sicer še v beta različici) programski vmesnik oziroma API za analizo besedila. Google Natural Language API se pridružuje vrsti programskih vmesnikov, ki jih Google že ponuja in nam dobesedno iz naslanjača omogočajo uporabo izpopolnjenih modelov strojnega učenja in Googlove zmogljive strojne opreme. Taki so Google Cloud Vision za prepoznavo slik, Google Cloud Speech za prepoznavanje govora in zapis po nareku in Cloud Translation za prevajanje med različnimi jeziki.

Strojno učenje je namenjeno reševanju najrazličnejših vrst problemov, a moramo za vsako vrsto svoj model izuriti s primerno metodo (nadzorovano učenje, nenadzorovano učenje, delno nadzorovano učenje, učenje z okrepitvijo) in naborom vadbenih podatkov. Prepoznavanje govora, analiza besedil, prepoznava slik in podobno so dovolj široko razširjeni problemi, da nima smisla odkrivati tople vode, temveč je bolje, laže in učinkoviteje uporabiti že pripravljene modele, ki jih ponuja Google kot APIje. Google jih je namreč že preveril na milijardah vhodnih podatkov, obenem pa se z vsako rabo urjenje še nadaljuje, model pa s tem izboljšuje. Za posebne primere pa seveda tako Google kot konkurenca ponujajo platforme za gradnjo lastnih modelov, npr. Google Prediction API, Watson Analytics, Amazon Machine Learning ali Azure Machine Learning.

Google Natural Language API zmore analize treh vrst: prepoznavanje ključnih besed (entity recognition), analizo sentimenta (sentiment analysis) in analizo skladnje (syntax analysis). Prva točka pomeni, da s strojnim učenjem iz besedila izluščimo podatke o osebah, organizacijah, krajih, izdelkih, skratka pomenske informacije, ki bi jih slovenisti poimenovali osebki, predmeti in prislovna določila. Skupaj s temi ključnimi besedami izpiše še razvrstitev (oseba, kraj itd.), poudarjenost (salience) in priloži neposredno povezavo na spletno stran z več informacijami, navadno Wikipedijo. Vse to izjemno olajša delo agencijam, ki za stranke pripravljajo izrezke iz medijev po ključnih besedah.

Analiza sentimenta vrne informacijo o splošnem tonu besedila, torej ali je napisano pozitivno ali negativno. Sentiment je podan kot dvodimenzionalni vektor, kjer je prva komponenta normalizirana na vrednosti od –1 do +1, druga pa od 0 do neskončno. Prva komponenta podaja polarnost in ima vrednost +1 za absolutno pozitiven stavek in –1 za negativnega, druga komponenta pa se imenuje magnituda in ponazarja jakost tega občutja. Na splošno velja, da je magnituda odvisna od povprečne čustvene nabitosti uporabljenih kvalifikatorskih besed (love, adore, like, fond, keen …), polarnost pa od razmerja med pozitivnimi in negativnimi.

Analiza skladnje, ki seveda ni uporabna zgolj za jezikoslovce, v besedilu prepozna stavčne člene in generira drevesno predstavitev skladnje (parse tree), iz katere se razbere skladenjska struktura stavka. Če na primer analiziramo angleški stavek »The dog bites a man«, ugotovimo, da je sestavljen iz osebka in povedka. Osebek sestavljata določni člen the in samostalnik dog, povedek pa glagol bites in predmet, ki se razčleni na nedoločni člen a in samostalnik man. Analiza skladnje je pomembna, ker se v njej skrivajo fine pomenske informacije, ki jih iz prepoznavanja ključnih besed ni mogoče razbrati. To je tudi najbolj inovativen oziroma dodelan del Googlove storitve (glej spodaj). Če ima Noah Chomsky prav, je slovnica univerzalna (in človeku vrojena), zato tega dela ne bo težko prenesti na druge jezike. Dejansko so si skladenjska drevesa indoevropskih jezikov podobna.

Žal Google Natural Language za zdaj razume le angleško, špansko in japonsko. Kot je tudi Google Translate API počasi dobival podporo za nove jezike, lahko pričakujemo nekaj podobnega tudi pri Google Natural Language. Google je deset dni preizkusno analiziral vse članke v The New York Timesu, ki vsebujejo izraz ZDA, in ugotovil, da je na običajen dan prevladujoč ton teh člankov v povprečju negativen. Ko se bo naučil slovensko, bo zanimivo podobno analizirati slovenske časnike. Tako bomo dobili objektivno meritev, kdo piše predvsem o negativnih zgodbah in kdo v glavnem o pozitivnih.

Google Natural Language je nova Googlova storitev, niso pa se tega v Mountain Viewu seveda domislili prvi. IBM že nekaj časa ponuja podobno storitev, in sicer več APIjev, ki so iz besedila sposobni narediti izvleček, analizirati osebnost pisca, določiti podton sporočila (podobno kot Googlov sentiment), izluščiti ključne pojme itd. Poleg velikih se s tem ukvarjajo tudi nišni specialisti, denimo Aylien, MeaningCloud, Lexalytics in številni drugi. Seveda pa sta Googlov glavni adut velikost in ugled. Privošči si lahko najboljšo strojno opremo, ima največ vhodnih podatkov in vsakdo ga pozna. V poslu pa to nemalo šteje. Glede cen pa – niti beta različica ni povsem brezplačna – pokukajte v spodnjo tabelo.

Naroči se na redna tedenska ali mesečna obvestila o novih prispevkih na naši spletni strani!

Komentirajo lahko le prijavljeni uporabniki

Najbolj brano

  • Konec poti za slovensko upravljanje z računi

    Storitev noprintZ, ki je uporabnikom omogočala prejemanje digitalnih računov in ročni vnos fizičnih računov, se bo ob koncu leta 2025 dokončno poslovila. 

    Objavljeno: 12.11.2025 06:00 | Teme: android, mobilna aplikacija, Slovenija
  • Microsoft pokazal Windows 11 26H1, ki na običajnih računalnikih ne bo deloval

    Verzija Windows 11, ki bo izšla prihodnje leto, se bo predvidljivo imenovala Windows 11 26H1, a je zelo verjetno ne bomo mogli uporabljati. Na kanalu Canary v programu Insider Preview se je predogledna izdaja (Build 28000) pojavila te dni, kar naznanja začetek nekoliko bolj javnega testiranja. Zdi pa se, da bo omejena na ARM-jeve procesorje.

    Objavljeno: 11.11.2025 05:00
  • Umetno inteligentni brskalniki prikažejo plačljive vsebine zastonj!

    Nekateri novi brskalniki, ki temeljijo na umetni inteligenci, lahko zaobidejo plačljive mehanizme medijskih vsebin. 

    Objavljeno: 4.11.2025 16:00
  • Kdo bo Python rešil pred smrtjo?

    Fundacija Python, ki skrbi za razvoj izjemno popularnega istoimenskega programskega jezika, je zavrnila 1,5 milijona dolarjev vredno finančno podporo Nacionalne znanstvene fundacije (NSF), ker jo je pogojevala z opustitvijo vseh programov raznolikosti, enakopravnosti in vključenosti (DEI). Namesto tega zato zbirajo donacije, kjer jim gre presenetljivo dobro.

    Objavljeno: 11.11.2025 07:00
  • Microsoft zakrpal hrošča: Windows 10 in 11 se končno znata ugasniti

    V najnovejši verziji popravkov za Windows 10 in 11 je Microsoft po več kot desetletju zakrpal hrošča, ki je marsikoga spravljal v dvome, ali njegov spomin še deluje. Če ste po uporabi Windows Update želeli računalnik ugasniti in ste izbrali Update and shut down, se je računalnik z Windows 10 ali 11 nemalokrat ponovno zagnal. Verjetno ste pomislili, da ste pomotoma kliknili Update and restart.

    Objavljeno: 4.11.2025 05:00
  • Apple želi 250 evrov za strgano nogavico

    Apple se je znova znašel v središču spletnega posmehovanja, potem ko je predstavil dodatek za telefone iPhone Pocket. 

    Objavljeno: 13.11.2025 08:00 | Teme: apple
 
  • Polja označena z * je potrebno obvezno izpolniti
  • Pošlji