Objavljeno: 30.8.2016 | Avtor: Matej Huš | Monitor September 2016

Google, kaj tu piše?

Strojno učenje je z rastjo količine podatkov, ki bi jih bilo koristno analizirati, in čedalje zmogljivejšimi računalniškimi sistemi z miz raziskovalnih inštitutov prispelo v gospodarstvo. Pri tem mu obilno pomagajo tehnološki velikani, ki so pripravili vrsto bolj in manj specializiranih orodij za različne uporabe pridobitev strojnega učenja. Google Natural Language API je namenjen analizi naravnega besedila.

Google je konec julija javnosti odprl (sicer še v beta različici) programski vmesnik oziroma API za analizo besedila. Google Natural Language API se pridružuje vrsti programskih vmesnikov, ki jih Google že ponuja in nam dobesedno iz naslanjača omogočajo uporabo izpopolnjenih modelov strojnega učenja in Googlove zmogljive strojne opreme. Taki so Google Cloud Vision za prepoznavo slik, Google Cloud Speech za prepoznavanje govora in zapis po nareku in Cloud Translation za prevajanje med različnimi jeziki.

Strojno učenje je namenjeno reševanju najrazličnejših vrst problemov, a moramo za vsako vrsto svoj model izuriti s primerno metodo (nadzorovano učenje, nenadzorovano učenje, delno nadzorovano učenje, učenje z okrepitvijo) in naborom vadbenih podatkov. Prepoznavanje govora, analiza besedil, prepoznava slik in podobno so dovolj široko razširjeni problemi, da nima smisla odkrivati tople vode, temveč je bolje, laže in učinkoviteje uporabiti že pripravljene modele, ki jih ponuja Google kot APIje. Google jih je namreč že preveril na milijardah vhodnih podatkov, obenem pa se z vsako rabo urjenje še nadaljuje, model pa s tem izboljšuje. Za posebne primere pa seveda tako Google kot konkurenca ponujajo platforme za gradnjo lastnih modelov, npr. Google Prediction API, Watson Analytics, Amazon Machine Learning ali Azure Machine Learning.

Google Natural Language API zmore analize treh vrst: prepoznavanje ključnih besed (entity recognition), analizo sentimenta (sentiment analysis) in analizo skladnje (syntax analysis). Prva točka pomeni, da s strojnim učenjem iz besedila izluščimo podatke o osebah, organizacijah, krajih, izdelkih, skratka pomenske informacije, ki bi jih slovenisti poimenovali osebki, predmeti in prislovna določila. Skupaj s temi ključnimi besedami izpiše še razvrstitev (oseba, kraj itd.), poudarjenost (salience) in priloži neposredno povezavo na spletno stran z več informacijami, navadno Wikipedijo. Vse to izjemno olajša delo agencijam, ki za stranke pripravljajo izrezke iz medijev po ključnih besedah.

Analiza sentimenta vrne informacijo o splošnem tonu besedila, torej ali je napisano pozitivno ali negativno. Sentiment je podan kot dvodimenzionalni vektor, kjer je prva komponenta normalizirana na vrednosti od –1 do +1, druga pa od 0 do neskončno. Prva komponenta podaja polarnost in ima vrednost +1 za absolutno pozitiven stavek in –1 za negativnega, druga komponenta pa se imenuje magnituda in ponazarja jakost tega občutja. Na splošno velja, da je magnituda odvisna od povprečne čustvene nabitosti uporabljenih kvalifikatorskih besed (love, adore, like, fond, keen …), polarnost pa od razmerja med pozitivnimi in negativnimi.

Analiza skladnje, ki seveda ni uporabna zgolj za jezikoslovce, v besedilu prepozna stavčne člene in generira drevesno predstavitev skladnje (parse tree), iz katere se razbere skladenjska struktura stavka. Če na primer analiziramo angleški stavek »The dog bites a man«, ugotovimo, da je sestavljen iz osebka in povedka. Osebek sestavljata določni člen the in samostalnik dog, povedek pa glagol bites in predmet, ki se razčleni na nedoločni člen a in samostalnik man. Analiza skladnje je pomembna, ker se v njej skrivajo fine pomenske informacije, ki jih iz prepoznavanja ključnih besed ni mogoče razbrati. To je tudi najbolj inovativen oziroma dodelan del Googlove storitve (glej spodaj). Če ima Noah Chomsky prav, je slovnica univerzalna (in človeku vrojena), zato tega dela ne bo težko prenesti na druge jezike. Dejansko so si skladenjska drevesa indoevropskih jezikov podobna.

Žal Google Natural Language za zdaj razume le angleško, špansko in japonsko. Kot je tudi Google Translate API počasi dobival podporo za nove jezike, lahko pričakujemo nekaj podobnega tudi pri Google Natural Language. Google je deset dni preizkusno analiziral vse članke v The New York Timesu, ki vsebujejo izraz ZDA, in ugotovil, da je na običajen dan prevladujoč ton teh člankov v povprečju negativen. Ko se bo naučil slovensko, bo zanimivo podobno analizirati slovenske časnike. Tako bomo dobili objektivno meritev, kdo piše predvsem o negativnih zgodbah in kdo v glavnem o pozitivnih.

Google Natural Language je nova Googlova storitev, niso pa se tega v Mountain Viewu seveda domislili prvi. IBM že nekaj časa ponuja podobno storitev, in sicer več APIjev, ki so iz besedila sposobni narediti izvleček, analizirati osebnost pisca, določiti podton sporočila (podobno kot Googlov sentiment), izluščiti ključne pojme itd. Poleg velikih se s tem ukvarjajo tudi nišni specialisti, denimo Aylien, MeaningCloud, Lexalytics in številni drugi. Seveda pa sta Googlov glavni adut velikost in ugled. Privošči si lahko najboljšo strojno opremo, ima največ vhodnih podatkov in vsakdo ga pozna. V poslu pa to nemalo šteje. Glede cen pa – niti beta različica ni povsem brezplačna – pokukajte v spodnjo tabelo.

Naroči se na redna tedenska ali mesečna obvestila o novih prispevkih na naši spletni strani!

Komentirajo lahko le prijavljeni uporabniki

Najbolj brano

  • Xiaomi predstavil pametni pralni stroj prihodnosti

    Xiaomi je na kitajskem trgu predstavil pametni pralni stroj Mijia Three‑Zone Pro Drum 10 kg, ki prinaša nov pristop k pranju perila s tremi ločenimi bobni

    Objavljeno: 23.9.2025 09:00
  • ChatGPT za kriminalce

    SpamGPT je nova platforma, ki jo uporabljajo spletni kriminalci za pošiljanje neželene pošte in izvajanje napadov z ribarjenjem.

    Objavljeno: 22.9.2025 19:30
  • Steam bo nehal delovati na 32-bitnem Windows 10

    Valve je sporočil, da bo z novim letom ukinil podporo za 32-bitne različice Windows v svoji priljubljeni platformi za digitalno distribucijo iger Steam. Uporabnikov 32-bitnega Windows 10 imajo le 0,01 odstotka, so zatrdili, zato ne pričakujejo večjega odpora.

    Objavljeno: 22.9.2025 05:00
  • Nvidia bo v OpenAI vložil 100 milijard dolarjev

    OpenAI in Nvidia sta napovedala tesno partnerstvo, ki ga bosta zapečatila z Nvidijino 100-milijardno investicijo v OpenAI. Po besedah poznavalcev gre za dvojni posel: Nvidia bo za OpenAI proizvajala čipe, ki jih bo slednji plačal z denarjem, obenem pa bo Nvidia vanj investirala 100 milijard dolarjev v zameno za prednostne delnice.

    Objavljeno: 23.9.2025 05:00
  • Windows 11 dobiva video ozadja za namizje

    V prihajajoči reviziji Windows 11 bomo lahko nastavili video ozadje na namizju, kažejo zgodnje preizkusne verzije. V trenutnih inačicah je možno uporabiti posnetke MP4 ali MKV kot ozadje. Predvajali se bodo vsakokrat, ko bomo prikazali namizje.

    Objavljeno: 23.9.2025 07:00
  • Chrome dobiva umetno inteligenco

    V prihodnjih tednih bo Chrome dobil paleto novih funkcionalnosti, ki jih bo omogočal Gemini. Prvi jih bodo deležni uporabniki, ki imajo jezik nastavljen na ameriško angleščino, kasneje pa tudi preostanek sveta. Novosti bodo na voljo tako na namiznih sistemih Windows in Mac kakor tudi v Androidu. Kasneje bo sledil še Chrome za Applov iOS.

    Objavljeno: 22.9.2025 07:00
 
  • Polja označena z * je potrebno obvezno izpolniti
  • Pošlji