Objavljeno: 30.8.2016 | Avtor: Matej Huš | Monitor September 2016

Google, kaj tu piše?

Strojno učenje je z rastjo količine podatkov, ki bi jih bilo koristno analizirati, in čedalje zmogljivejšimi računalniškimi sistemi z miz raziskovalnih inštitutov prispelo v gospodarstvo. Pri tem mu obilno pomagajo tehnološki velikani, ki so pripravili vrsto bolj in manj specializiranih orodij za različne uporabe pridobitev strojnega učenja. Google Natural Language API je namenjen analizi naravnega besedila.

Google je konec julija javnosti odprl (sicer še v beta različici) programski vmesnik oziroma API za analizo besedila. Google Natural Language API se pridružuje vrsti programskih vmesnikov, ki jih Google že ponuja in nam dobesedno iz naslanjača omogočajo uporabo izpopolnjenih modelov strojnega učenja in Googlove zmogljive strojne opreme. Taki so Google Cloud Vision za prepoznavo slik, Google Cloud Speech za prepoznavanje govora in zapis po nareku in Cloud Translation za prevajanje med različnimi jeziki.

Strojno učenje je namenjeno reševanju najrazličnejših vrst problemov, a moramo za vsako vrsto svoj model izuriti s primerno metodo (nadzorovano učenje, nenadzorovano učenje, delno nadzorovano učenje, učenje z okrepitvijo) in naborom vadbenih podatkov. Prepoznavanje govora, analiza besedil, prepoznava slik in podobno so dovolj široko razširjeni problemi, da nima smisla odkrivati tople vode, temveč je bolje, laže in učinkoviteje uporabiti že pripravljene modele, ki jih ponuja Google kot APIje. Google jih je namreč že preveril na milijardah vhodnih podatkov, obenem pa se z vsako rabo urjenje še nadaljuje, model pa s tem izboljšuje. Za posebne primere pa seveda tako Google kot konkurenca ponujajo platforme za gradnjo lastnih modelov, npr. Google Prediction API, Watson Analytics, Amazon Machine Learning ali Azure Machine Learning.

Google Natural Language API zmore analize treh vrst: prepoznavanje ključnih besed (entity recognition), analizo sentimenta (sentiment analysis) in analizo skladnje (syntax analysis). Prva točka pomeni, da s strojnim učenjem iz besedila izluščimo podatke o osebah, organizacijah, krajih, izdelkih, skratka pomenske informacije, ki bi jih slovenisti poimenovali osebki, predmeti in prislovna določila. Skupaj s temi ključnimi besedami izpiše še razvrstitev (oseba, kraj itd.), poudarjenost (salience) in priloži neposredno povezavo na spletno stran z več informacijami, navadno Wikipedijo. Vse to izjemno olajša delo agencijam, ki za stranke pripravljajo izrezke iz medijev po ključnih besedah.

Analiza sentimenta vrne informacijo o splošnem tonu besedila, torej ali je napisano pozitivno ali negativno. Sentiment je podan kot dvodimenzionalni vektor, kjer je prva komponenta normalizirana na vrednosti od –1 do +1, druga pa od 0 do neskončno. Prva komponenta podaja polarnost in ima vrednost +1 za absolutno pozitiven stavek in –1 za negativnega, druga komponenta pa se imenuje magnituda in ponazarja jakost tega občutja. Na splošno velja, da je magnituda odvisna od povprečne čustvene nabitosti uporabljenih kvalifikatorskih besed (love, adore, like, fond, keen …), polarnost pa od razmerja med pozitivnimi in negativnimi.

Analiza skladnje, ki seveda ni uporabna zgolj za jezikoslovce, v besedilu prepozna stavčne člene in generira drevesno predstavitev skladnje (parse tree), iz katere se razbere skladenjska struktura stavka. Če na primer analiziramo angleški stavek »The dog bites a man«, ugotovimo, da je sestavljen iz osebka in povedka. Osebek sestavljata določni člen the in samostalnik dog, povedek pa glagol bites in predmet, ki se razčleni na nedoločni člen a in samostalnik man. Analiza skladnje je pomembna, ker se v njej skrivajo fine pomenske informacije, ki jih iz prepoznavanja ključnih besed ni mogoče razbrati. To je tudi najbolj inovativen oziroma dodelan del Googlove storitve (glej spodaj). Če ima Noah Chomsky prav, je slovnica univerzalna (in človeku vrojena), zato tega dela ne bo težko prenesti na druge jezike. Dejansko so si skladenjska drevesa indoevropskih jezikov podobna.

Žal Google Natural Language za zdaj razume le angleško, špansko in japonsko. Kot je tudi Google Translate API počasi dobival podporo za nove jezike, lahko pričakujemo nekaj podobnega tudi pri Google Natural Language. Google je deset dni preizkusno analiziral vse članke v The New York Timesu, ki vsebujejo izraz ZDA, in ugotovil, da je na običajen dan prevladujoč ton teh člankov v povprečju negativen. Ko se bo naučil slovensko, bo zanimivo podobno analizirati slovenske časnike. Tako bomo dobili objektivno meritev, kdo piše predvsem o negativnih zgodbah in kdo v glavnem o pozitivnih.

Google Natural Language je nova Googlova storitev, niso pa se tega v Mountain Viewu seveda domislili prvi. IBM že nekaj časa ponuja podobno storitev, in sicer več APIjev, ki so iz besedila sposobni narediti izvleček, analizirati osebnost pisca, določiti podton sporočila (podobno kot Googlov sentiment), izluščiti ključne pojme itd. Poleg velikih se s tem ukvarjajo tudi nišni specialisti, denimo Aylien, MeaningCloud, Lexalytics in številni drugi. Seveda pa sta Googlov glavni adut velikost in ugled. Privošči si lahko najboljšo strojno opremo, ima največ vhodnih podatkov in vsakdo ga pozna. V poslu pa to nemalo šteje. Glede cen pa – niti beta različica ni povsem brezplačna – pokukajte v spodnjo tabelo.

Naroči se na redna tedenska ali mesečna obvestila o novih prispevkih na naši spletni strani!

Komentirajo lahko le prijavljeni uporabniki

Najbolj brano

  • Android vam bo povedal, ali vam policija prisluškuje

    Čedalje popularnejši način prisluškovanja in prestrezanja podatkov z mobilnih telefonov je uporaba lažnih baznih postaj (IMSI catcher), ki jih imajo organi pregona v nekaterih državah, lahko pa tudi drugi akterji. Na takšno napravo se povežejo vsi telefoni v okolici, saj njen signal preglasi legitimne bazne postaje, upravljavec pa potem zlahka prestreza komunikacijo. Uporabnik tega početja praktično ne more zaznati.

    Objavljeno: 1.7.2025 07:00
  • Podjetja nočejo Copilota, ker zaposleni raje uporabljajo ChatGPT

    Microsoft kljub velikim naporom (beri: finančnemu vložku) podjetjem težko proda storitve umetne inteligence Copilot.

    Objavljeno: 27.6.2025 09:00
  • Kitajski prenosniki so dve leti za zahodnimi

    Čeprav se Kitajci močno trudijo in izdatno investirajo v domači razvoj in proizvodnjo čipov, so še vedno vsaj dve generaciji za zahodnimi izdelki. To izkazuje tudi najnovejši Huaweijev prenosnik MateBook Fold Ultimate, ki poganja lastni HarmonyOS in ima same kitajske komponente. A te v primerjavi z zahodnimi zaostajajo.

    Objavljeno: 25.6.2025 07:00
  • Pametna očala s samodejnim ostrenjem bi lahko nadomestila bifokalna stekla

    Finsko podjetje IXI razvija inovativna očala z lečami, ki se samodejno ostrijo glede na pogled uporabnika. 

    Objavljeno: 23.6.2025 10:00 | Teme: pametna očala
  • Teslini samovozeči taksiji ne znajo voziti

    Prvi dnevi Teslinih robotskih taksijev so polni napak, vožnje po napačni strani ceste, nenadnih zaviranj in nevarnih ustavljanj za odlaganje potnikov.

    Objavljeno: 26.6.2025 09:00
  • HDMI 2.2 je tu!

    Sicer na papirju, a vendarle. HDMI Forum je izdal končne specifikacije standarda HDMI 2.2, ki so ga izdatno opisovali in predstavljali že na januarskem sejmu CES. HDMI 2.2 ima že večjo prepustnost kot DisplayPort, a bo zanjo zahteval nove kable Ultra96.

    Objavljeno: 27.6.2025 05:00
 
  • Polja označena z * je potrebno obvezno izpolniti
  • Pošlji