Babilonski stolp je skoraj končan

Objavljeno: 29.11.2016 | Avtor: Matej Huš | Kategorija: Dosje | Revija: December 2016

Babilonci so želeli sezidati mesto in stolp, ki bi segal do nebes. Ker se je bogu to zdelo nečimrno, jim je zmešal jezike, da se niso mogli razumeti, in so se razkropili po vsem svetu. Danes smo vnovični postavitvi stolpa bliže kot kdaj prej, saj je strojno prevajanje že zdavnaj postalo uporabno in se pri enostavnih besedilih že spogleduje s človeškimi prevajalci. Manjka le še pika na i.

Strojno prevajanje se deli na statistično prevajanje in prevajanje s pravili. Statistični prevajalniki so danes neprimerno boljši. Slika: CSOFT

trojno prevajanje je tema, o kateri smo že večkrat pisali, a je razvoj tako hiter, da lahko spremembe opazujemo vsako leto. V preteklosti smo obširno pisali tako o načinu delovanja strojnih prevajalnikov (Kdo se boji babilonske ribice, Monitor 04/13 in Članek on the strojnem translation, Monitor 05/08) kakor tudi o računalniškem učenju nasploh (Računalniki se učijo, Monitor 01/16), zato se bomo to pot osredotočili na praktične rezultate.

Z vidika končnega uporabnika, najsi gre za domačega uporabnika ali velikega plačljivega naročnika prevajalskih storitev prek knjižnic API, je drobovje nepomembno. Podobno kot smo vožnjo avtomobila zreducirali na vrtenje volana in pritiskanje stopalk, želimo isto tudi od strojnega prevajanja. Razlogov, zakaj to leta 2016 že smemo pričakovati, pred desetimi leti pa seveda nismo mogli, je več. Globalne računske moči je gotovo vsaj 10-krat več, strojno učenje je strahovito napredovalo, prevodov v zbirkah je bistveno več (hvala EU!), uporabniki pridno predlagajo svoje izboljšave in sama količina prevedenega besedila je izboljšala algoritme, ki se sproti učijo. Statistično strojno prevajanje je v celoti povozilo prevajanje na osnovi pravil, kar bomo videli tudi na primerih.

Če potrebujete človeka

Trenutno so najboljši prevajalci še vedno ljudje. Za res kakovostne prevode velja, da jih še vedno prevaja materni govorec tarčnega jezika, ki seveda tekoče govori izvorni jezik. Internet nam je materne govorce vseh mogočih jezikov pripeljal v dnevno sobo. Za krajše prevode se lahko obrnete www.duolingo.com/translations ali www.reddit.com/r/translator, kjer vam altruistična skupnost pomaga pri prevodu. Presenečeni bi bili, kako daleč pridete z lepo besedo (v dobesednem in prenesenem pomenu).

Kdo je tekmoval

V internetu se najde precej programov in spletnih strani, ki ponudijo takšno ali drugačno vrsto strojnega prevajanja, a le malo je res dobrih. Glede na kakovost, ceno in dostopnost smo se odločili, da na tekmo uvrstimo Google Translate, Microsoft Translator (Bing), Amebis Presis in Yandex Translate. Orodij za spletno prevajanje in prevajalskih programov, ki jih lahko prenesemo na računalnik, je seveda še bistveno več. Za spletne inačice smo se odločili iz preprostega razloga – prevajanje je dinamičen posel, kjer se zbirke podatkov venomer povečujejo in kjer tako ali tako potrebujemo dostop do vseh dostopnih informacij in čim močnejše računske moči. Iluzorno je pričakovati, da bo katerikoli program na osebnem računalniku, kjer sta omejena tako velikost baze kakor računska moč, premagal spletni prevajalnik. Na voljo je še Prevajalnik.net, a se je izkazal tako zanič (niti Kako si? ne zna pravilno prevesti), da smo ga hitro diskvalificirali. Drugi pogoj je bila slovenščina. Kdor prevaja samo med večjimi jeziki, lahko pogleda še, kaj ponujajo Reverso, Babel Fish ali ProMT, če naštejmo le nekaj najpriljubljenejših. Nemajhna skupina spletnih prevajalnikov pa v resnici zgolj prepakira rezultate velikih prevajalnikov (npr. Babelxl, imTranslator), torej ne prispevajo nič novega. In tako so spet ostali zgolj veliki. Med našo četverico le Amebis Presis uporablja tudi prevajanje na podlagi pravil, preostala trojka pa stavi na statistično prevajanje.

Kako sploh meriti

Izbira prevajalnika in še bolj naše zadovoljstvo z izdelkom je odvisno od besedila, ki ga prevajamo, in namena prevoda. Pri prevodu navodil za sestavljanje regala je čisto vseeno, če se Screw the nut prevede v nategovanje. Homerjevo Iliado pa bi seveda pustili prevajati le Sovretu. Med tema skrajnostma je širok spekter, kjer si kruh režejo prevajalci – strojni in človeški.

Ovrednotiti kakovost prevoda ni enostaven problem. Dober prevod mora biti informativen (posredovati iste informacije kot izvirnik), ustrezen (uporabljati primerno besedišče glede na namen) in razumljiv (biti mora dovolj jasen). Te zahteve so zaradi narave različnih jezikov nekoliko protislovne, zato vedno lovimo sprejemljiv kompromis. Ocenjevanje teh parametrov je bodisi popolnoma subjektivno (človeški prevajalci vsak prevod ocenijo) bodisi spremljamo kakšna opravila s prevodom (potreben čas, da prevajalec prebere strojni prevod; s posebnimi nalogami ugotavljamo razumevanje prevoda itd.).

Kvantitativno merjenje kakovosti prevodov se izvaja s statističnimi metrikami za samodejno evalvacijo, med katerimi so najkoristnejše BLEU, GTM, METEOR in TERp. Prvi kakovost ocenita na podlagi ujemanja med strojnim in referenčnim prevodom, zadnji pa uporabljata še naprednejše metode (baze sinonimov, parafraz, korenov itd.).

Doslej največji preizkus kakovosti prevajalnikov za slovenščino so leta 2011 izvedli na Filozofski fakulteti v Ljubljani (Vrščaj, Aljoša: Evalvacija strojnih prevajalnikov). Tedaj je bil Google najboljši, tik za njim Bing/Microsoft, zadnji pa je bil Amebis Presis. Ali se je v petih letih kaj spremenilo? Ponovitev statistične raziskave bi presegala obseg tega članka, a smo si kljub temu ogledali prevode nekaj značilnih besedilnih zvrsti, kar za prvo informacijo zadostuje.

Za ogrevanje

1. člen deklaracije o človekovih pravicah. To je kot domača naloga za pridne – prevajalnik, ki je poindeksiral splet, je moral naleteti na različici v obeh jezikih, gre le za vprašanje prepoznave.

Domačo nalogo je pravilno opravil le Microsoft Translator, blizu pa je bil tudi Google. Yandex si je pomagal malo po svoje, medtem ko se je Amebis odrezal res slabo.

Iz angleščine v slovenščino

Navodila za uporabo iPhona 7. Rutinski problem, za katerega se uporabljajo strojni prevodi, so navodila za uporabo. Zato smo vzeli angleška navodila za uporabo iPhona 7 in jih prevedli.

Rezultati so pravzaprav razočarali, ker gre za preprosto tehnično besedilce z enopomenskimi izrazi. Iz vseh prevodov je mogoče izluščiti, kaj nam želi besedilo povedati, a prav nobeden ni primeren za uporabo brez predelave. Amebisu se vidi, da prevaja s pravili in da ima manjši korpus, preostali so primerljivi. Še najuporabnejši izdelek ustvari Yandex, sledi Google, Microsoftov pa je precej okorno preveden.

Novica. Vzemimo kakšno publicistično besedilo, ki glede na korpusni vir ne bi smelo predstavljati večjih težav. Letos se je največ govorilo o ameriških predsedniških volitvah, zato smo vzeli kratek sestavek iz Reutersa.

Da nihče ne ve, da je Clinton v tem kontekstu ženskega spola, jim oprostimo. Microsoft je naredil hudo pomensko napako, ker je edini rises to 6 point prevedel dvigne za 6 točk namesto na 6 točk, kar pomensko popolnoma spremeni stavek. Najbolj smiseln prevod je ustvaril Google, Microsoft lepega, a napačnega, Yandex in Amebis pa okornega, a še vedno dovolj razumljivega. Pri obeh se vidi, da prevajata s pravili oziroma majhnim korpusom, saj je cast postalo ulivanje ali prelivanje, kar je eden izmed pomenov besede. Toda cast a ballot je stalna besedna zveza, ki jo statistični prevajalnik z obširno baze zlahka prevede.

Iz slovenščine v angleščino

Kaj pa v nasprotno smer? Doslej je veljalo, da so prevodi iz slovenščine v angleščino potrebni manj popravkov kot nasprotno, ker v angleščini ni veliko pregibanja besed.

Novica. Vzeli smo kratko vest z naše nacionalne televizije. Najbolje se odreže Microsoft, ki razume besedo Clintonova in tudi pomen precej zapletenega stavka. Google in Yandex opravita delo podobno, le da Yandex ne ve, kaj je to Clintonova. Amebisov prevod je precej slabši in skoraj nerazumljiv.

Leposlovje. Na koncu smo si privoščili še leposlovni odlomek, ki pa kljub vsemu ni vseboval besednih iger, večpomenk in drugih pasti. Z vsakim prevajalnikom smo naredili povratni prevod (najprej v angleščino in potem ta prevod spet v slovenščino), s čimer smo preverili, koliko informacij se zgubi v prevodu.

Rezultati so zelo poučni. Sodeč po povratnem prevodu, je Yandex najboljši, a to ne drži. Angleški prevod razkrije, da besed mahnil, vežnih in razklala sploh ni znal prevesti, zato so seveda v povratnem prevodu lepo počakale na svojih mestih. Amebis in Microsoft nista razumela besede vežnih, njuna povratna prevoda pa sta podobno smešna. Google je edini prevedel vse besede, a je njegov povratni prevod precej napačen. Leposlovje torej strojnim prevajalnikom res še ne leži.

Koliko še do cilja?

Cilj ni več daleč. Strojno prevajanje je na zavidljivi stopnji in nam že danes omogoča, da izluščimo informacije iz člankov v tujih jezikih. Tudi prevajanje v drugo smer deluje dobro. Da bi lahko strojne prevode uporabili brez človeškega prevajalca, pa manjka le še pika na i. Missing only the icing on the cake, kot pravilno ugotovijo Google, Microsoft in Yandex. Amebisu manjka nekoliko več, in sicer lacks only full stop on i. In morda bomo Babilonski stolp dokončali celo pred Sagrado Famílio.

Slovarji, glosarji, korpusi

Strojno prevajanje je trenutno na ravni, ki omogoča uporabo za dva različna namena: prevod tujega besedila v domači jezik z namenom izluščiti osnovno vsebino ter preliminarni prevod besedila v tuji jezik, ki ga uporabimo kot šablono za dokončen prevod. Še zlasti, kadar se prevajanja lotevamo laiki (torej govorci tujega jezika, ki pa nimamo formalne izobrazbe prevajalca), je grob strojni prevod zlata vredna oporna točka.

Pri prevajanju pa trčimo tudi ob problem ustaljene rabe, stalnih zvez, frazemov in terminov. Tu nam bolj kot strojni prevod pomagajo korpusi prevodov, katerih najboljši vir je Evropska unija s svojo obsežno prevajalsko službo. Na internetu lahko uporabimo korpus Linguee, ki vsebuje prevode med vsemi jeziki EU in še nekaterimi drugimi svetovnimi, ter terminološko zbirko, različne slovarje in glosarje Evroterm. Linguee črpa v glavnem iz evropske zakonodaje, Evroterm pa vzdržuje Generalni sekretariat slovenske vlade.

Linguee pri iskanju po neznani besedi vrne cele stavke v domačem in tarčnem jeziku, s čimer lahko preverimo, da nismo zgrešili konteksta (in tečaja plavanja v angleščino prevedli kot hinge). Podobno deluje tudi Evroterm.

Inštitut za slovenski jezik Frana Ramovša ZRC SAZU že vrsto let skrbi za portal Fran, ki so ga letos oktobra temeljito prenovili. Portal je sicer omejen na slovenščino, a bo vsakemu prevajalcu kljub temu prišel zelo prav. Ponuja več deset brezplačnih slovarjev, priročnikov in zbirk: od splošnih (SSKJ, Pravopis, Slovar novejšega besedja, Slovar slovenskih frazemov, Slovenski etimološki slovar) do specializiranih slovarjev (besedje v 16. stoletju, botanični, čebelarski, geološki, farmacevtski in drugi terminološki slovarji, narečni slovarji itd.)

Na koncu ne pozabimo še na Wikipedijo, kjer so popularnejši članki na voljo v več jezikih. Niti slučajno to niso prevodi, a lahko iz njih izluščimo prevode terminov. Dostikrat nam zadostuje že naslov, saj takoj vidimo, kako se na primer neki rastlini pravi v tujem jeziku ali slovenščini.

  

Napredek v zadnjih letih

Iz starih številk Monitorja smo izbrskali primere, s katerimi smo (ne)uspešnost strojnega prevajanja ponazarjali v letih 2008 in 2013. Prevod istih besedil danes pokaže, da se je Google v teh letih naučil precej. To ni presenetljivo, saj je v tem času prebral in prevedel zelo veliko besedil.

Pri prevodu naslova slovenske komedije se je Google naučil pomembnosti velikih začetnic. Medtem ko je Matiček osebno ime, matiček največkrat nastopa v zvezi »krščen matiček«. »Shit«, skratka.

Prevod daljšega strokovnega besedila iz slovenščine v angleščino Google danes opravi bistveno bolje kot pred osmimi leti. Naučili se je novih besed, tudi skladnja je lepša.

Od leta 2013 so razlike manjše, saj je tedaj Google prevajal že precej bolje. Rdeča kapica je še vedno zelo podobna kot pred tremi leti. Še vedno se Googlu pozna, da se uči v glavnem iz pravnih tekstov, saj je v Bruslju tender v glavnem razpis ali ponudba, redko pa kaj nežnega.

SLO-ANG Navodila za uporabo iPhona 7

Izvirnik (uradni slovenski prevod) Vsi ljudje se rodijo svobodni in imajo enako dostojanstvo in enake pravice. Obdarjeni so z razumom in vestjo in bi morali ravnati drug z drugim kakor bratje.

Google: All human beings are born free and equal in dignity and rights. They are endowed with reason and conscience and should act towards one another as brothers.

Microsoft: All human beings are born free and equal in dignity and rights. They are endowed with reason and conscience and should act towards one another in a spirit of brotherhood.

Amebis: All people give birth free and they enjoy equal dignity and equal rights. They are awarded intellect and conscience and they would have to straighten other with other as brothers.

Yandex: All people are born free and equal in dignity and rights. Endowed with reason and conscience and should act with one another as brothers.

Uradno angleško besedilo: All human beings are born free and equal in dignity and rights. They are endowed with reason and conscience and should act towards one another in a spirit of brotherhood.

ANG-SLO Navodila za uporabo iPhona 7

Izvirnik (Apple): Use the Sleep/Wake button to turn on or wake iPhone, lock it, or turn it off. Locking iPhone puts the display to sleep, saves the battery, and prevents anything from happening if you touch the screen.

Google: Uporabite gumb Sleep / Wake vklopiti ali zbudi iPhone, da se zaskoči, ali pa ga izklopite. Zaklepanje iPhone postavlja zaslon za spanje, prihrani baterijo, in preprečuje, da bi kaj zgodilo, če se dotaknete zaslona.

Microsoft: Uporabite Sleep/Wake gumb za vklop ali zbudi iPhone, zaskoči, ali pa ga izklopite. Zaklepanje iPhone postavlja prikaz spat, Shrani baterije, in kaj preprečuje dogaja če se dotaknete zaslona.

Amebis: Raba Spanje/Brazda gumb, da nastavite na brazdo or iPhone, zaklenite onemu ali zasuku ono proč. Zaklepanje iPhone uspava prikaz, reši baterijo in odvrne anything od dogodka, če se dotakneš zaslona.

Yandex: Uporabite tipko Sleep/Wake gumb, da vklopite ali wake iPhone, zaklepanje to, ali ga izklopite. Zaklepanje iPhone postavlja zaslonu za spanje, varčuje z baterijo, in preprečuje, da bi se karkoli zgodilo, če se dotaknete zaslona.

ANG-SLO Novica

Izvirnik (Reuters): Currently, Clinton leads Trump in both high and low turnout scenarios, according to the latest poll. Her advantage holds at 5 points if 55 percent of eligible voters participate, and it rises to 6 points if 70 percent of Americans cast a ballot.

Google: Trenutno Clinton vodi Trump tako visokih in nizkih scenarijev udeležba, po zadnji anketi. Njena prednost ima na 5 točk, če sodeluje 55 odstotkov volilnih upravičencev, in se dvigne do 6 točk, če 70 odstotkov Američanov odda glasovnice.

Microsoft: Trenutno, Clinton vodi adut v obeh visoka in nizka volilna udeležba scenarijev, glede na najnovejše ankete. Njena prednost ima na 5 točk, če sodelujejo 55 odstotkov volilnih upravičencev, in se dvigne za 6 točk, če 70 odstotkov Američanov oddanih glasovanje.

Amebis: Trenutno, Clinton pelje Trump v tako vrhunec and nizek volilna udeležba scenariji, glede na najpoznejši glasovanje. Njena prednost traja pri 5 točkah, če se udeleži 55 odstotkov primernih glasovalcev in dvigne se na 6 točk, če ulije 70 odstotkov Američanov glasovnico.

Yandex: Trenutno Clinton vodi Adut v obeh vrhunec in nizka volilna udeležba scenarijev, glede na najpoznejši glas. Njegova prednost traja 5 točk, če se udeležiš 55% upravičenih glasovalcev in postavljeno na 6 točk, če prelije 70 odstotkov Američanov glasovnico.

SLO-ANG Novica

Izvirnik (RTV Slovenija): Najnovejše ankete kažejo, da Clintonova ostaja v prepričljivi prednosti tako nacionalno kot tudi v vrsti ključnih zveznih držav, ki običajno odločijo predsednika ZDA.

Google: Latest polls show that Clinton remains compelling advantages of both national as well as in a number of key states, which usually choose the President of the United States.

Microsoft: The latest polls show that Clinton remains in convincing advantages both nationally as well as in a series of key tudi States that usually decide the President of the United States.

Amebis: The newest surveys are indicating , that Clinton is staying corner also in kind of key federal states, that rule the president of United States usually, in convincing advantage so nationally.

Yandex: The latest surveys show that Clintonova remains in compelling benefits to both the national as well as in a series of key states that usually decide the president of the USA.

SLO-ANG-SLO Leposlovje

Izvirnik (Danes grofje celjski in nikdar več, Anna Wambrechtsamer): Ko je mahnil divji lovec s težko sekiro po vežnih vratih, se je zemlja stresla in se na široko razklala.

Google: When the booming poacher with a heavy ax Federal gate, the earth trembled and is widely split.

Povratni prevod Google: Ko razcvetu divji lovec s težko sekiro Zvezne vrata, zemlja tresla in je zelo razdeljena.

Microsoft: When she hit a wild Hunter with heavy axe after vežnih the door, the earth trembled and the wide split in two.

Povratni prevod Microsoft: Ko je zadel divji lovec s težka sekiro po vežnih vrat, zemlja tresla in na ravni, ki se razdeli na dva.

Amebis: When hit the poacher with heavy axe for vežnih door, a land was shaken and on wide split up.

Povratni prevod Amebis: When je udaril divjega lovca s težko sekiro za vežnih vrata, kopno je bilo pretreseno in on široko presekano.

Yandex: When mahnil a wild hunter with a hard axe after vežnih the door, the earth shook and the wide razklala.

Povratni prevod Yandex: Ko mahnil divji lovec s težko sekiro po vežnih vrat, zemlja se je stresla in široko razklala.

Že polliterarno delo (Mark Twain, The Awful German Language) Googlov prevajalnik dodobra zmede.

Microsoft isti prevod začini še s kakšno hrvaško besedo, sicer pa ni nič boljši od konkurence.

Yandex ne razume besede perplexity, ima pa iste probleme kot drugi prevajalniki. Preneseni pomeni 'pronoun business', 'unaccustomed tongue' in globoka podredja so za strojne prevajalnike še vedno trd oreh.

Amebis Presis sestavi prevod, iz katerega ni mogoče razbrati niti rdeče niti. Z zeleno obarva besede, ki jih je razumel, a to se prevajalniku samo zdi.

Naroči se na redna tedenska ali mesečna obvestila o novih prispevkih na naši spletni strani!
Prijava

ph

Komentirajo lahko le prijavljeni uporabniki