Objavljeno: 27.5.2008 15:15 | Avtor: Matjaž Horvat | Monitor Maj 2008 | Teme: google

Članek on the strojnem translation

Da bi se izognili nagrbančenim čelom, naj kar takoj pojasnim, da je zgornji naslov zrasel na zelniku enega izmed orodij za strojno prevajanje jezikov in ni delo tiskarskega škrata ali posledica prepozne oddaje članka spodaj podpisanega, ki bi urednika prisilila, da preskoči obvezno lektoriranje ...

Pustimo ob strani, za katero prevajalno orodje gre, in se raje sprehodimo po različnih pristopih k problemu strojnega prevajanja, ki so jih v zgodovini ubirali in jih še danes ubirajo programske rešitve. Razlike med njimi so kar precejšnje, po pričakovanjih pa je vsem skupno to, da potrebujemo dobro zasnovan sistem prevajanja za vsak par jezikov posebej, saj veriženje prevodov vodi do čedalje večjih napak.

Zamenjava besed

Najpreprostejša metoda prevajanja je zamenjava besed v izvirnem besedilu s prevedki v ciljni jezik, za kar potrebujemo samo slovar in nekaj spretnosti. Vendar pa nad rezultati tega ne ravno prefinjenega pristopa najverjetneje večina uporabnikov ne bo navdušena, je pa povsem zadosten za prevajanje daljših seznamov kratkih fraz, npr. katalogov izdelkov.

Računalniških prevajalnikov, ki bi delovali zgolj na podlagi te metode, je zelo malo. Vendar je metoda pomembna iz zgodovinskih razlogov, ker je rabila kot dokaz, da je strojno prevajanje sploh možno in koristno, uporabna pa je tudi kot osnova nekaterih zahtevnejših načinov prevajanja.

Pristop s pravili

Pred več kot pol stoletja je pristop s pravili demonstriral sistem, ki sta ga s skupnimi močmi razvila ameriška univerza Georgetown in IBM (Georgetown-IBM experiment). Njegov slovar je obsegal vsega 250 besed in je bil sposoben prevesti le okoli 60 stavkov iz ruščine v angleščino, pa še to skoraj zgolj s področja kemije. Deloval je na načelu zamenjave ruskih besed z angleškimi in je upošteval zgolj šest slovničnih pravil, zato se uvršča nekam vmes med slovarski pristop (zamenjava besed) in pristop s pravili.

Poskus Georgetown-IBM je pomemben predvsem kot začetek prvega projekta, ki je opozoril na potencial strojnega prevajanja, pridobil izdatna investicijska sredstva ameriške vlade in pritegnil veliko zanimanje javnosti. Znamenito pa je predvsem stališče avtorjev poskusa, da bo problem strojnega prevajanja dokončno rešen v treh do petih letih (torej še pred letom 1960). Očitno jim še na kraj pameti ni padlo, da bo leta 2008 še vedno moč prebirati članke z naslovi, kot je zgornji.

Leta 1966 je projekt zaradi nedoseganja ciljev začel prejemati bistveno manj sredstev in počasi zamirati, a njegovi dosežki so zajeti tudi v nekaterih današnjih rešitvah.

Recimo kar v slovenskem izdelku Prevajalec. Razvija ga ArtSoft Ljubo Brglez s.p. in prevaja angleška besedila v slovenska. Deluje v okoljih Windows, Linux in Mac OS X, vendar je podpora različnim operacijskim sistemom tako rekoč njegova edina odlika.

Slovar programa obsega 18.600 besed, to je razmeroma majhna številka, če jih v drugi izdaji Oxford English Dictionary najdemo 600.000, Webster's Third New International Dictionary, Unabridged pa ima vsako leto samo letnega prirastka besed za več kot 25.000. Poleg tega Prevajalec uporablja "preko 1000 pravil, fraz, nepravilnih glagolov, zaimkov, števnikov, kratic", toda v praksi nismo opazili skoraj ničesar drugega kot zamenjavo besed.

Že po ogledu zaslonskih posnetkov na spletni strani (pri izbiri katerih naj bi se avtorji skrbno potrudili), je bilo jasno, da od Prevajalca ne bo prav velike koristi. Angleško poved "The question is," said Alice, "whether you can make words mean so many different things" je nadomestil s slovensko "vprašanje je," reči alice, "če ti/vi lahko narediti beseda meniti tako mnogo drugačen stvar." Hmmmm, spoznajmo raje kakšne druge metode strojnega prevajanja ...

ArtSoftov Prevajalec deluje v okoljih Windows, Linux in Mac OS X, vendar je to tako rekoč njegova edina odlika.

Vmesni jezik

Zgoraj navedena primera uporabljata neposreden pristop s pravili, ki pravila uporablja pri neposredni pretvorbi iz enega v drug del jezikovnega para. Na voljo pa sta še dva posredna pristopa s pravili - pristop z vmesnim jezikom in prehodni pristop, ki sta v sodobni programski opremi bolj pogosta. Oba se držita enakega postopka prevajanja, ki poteka v dveh fazah: v prvi je treba poskrbeti za razumevanje izvornega besedila, v drugi pa enak pomen predstaviti s ciljnim jezikom.

Zato izvirno besedilo najprej pretvorita v začasno. Pri pristopu z vmesnim jezikom je začasno besedilo zapisano v nekem povsem umetnem jeziku (vmesni jezik ali interlingva), ki je neodvisen od jezikovnega para. Pri prehodnem pristopu pa izvirno besedilo najprej pretvorimo v bolj splošno, abstraktno različico, izvedemo za jezikovni par specifična jezikovna pravila, ta nas pripeljejo do splošne različice ciljnega besedila, iz te pa končno dobimo samo ciljno besedilo.

Primerjava različnih načinov prevajanja s pravili: neposrednega, prehodnega in pristopa z vmesnim jezikom.

Pristop z vmesnim jezikom v svojih izdelkih uporablja tudi najstarejše slovensko podjetje, ki se ukvarja z razvojem jezikovnih tehnologij - Amebis. Vas zanima, kako je v vmesnem jeziku videti poved "V Micko se je hitro zaljubil Janez"? Takole:

(-POV:(-STAgppdtv:(+PDOn:(+PZV:(*PRE:{18ffa;1d5,231,27f}[0]<b18>),(2SFR:(-DSF:(-JED:(-SAMe:{264c74;6b7020}[1]<3c78>)))))),(*PVD:(-GSE:[2])),(*PVD:(-GPO:[3])),(-PDOn:(-PRF:(-PRSo:{18032d;3d955c}[4]<500>))),(0PVD:(-GGL:{523148;bc8f8c}[5]<3138>)),(1OSB:(-SFR:(-DSF:(-JED:(-SAMe:{1ba8c8;45354a}[6]<230>))))),(-LOCk:[7]))).

Njihov prevajalni sistem Presis prevaja iz slovenščine v angleščino in nasprotno in ga lahko dvakrat na minuto uporabimo za prevajanje besedil, dolgih do 200 znakov, tudi v spletu ("pravi" Presis je sicer plačljiv). Zgoraj omenjeno poved Presis prevede takole: "vprašanje je," rečen Alice, "če ti lahko izdelava besede misliti torej veliko različen stvari." Presodite sami, ali se vam zdi prevod boljši kot v prvem primeru, seveda pa nikakor ne gre delati sklepov na podlagi enega primera. Presis je sicer še vedno daleč od popolnosti, vendar so prevodi ponavadi dovolj natančni za razumevanje izvirnega besedila, vsekakor pa je precej boljši od Prevajalca. Ena izmed prednosti Presisa je tudi ta, da uporabniku omogoča izbiro alternativnih prevodov posameznih besed, namesto da bi jih ločil s poševnico, kot to počne Prevajalec.

strojnoprevajanje3.jpg

Presis je najboljši prevajalni sistem, ki podpira slovenščino, in ga lahko brezplačno preizkusite tudi na spletnih straneh podjetja Amebis (presis.amebis.si/prevajanje).

Prehodni pristop uporablja SYSTRAN, eno izmed najstarejših podjetij, ki se ukvarjajo z razvojem programske opreme za strojno prevajanje. Njegovi začetki segajo v 60. leta, zato ne preseneča, da je njegova podpora več blizu 40. jezikovnim parom ena izmed najbolj pestrih med vsemi igralci na trgu. Rešitev je brezplačno na voljo za Windows, Linux, Solaris in tudi v spletu, najbolj razširjena izvedba programske opreme SYSTRAN pa sta AltaVistina in Yahoojeva riba Babel Fish.

AltaVista Babel Fish za prevajanje uporablja prevajalni sistem SYSTRAN (babelfish.altavista.com).

Yahoojeva riba Babel Fish uporablja enak prevajalni sistem kot AltaVista, oba pa podpirata tudi

neposredno prevajanje spletnih strani (babelfish.yahoo.com).

Statistična osnova

Do nedavna je sistem SYSTRAN v svojih prevajalskih orodjih uporabljal tudi Google, a je presedlal na lastnega, ki temelji na obdelavi dvojezičnih korpusov besedil ob pomoči statističnih metod. Poleg prevodov besedil in spletnih strani storitev Google Translate ponuja tudi slovar in prevajanje iskanja, ki mu v svojem jeziku podamo iskalni kriterij, išče pa po spletnih straneh v enem izmed 13 podprtih jezikov.

Google se je poslovil od prevajalnega sistema SYSTRAN in bolj zaupa v lastno znanje statističnih metod (www.google.com/translate_t).

Googlov oddelek za strojno prevajanje je za strojno učenje prevajalnega sistema uporabil dokumente Združenih narodov, ki so na voljo v vseh šestih uradnih dokumentih organizacije (angleškem, arabskem, francoskem, kitajskem, ruskem in španskem). Tako naj bi jim uspelo sestaviti šestjezični korpus z 20 milijard besedami, ki je sistem izučil do zavidljive stopnje natančnosti.

Ključni problem statističnega pristopa je sestavljanje dovolj obsežnih korpusov. Po mnenju Franza Josefa Ocha, ki vodi Googlov oddelek za strojno prevajanje, je za dobro osnovo potreben dvojezični korpus z najmanj milijon besedami v vsakem izmed jezikov in še enojezični korpus z obsegom milijardo besed za vsak jezik posebej.

Dober primer strojnega prevajalnika, ki ima težave s takimi številkami, najdemo na spletnih straneh Pedagoške fakultete Koper Univerze na Primorskem. Njegov avtor je Jernej Vičič (sicer tudi nekdanji Monitorjev pisec), podpira pa prevajanje v angleščino in par slovanskih jezikov (češčino in srbščino). Njegovi korpusi večinoma obsegajo le nekaj tisoč povedi, to pa je seveda bistveno manj kot predpostavlja Och, zato so prevodi praviloma neuporabni.

Tudi slovenščina ima prevajalni sistem s statistično osnovo, vendar je njegova uporaba zaenkrat še preveč omejena. (www.pef.upr.si/menola)

Velika prednost statističnega pristopa pred pristopom s pravili pa je, da ne potrebujemo ne slovarja ne poznavanja skladenjskih ali kakršnihkoli drugih slovničnih pravil. Tako lahko sistem za prevajanje iz slovenščine v kitajščino izdela tudi nekdo, ki ne zna niti besedice kitajsko. Prav gotovo pa mu to ne bi škodilo.

V prihodnosti se lahko nadejamo obsežnejšega razvoja prevajalnih orodij, ki bodo delovala na podlagi statističnih metod in strojnega učenja, ki je eno izmed najširših polj umetne inteligence. Tudi slovenščina utegne na tem področju pridobiti veliko, saj smo že od leta 2004 člani organizacije s (trenutno) 23 uradnimi jeziki - Evropske unije, ki utegne biti vir zelo obsežnega večjezikovnega korpusa.

Viri

http://en.wikipedia.org/wiki/Machine_translation

Peter Holozan, Amebis: Strojno prevajanje: krasni novi svet?

http://blogoscoped.com/archive/2005-05-22-n83.html

Angleško poved "The question is," said Alice, "whether you can make words mean so many different things" je nadomestil s slovensko "vprašanje je," reči alice, "če ti/vi lahko narediti beseda meniti tako mnogo drugačen stvar."

Googlov oddelek za strojno prevajanje je za strojno učenje prevajalnega sistema uporabil dokumente Združenih narodov, ki so na voljo v vseh šestih uradnih dokumentih organizacije (angleškem, arabskem, francoskem, kitajskem, ruskem in španskem). Tako naj bi jim uspelo sestaviti šestjezični korpus z 20 milijard besedami, ki je sistem izučil do zavidljive stopnje natančnosti.

Tudi slovenščina utegne na področju statističnega prevajanja pridobiti veliko, saj smo že od leta 2004 člani organizacije s (trenutno) 23 uradnimi jeziki - Evropske unije, ki utegne biti vir zelo obsežnega večjezikovnega korpusa.

Naroči se na redna tedenska ali mesečna obvestila o novih prispevkih na naši spletni strani!

Komentirajo lahko le prijavljeni uporabniki

 
  • Polja označena z * je potrebno obvezno izpolniti
  • Pošlji