Esperantilo Blogo en Esperanto pri projekto Esperantilo kaj komputila lingvistiko

4.5.2012

Googlo tradukas Esperanton

Filed under: maŝina tradukado — artur @ 20:13

Tiu mesaĝo tre surprizis min. Nun oni povas traduki maŝine al esperanto kaj el esperanto inter 63 lingvoj. Mi de kelkaj jaroj hobie laboras pri maŝina tradukado kaj Esperanto kaj ne tre alte taksis eblon, ke googlo iam kaj tiom frue okupos pri la esperanta lingvo. Mi sciis, ke googlo uzas statistikan metodon por tradukado, kaj mi ankaŭ faris kelkajn provojn pri tiu metodo.
Do mi studis la faman laboron pri statistika tradukado.. Mi iam eksperimentis per giza+ kaj volis uzi tiun ilon por konstrui vortaron. Miaj rezultoj estas tre mizeraj kaj tempo de komputado tre longa. Mi rapide rimarkis, ke oni bezonus vere egan kvanton de paralelaj tekstoj. Mi ne supozis, ke tiu necesa kvanto ekzistus por Esperanto en proksima venonto. Google pruvis la malon. Ĝi estas la plej granda teksta bazo de mondo kaj ĝi povas profiti de tio. Due google eble havas pli bonan teknikon ol la primitivaj iloj de komenco de statistika metodo. Por mi la plej miriga estas la rapideco de g-tradukilo. Mi povas nur imagi, ke la teksto estas tradukita nur ĉe multaj paralelaj procesoroj de tre bone skribitaj programoj. La uzula interfaco en povas esti pli facila.

Oni trovas kelkajn informojn pri historio de G-tradukilo tie. Tie mi legis, ke nun la g-tradukilo tradukas pli da teksto en unu tago ol ĉiuj tradukistoj en unu jaro kaj estas nun la plej uzata komputila tradukilo. Tio signifas, ke nun multaj homoj unue povas kompreni iugrade fremdlingvajn tekstojn sen dungo de multekostaj tradukistoj kaj longa lernado. La lingva revolucio, pri kiu Esperantistoj ĉiam revis, okazas sed ne helpe de Esperanto aŭ aliaj lingvoj sed helpe de tekniko.

Surpriza estas por mi ankaŭ la fakto, ke tuj esperanto estas unu de lingvoj, al kiu oni povas traduki kaj, de kiu oni povas traduki. Mi tuj faris kelkajn provojn, kaj rimarkis, ke la kvalito estas sufiĉe bona por kompreno. Mia plej bona tradukilo (eo>pl) estas komparebla kun googlo. Aliaj estas pli malbonaj. Programo Esperantilo estis longe la sola tradukilo, kiu povas traduki al pola kaj germana lingvoj. Nun la situacio ŝanĝiĝis.

Unuaj testoj

Mi havas fakan intereson taksi la kvaliton kaj eblojn de tradukilo de googlo. Post la ŝoko mi komencis fari kelkajn testojn. Mi tradukis de esperanta lingvo al pola lingvo. Mi rimarkis en pola rezulto kelkajn anglajn vortojn. Do ŝajne googlo uzas la anglan lingvon kiel interlingvo! Ridinde, ke oni frue vidis Esperanton en tiu rolo.

Do la nomo „Vera Jeruslanova“ estis tradukita al „True Jeruslanova“.

Mi volas scii, ĉu googlo tradukas po unu frazo aŭ kelkajn frazojn kune.
Jen la testo:

  • Mi legis la libron. Ĝi estis tre longa. > Czytałem książkę. To była bardzo długa.

Alia ekzemplo.

  • Mi legis la raportaĵon. Ĝi estis longa. > Czytałem raport. To była długa.

Mi ne povis trovi la ekzemplojn, en kiu la unua frazo influos la tradukon de la dua frazo.
Do ŝajne la frazoj estas tradukitaj tute sendepende.

Aliaj malfacilaj aspektoj de pola gramatiko

  • Mi aĉetis la libron kaj legis ĝin. > Kupiłem książkę i ją przeczytać.

Tie la tradukilo ne sukcesis kunligi la subjekton kun du verbojn.

Ordo do vortoj en frazo.

  • Mi legis la libron. Czytałem książkę.
  • La libron mi legis. Książka czytam.
  • La libron legis mi. Książka czytam.
  • Legis mi la libron. Czytałem książkę.

Esceptoj de pola akuzativo

  • Mi havas libron. Mam książkę.
  • Mi ne havas libron. Nie mam książkę.
  • Mi ne havas tiun libron. Nie mam tej książki.
  • Mi havas kvin librojn. Mam pięć książek.
  • Mi ne havas kvin librojn. Nie mam pięciu książek.

Mi volas scii, ĉu googlo iom konas la gramatikon de la lingvo. La testo estas traduki sensencajn sed gramatike korektajn frazojn.

  • Mi legis la interesan libron. Czytałem interesującą książkę.
  • Mi legis la interesan arbon. Przeczytałem ciekawy drzewo.
  • Mi legis la amikan pluvon. Czytałem na przyjaciela prysznicem.
  • La mondo miras pri tio. Cuda świata na nią okiem.

Je malpli granda la verŝajneco de la frazo des pli mirindaj estas la tradukaj rezultoj.
De la dua ekzemplo oni vidas, ke la tradukilo ne povas kunligi la genron de la vorto „interesa“ kun vorto „arbo“. Tio iom surprizis min, ĉar mi pensis, ke iel google programo zorgas pri gramatiko (rekonas vortgrupojn kaj reguloj de tio).

Komparo de Esperantilo kun G-Tradukilo

Mi prenis miajn ekzemplajn frazojn kaj tradukis per googlo. Tiuj frazoj estas elektitaj por kovri la ĉiujn aspektojn de pola kaj esperanta gramatiko. La rezultoj estas tie. 17% de tradukoj estas tute identaj. Mi pensas, ke nun tradukado al pola lingvo en Esperantilo estas pli bona ol tiu de G-tradukilo.
Interese estos kompari tiujn rezultojn post ioma tempo kaj vidi de tiu ĉu googlo daŭre plibonigas la tradukilon. De la komparo de tradukoj oni tre bone vidas la specialajn trajtojn de statistika tradukado. Relative ofte la tradukilo de googlo eraras pri la vorteto „ne“. Estas malgranda vorteto, sed ĝi kaŭzas tute malan sencon. Ofte la negado aperas tute surprize. Mi supozas, ke se la vortkombino aperas ofte kun negado, la tradukilo aplikas la negadon, eĉ se en fonta teksto ĝi ne estas. Ofte ĉe la traduko aperas alia tempo de verboj. De venonta tempo iĝas nuna tempo. Ankaŭ ĉe tiu oni sentas la anglan interlingvon. Oni rimarkas multajn erarojn, kiuj radikas en malforto de angla lingvo. Surprizaj estas ankaŭ kelkaj tradukoj, kiuj tute ne havas rilaton kun la fonto. Oni ne povus eĉ imagi kiel la maŝino konstruis tian strangan rezulton. Ekzemple: (Laŭ la frukto oni arbon ekkonas. Zgodnie z drzewa owocowego przyjeżdżasz do zrealizowania.).
Tiuj frazoj rememorigas al anekdotoj pri maŝina tradukado de 60-aj jaroj.
La statistika tradukado estas iom danĝera, ĉar ŝajne la programo insiste volas konstrui iun sencan tradukon, ankaŭ, se ĝi tion tute ne kapablas. En tiu kazoj por mi estus pli bone, se la tradukilo ĝentile diris: „Mi ne povas traduki tiun frazon“ aŭ avertis, ke la rezulto ne estas fidinda.
La unuopaj vortoj, kiuj tute ne estis tradukitaj, aperas en la fonta teksto sen iu marko. Sed eble tiu estas konscia decido de googlo. Oni eble volis fari la funkciadon tute simpla sen iuj specialaĵoj. Mi povus pensi, ke googlo tute ne volas, ke profesiaj tradukistoj uzas googlo kiel unua ŝtupo de ilia laboro kaj tiel ne helpas al tiu grupo. Por profesiaj tradukistoj google havas alian produkton (google toolkit).

Oni ankaŭ povas vidi, ke googlo ne regas morfologion (vortkonstruon) de esperanto. Ĝi ne rekonas participojn kaj ankaŭ ne povas diveni sencon de vorteroj.

Sed mi ankaŭ rimarkis kelkajn tradukojn, ĉe kiuj googlo estis pli bonaj ol tiuj de la esperantilo. Temas ĉefe pri gramatike esceptaj frazoj aŭ oftaj parolturnoj, kiujn oni tradukas speciale. Tie oni klare vidas avantaĝojn de statistika metodo. Do la nombro de tiuj frazoj ne estas alta.

Ekzistas ankaŭ multaj aliaj trajtoj, kiujn oni povas kompari. Bedaŭrinde unue mi devus programi ilaron pro tio. Interesa estus demando, kiom granda estas la nombro de konataj esperantaj vortoj aŭ kiaj estas tiuj tekstoj, kiujn uzis googlo por trejnado de sia tradukilo. Ĉu oni povas de la rezultoj de tradukado trovi la heredan tekston.

Statistika Metodo

Googlo nomas sian metodon de maŝina tradukado ankaŭ la datumorienta metodo (angle: „data-driven approach“). Sed temas pri tradicia statistika metodo. En tiu metodo oni uzas la tre grandan kvanton de paralelaj tekstoj. Temas pri teksto, kiu ekzistas kiel origina teksto kaj kiel la tradukado al alia lingvo. Do la havebleco de paralelaj tekstoj (datumaro) estas tre grava en tiu metodo. La metodo baziĝas sur verŝajneco. La komputilo tradukas kutime po unu frazo. Unue oni trovas la plej verŝajnajn tradukojn de iu frazo kaj poste elektas la plej verŝajnan frazon en cela lingvo. Praktike la konstruo de tia tradukilo estas en du ŝtupoj. Oni unu konstruas bazon por rapide kalkuli la verŝajnecon de frazojn. En tiu fazo la tradukilo ŝajne mem lernas traduki de paralelaj tekstoj. En la dua fazo, la tradukado mem, la komputilo nur devas konstrui frazojn kaj kalkuli verŝajnecon.

Ĉe tiu metodo la detala lingva kono, gramatikaj reguloj aŭ vortaroj ne estas necesas. La evoluo de statistika metodo estas limigita ĉe konstruo de algoritmoj, kiuj povas pli rapide kaj ekzakte kalkuli verŝajnecon de pli malgranda kvanto de paralelaj tekstoj. La detalaj informoj oni trovas en la unua fama scienca laboraĵo.

La statistika metodo laboras bone por gramatike similaj lingvoj. Do la rezultoj estas kutime pli bonaj por lingvoj, kiu havas similan fleksion kaj vortordon. La sciencistoj longe laboris pri tielnomataj matematikaj lingvaj modeloj, kiuj plej bone povas speguli la elektitajn lingvojn. Lingvo modelo en statistika metodo estas ĉefe nur funkcio por verŝajneco de iu vorto ĉeno por elektita lingvo kaj traduko inter du lingvoj.

Ekzistas du tre grandajn avantaĝoj de statistika metodo. La programo kvazaŭ povas lerni de tekstoj kaj la kvalito de traduko dependas de tempo kaj forto de komputilo. Oni povas plibonigi la tradukilon havante pli da paralelaj tekstoj sen iu programado aŭ homa laboro. La metodo estas ideala por la firmao googlo. Ili havas grandajn komputilajn fortojn kaj grandegan bazon de tekstojn. Googlo vidas ĉiujn en la reto per siaj robotoj kaj la firmao povis ankaŭ skani multajn librojn. Tial oni ne povas bone kompari la kvaliton de programo kiel Esperantilo kaj google tradukilo. Povus esti, ke la rezultoj, kiujn mi ricevis el la publika paĝo de googlo estas malalta, ĉar googlo ne volas, ke komputilo multe kalkulas sed faras tiom rapide. Do la kvalito estas nur unu de parametroj de tradukilo. Eble googlo povus kontraŭ mono aŭ por elektitaj uzantoj fari pli bonan tradukon. Tion mi ne scias.

Senkosta servo de Googlo

Estas por multaj enigmo kial la firmao googlo oferas senkostaj servoj por uzantoj. La rezulto de tiu enigmo estas simpla. La servoj ne estas senkostaj. Nur oni pagas alie. Oni pagas per personaj datumoj. Oni devas ankaŭ rimarki, ke googlo ne oferas programon sed nur servon. La firmao povas tre rapide ŝanĝi la uzadon de servo aŭ tute haltigi ĝin. Ĉiun teksto, kiun oni tradukas, fariĝas datumaro de googlo. Oni devas pripensi, ke ankaŭ ĉiu, kiu kontrolas la reton, scias ĉiom, kion oni tradukas. La traduka servo ne estas sekurigita per enigmaj metodoj. Oni imagu, ke la iu disidento uzus googlo por traduki iun tekston kontraŭ registaro. Googlo kaj la registaro mem, kiu kontrolas la konekton kun la reto tuj, eksciis pri tio. Mi ne scias, ĉu ĉiu uzanto de la reto scias pri tio.

Googlo uzas la tradukilon ĉe kelkaj propraj servoj. Oni povas traduki la simplan nudan tekston tuj en retumilo. Frue oni povis enskribi la adreson de ttt-paĝo, kiun oni povas traduki. Nun la tradukado de paĝoj estas eble nur en la retumilo Chrome, kiu estas produkto de googlo.
La tradukilon oni povas ankaŭ uzi en mobiltelefona operaciuma sistemo android kaj aliaj servoj de googlo. Googlo uzas la tradukilon kiel baza servo por kreski la valoron (uzeblecon) de aliaj servoj. Eble iam la maŝina tradukado estas same memkomprenebla funkcio de iu programo kiel nune la literumado aŭ eltondi&interglui (copy&paste).

Al Kiu apartenas la scio de la statistika tradukilo

La statistika tradukilo povas iel lerni de aliaj tekstoj. Googlo uzas la plej grandan bazon de teksto (la reton) por nutri siajn komputilojn. Tial ĉiuj, kiuj iam tradukis tekstojn, partoprenis malrekte en la envolvo de tiu tradukilo. Multaj demandoj estus interesaj en tiu kunteksto. Demandoj pri rajtoj, propraĵo, elspezo, patentoj kaj laborpago. La statistika tradukado estas unu en la kampoj de googlo, kiu tuŝas tiun temaron.

Mi pensas, ke la servo „google translation toolkit“ estis farita ankaŭ por kolekti datumaron por plibonigo de tradukilo. Tradukistoj, kiuj uzas tiun servon, helpas ankaŭ al plibonigo de tradukilo kaj faras ilian laboron fine malpli bezonatan. Tiu estas nuntempe ofta komerca modelo en la reto. Oni oferas servojn kaj uzantoj per ilia uzado lasas iun datumaron, kiun oni povas uzi en alia maniero komerce kaj fine enspezi per tio monon. Mi longe ne kredis, ke tiu nedirekta metodo funkcius.

Googlo gajnos ĉiam

Mi ne scias, kiel taksi la plibonigon de maŝina tradukado en la kunteksto de Esperantistaro. Bedaŭrinde frue ofte oni varbis por Esperanto kun la argumento, ke la maŝina tradukado neniam estos uzebla. Nun oni vidas, ke tiu maŝina tradukado iĝas kutima ilo, kiun povas uzi preskaŭ ĉiu. Oni povas atendi, ke la kvalito de tradukado kreskos.
Esperanto estas nur la 64-lingvo de G-tradukilo, tamen la unua artefarita lingvo, kiun subtenas la programo. Aperis kelkaj tekstoj en la rete en kiuj kelkaj homoj eĉ plendis pri firmao googlo, ke ĝi okupas pri iu artefarita lingvo kaj same ekzistas multaj naturaj kaj naciaj lingvoj kiuj ne estas subtenataj. Nun oni povas nur timi, ke googlo iam forigus Esperanton de ilia servo. Tiu estus kiel fina malvenko de Esperanto.

Due la subteno de Esperanto de googlo igis aliajn tiajn projektojn preskaŭ vanaj. Ankaŭ, se ekestos iu ilo, kiu povus traduki pli bone ol googlo tradukilo, oni povus tuj uzi tiun ilon por lerni la googlo tradukilon mem. Do goolgo ĉiam havos pli la uzantoj kaj pli da datumaro.

Eble Esperantistoj kaj lingvistoj povus pli serioze pritrakti la maŝinan tradukadon kaj komputilan lingvistikon. Aliaj projektoj povus profiti aŭ ekestus novaj projektoj. Eble en tiu kunteksto Esperanto denove estus interesa kiel eksperimenta kuniklo de sciencistoj. Esperanto estas bona lingvo kaj eble ankaŭ bona por komputiloj. Imagu, ke Googlo uzos Esperanton kiel maŝinan interlingvon nur ĉar tio garantias pli bonan kvaliton de tradukado. Por komputilo estas tute egale, kiun lingvon ĝi uzas (kalkulas). La lingvo estas por komputilo nur datumaro. Ĉu tiu ebla uzado havus iun influon je Esperantistaro. Esperanto estas artefarita sed Esperantistoj havis ĉiam la revon, ke ilia lingvo estas uzata tute nature.

Mi ankaŭ ne povas klare imagi, ĉu la ekzisto de maŝina tradukilo pligrandigos la kvanto la esperantaj tekstoj en la reto.
Unue oni povas nun facile traduki la tekston de fremda lingvo kaj poste korekti ĝin. Due oni eble ne tradukus, ĉar ĉiu povus mem fari tion kaj eĉ uzi kiel celan lingvon la propran nacian lingvon. Se la kvanto de esperantaj tekstoj pligrandigos eble post tiam plibonigos la kvalito de g-tradukilo. Do povas ekesti pozitiva mem pligrandiĝanta efekto.

Situacio de Esperantilo

Nun la kvalito de tradukilo de Esperantilo estas nur por pola lingvo senteble pli bona ol la G-tradukilo. Ekzistas kelkaj argumentoj por uzi la Esperantilon aŭ aliaj tradukiloj.

  • Esperantilo pli zorge pritraktas la negadon.
  • Esperantilo regas la morfologion de Esperanto.
  • Esperantilo neniam tradukas tute malprave.
  • Esperantilo avertas pri problemoj ĉe tradukado per diferencaj markoj.
  • Oni povas mem influi la tradukan vortaron.
  • Oni povus mem modifi la programon,
  • La programo estas malferma kaj libera. Neniu povus iam malŝalti ĝin.

Mi estas tamen konscia, ke por multaj uzantoj de la reto la uzado de g-tradukilo estos same memkomprenebla kiel la uzado de la g-serĉilo mem.

Por mi la nova situacio signifas, ke mi verŝajne ne plu laboros pri maŝina tradukado al aliaj lingvoj sed koncentriĝos nur pli pola lingvo. Por mi estas ankaŭ bona afero povi kompari la propran programon kun la alia programo. Mi dezirus, ke tiu alia programo ankaŭ estas libera kaj malferme, sed oni ne povas havi ĉion.
Ekzistas ankaŭ kelkaj funkcioj de programo Esperantilo, kiuj ankaŭ estas utilaj por uzantaro kaj kiuj googlo eble neniam faros. Temas ĉefe pri analizo de esperanta teksto mem, korektado kaj taksado.

Keine Kommentare »

No comments yet.

RSS feed for comments on this post. TrackBack URL

Leave a comment

Du musst angemeldet sein, um einen Kommentar abzugeben.

Powered by WordPress