Esperantilo Blogo en Esperanto pri projekto Esperantilo kaj komputila lingvistiko

13.11.2006

Taŭgeco de Esperanto kiel interlingvo en maŝina tradukado

Filed under: lingvistiko,maŝina tradukado — artur @ 19:56

Ofte Esperanto estas proponita, kiel tiel nomata interlingvo por maŝina tradukado. DLT estas projekto, kiu reale tion provis. Ĝis nun neniu projekto rezultigis uzeblan sistemon.

Esperantistoj ofte mem sugestas la uzadon de Esperanto por tiuj kialoj. Mi devas konstati, ke kvankam ideo de interlingvo estas tre avantaĝa, Esperanto vere ne taŭgas por tiu tasko. Esperanto estas kreita kiel facile lernebla (por eŭropanoj) lingvo por internacia komunikado inter homoj. Tial Esperanto havas kelkajn specialajn trajtojn por atingi tiun celon.
Plej grava trajto estis granda lernebleco. Tiujn celojn Esperanto atingas per senescepta gramatiko kaj potenca vortfarado.
Esperanto estas kreita laŭ praktikaj bezonoj kaj spertoj kun multaj naturaj lingvoj. En Esperanto oni trovas vortojn de naciaj lingvoj kaj ankaŭ gramatikajn regulojn, kiuj funkcias en naciaj lingvoj. La kreito (aŭ kreintoj) de Esperanto neniam pensis pri maŝina tradukado kaj komputila lingvistiko, ĉar tiam tiuj temoj ne ekzistis.

La plej granda problemo ĉe komputila prilaboro de naturaj lingvoj estas multnivela multsenco de natura lingvo.
Oni ofte priskribas tri nivelojn.

  1. leksikona nivelo – sinonimoj. Ekzemple vorto: observi
  2. sintaksa nivelo – multaj eblaj kaj korektaj sintaksaj interpretadoj. Ekzemple frazo: Ŝi ricevis florojn de sia patro.
  3. pragmatika nivelo – kion celas la lingva esprimo.

Maŝina tradukado ĝis nun praktike pritraktas nur du nivelojn. Ŝajne la kreinto de Esperanto volis malaltigi unuflanke la multsencojn ĉe leksikona nivelo, sed aliflanke la sintaksa multsenco estas alta, ĉar tio ebligis facilan gramatikon.

La perfekta interlingvo por kialoj de maŝina tradukado devas ne havi mulsencojn. Ĝi devas havi la saman kapablon konservi informojn kiel ĉiuj lingvoj, ĉar oni volas eviti informoperdon ĉe tradukado jam pro maltaŭga interlingvo.

Mi volas prezenti kelkajn ekzemplojn

Leksikona multsenco

Ŝi observis birdojn. (pole: Ona obserwuje ptaki)
Li ne observis la leĝon. (pole: On nie przestrzegał prawa)

Vorto ‚observi‘ havas 3 sencojn. Malfeliĉe en pola lingvo oni devas uzi por 2 sencoj tute aliajn tradukojn.

Sintaksa multsenco

Ŝi ricevis florojn de sia patro. (pole: Ona otrzymała kwiaty ojca, aŭ Ona otrzymała kwiaty od ojca)

Oni ne povas en Esperanto tute klare difini, kiel oni devas interpreti la frazon.
Ŝi ricevis florojn [de sia patro]. aŭ Ŝi ricevis [florojn [de sia patro]].

Perdo de informoj

La informo-enhavo de gramatikaj strukturoj estas por naciaj lingvoj tre diferencaj. Tio malfaciligas la tradukadon.

Mi legis la libron.

Eblaj polaj tradukoj:

  1. Czytałem książkę
  2. Czytałam książkę
  3. Przeczytałem książkę
  4. Przytałam książkę

En pola lingvo fleksio de verboj signifas ankaŭ genron de subjekto. Por preskaŭ ĉiu pola verbo ekzistas 2 variantoj, kun signifo, ĉu la tasko estas plenumigita. Alia ekzemplo estas la pronomo ‚vi‘, kiu en Esperanto povas esti singulara aŭ plurala.

Aliaj teknikaj kialoj

Esperanto ne estas ankaŭ ideala por sintaksa analizo. Kelkajn vortetoj povas havi multajn rolojn en frazo.
Ekzemple la prepozicioj: al, de

Mi donas la libron al vi.
Mi veturas al pariso.
La libro estas skribita de fama aŭtoro.
Tio estas libro de fama aŭtoro.

Tiuj vortetoj devas esti tradukitaj al pola lingvo depende de rolo tute alie.

Daję książkę tobie.
Jadę do Paryża.
Książka została napisane przez sławnego autora.
To jest książka sławnego autora.

Esperanto ne estas normita

Esperanta lingvo lasas al la uzantoj tre grandan liberecon de sia uzado. Fundamento preskaŭ tute ne pritraktas la sintakson de la lingvo. La frazoj devas esti laŭ fundamento kompreneblaj, sed ĝi ne difinis de kiu. Ofte Esperantistoj nur kopias sian nacian lingvon. Tiaj frazoj estas korektaj sed certe ne kutimaj. La maŝina traduko estas tre malfacila.

Grandan mi legis libron. (sintaksa dispartigo)
Mi vidis lin veni hieraŭ. (germana kutimo)
Filo similas patron. (libera vortfarado)

Esperantistoj mem per evoluaj procesoj kreas regulojn pri la uzado. Esperanto evoluas laŭ reguloj de naturaj lingvoj, ĉar uzas ĝin homoj. En Esperanto ekzistas tre multaj ebloj esprimi ion. Ekzistas multaj sinonimoj (legu Ne ŝatataj vortoj).
Interlingvo devas esti firme normita kun difinita sintakso, kiun oni povas matematike (kaj logike) pruvi. Interlingvo devas havi difinitan vortaron kun tradukoj al ĉiuj koncernataj celaj lingvoj. Tiujn postulojn Esperanto ne plenumas.

En projekto DLT fine oni kreis propran normitan (regulitan) lingvon, kiu baziĝas sur Esperanto. Sed kial krei novan lingvon de Esperanto, se oni povas uzi por tiu alian nacian lingvon, kun pli bonaj vortaroj, kun pli vasta tekstaro, kaj kun pli ampleksaj lingvistikaj iloj.

La ideala interlingvo por maŝina tradukado devas havi trajtojn de formalaj lingvoj konataj de komputila scienco (ekzemple programaj lingvoj).

Aldonaj priskriboj de teksto

Ebla teknika solvo de tiuj problemoj estas pliriĉigo de tekstoj per aldonaj priskriboj.
Tiu tekniko (nomata angle tagging, vidu ankaŭ Tags) estas vaste uzata en lingvistika analizo en medio de XML kaj estas ofte pridiskutata ĉe tiel nomata semantika reto.

La kvanto de bezonataj aldonaj priskriboj dependas de cela lingvo de traduko.
Oni povas imagi, ke komputilo povus helpi en tiu tasko.
La komputila analizo povus trovi lokojn en tekstoj, kiuj havas multajn sencojn aŭ ne estas unusignife tradukebla al iu lingvo.

Mi{genro=ina} legis{aspekto=perfektiva} la libron.
Li ne observis{senco=2obei) la leĝon.
Ŝi ricevis [florojn de patro].

Imageble estas ankaŭ, ke komputilo aŭtomate aldonos tiujn priskribojn (uzante statistikajn metodojn aŭ profundan semantikan analizon) , kaj poste homo nur ekzamenos la rezulton.

Softvaraj patentoj pri Esperanto

Eĉ se la uzo de Esperanto kiel interlingvo en maŝina tradukado ne estas tiel avantaĝa, kiel oni ofte pensas, ekzistas
kelkaj softvaraj patentoj pri tio.
Vidu: United States Patent 5615301.
La patentoj mem estas tre ĝeneralaj kaj el teknika vidpunkto tre amatoraj. Por lingvistoj tiu eblo estas ja memkomprenebla. Aŭtoroj evidente ne priskribis ian inventaĵon, sed volis rezervi rajton por iu inventaĵo, kiu povus veni.
La afero de softvaraj patentoj estas ĝenerale tre dubinda (vidu www.nosoftwarepatents.com), kaj se temas pri Esperanto tre malkontentiga.

1 Kommentar »

No comments yet.

RSS feed for comments on this post. TrackBack URL

Leave a comment

Du musst angemeldet sein, um einen Kommentar abzugeben.

Powered by WordPress