Esperantilo Blogo en Esperanto pri projekto Esperantilo kaj komputila lingvistiko

6.11.2006

Vortaro kaj glosaro en maŝina tradukado

Filed under: lingvistiko,maŝina tradukado — artur @ 20:12

Bona glosaro estas tre grava por bonkvalita maŝina tradukado. La aspekto de vortlistoj, kiuj estas uzataj en maŝina tradukado, havas aliajn necesojn ol vortaroj uzataj de homoj. Kutimaj vortaroj estas preparitaj por homoj, kiuj konas minimume bone unu lingvon. Tial unu lingvo en vortaro estas ofte nur skeme priskribita. Homoj uzas ofte laŭ bezono pliajn vortarojn por plenumigi ilian laboron, kaj povas ankaŭ uzi aliajn fontojn de lingva scio, ekzemple gramatikaj libroj. Homoj konas sufiĉe bone la lingvon por mem trovi la bazan formon de vorto kaj derivi bezonatan formon de vorto. Esceptoj estas priskribitaj kiel normala teksto aŭ kiel ekzemplo de uzado.

Kutimaj vortaroj de esperanto, kiujn oni povas trovi en reto, havas aspekton.

-ilo; ~zeug, Werkzeug
adjukti; (öffentlich) aufschreiben
administra; Verwaltungs~
~ad~ ;Nachsilbe für andauernde Handlung, z.B. "kuradi" = "Dauerlaufen"
rapida; schnell
fermi; schliessen
arbo; Baum

Oni povas bone rimarki, ke la listo enhavas ne nur normalajn vortajn parojn, sed ankaŭ priskriboj pri esperanta aŭ germana vortfarado aŭ eĉ gramatiko. La vortaro kondiĉas, ke la uzanto bone regas la germanan lingvon kaj konas ankaŭ la esperantan lingvon. Oni vane serĉas vortojn kiel: rapide, komputila, malfermi. La preparinto de vortaro supozas, ke la uzanto mem scias, kiel konstrui adverbon de adjektivo kaj ankaŭ bone konas la malan vorton al ‚fermi‘ (malfermi = öffnen). Germano ankaŭ scias, ke la genro de vorto ‚Baum‚ estas vira (‚der Baum‚) kaj ke pluralo estas ‚Bäume‚, li ankaŭ povas konstrui la akuzativon de ĝi ‚den Baum‚.

Sed por komputilo la nura scio pri lingvo devenas de algoritmoj de programo kaj de glosaro. Enmeti tiun scion en algoritmojn ne estas bona ideo, do tiu scio pri lingvo devas esti plejparte en glosaro.

Tial la glosaro por maŝina tradukado enhavas aliajn pluajn informojn kaj ĝia kovro devas esti pli granda.

Ekzemploj por pola aŭ germana lingvo

  • Por substantivoj oni bezonas genron.
  • Oni bezonas fleksian grupon aŭ listo de esceptoj por fleksio.
  • Pliaj gramatikaj priskriboj ekzemple: tipo de substantivo (abstrakta, gruponomo, nekalkulebla), ĉu verbo estas transitiva, aspekto de verbo.

Projekto de tiuj pliaj priskriboj estas tre malfacila laboro. Estas ankaŭ tre malfacile aŭtomate pliriĉigi la kutimajn vortlistojn je tiuj necesaj priskriboj. Ofte oni povas uzi statistikajn analizojn sur granda teksta korpuso por diveni la necesajn informojn. Aliokaze oni povas feliĉe trovi tiujn informojn de aliaj fontoj. Fine restas nur unu vojo, entajpi tiujn informojn mane.

Esperantilo enhavas redaktilon de vortaro, kiu facile ebligas redaktadon de glosaro. La redaktilo ankaŭ helpas korekte ekkoni kaj enmeti necesajn priskribojn.

Unu enskribo en glosaro enhavas sekvantajn kampojn:

  • traduko – unu esperanta vorta en baza formo
  • senco – la kampo estas ĝis nun ne uzata, sed povas enhavi priskriboj por multsencaj vortoj
  • fgrupo – fleksia grupo, tiu priskribo estas necesa pro fleksilo
  • gramatiko – tie oni enmetas pliaj informoj necesaj por tradukado

Precizaj informoj pri priskriboj oni trovu sur pagoj de esperantilo, ekzemple germana lingvo. En glosaro mi ankaŭ enmetis regulojn, kiuj estas necesaj por transformigo de prepozicioj kaj kazoj.

Asemblo de tiu glosaro estas peniga laboro, ĉar por bona kvalito, ĉiu de 50000 enskriboj devas esti kontrolitaj. Nun la programo funkcias ankaŭ, kiam la priskribojn mankas, en tiu kazo, la algoritmoj uzas la plej verŝajnan kombinon kaj tio ofte rezultigas per malalta kvalito de tradukita teksto.

Mi nun koncentriĝas pri programado de algoritmoj, ĉar nun nur mi tiun povas fari. La glosaron povas kompletigi la uzanto mem. La programo permesas eksportadon kaj importadon de glosaro, tiel la maŝina tradukado povas progresi eĉ sen mia partopreno.

Alia bona afero estas, ke la rezulta glosaro de tiu projekto povas esti libere uzata en aliaj projektoj laŭ la GPL Permisilo. Tiumaniere la sekvontaj projektoj povos komenci de fora punkto.

Keine Kommentare »

No comments yet.

RSS feed for comments on this post. TrackBack URL

Leave a comment

Du musst angemeldet sein, um einen Kommentar abzugeben.

Powered by WordPress