Esperantilo Blogo en Esperanto pri projekto Esperantilo kaj komputila lingvistiko

15.5.2007

Elekto de tradukoj ĉe maŝina tradukado

Filed under: maŝina tradukado — artur @ 18:35

Unu de plej malfacilaj problemoj ĉe maŝina tradukado, kiu estas bazita sur leksikono, estas la elekto de la plej taŭga traduko de vortaro. Estas normala afero, ke por unu fonta vorto oni trovas kelkajn tradukojn en vortaro. Ofte tiuj tradukoj estas sinonimoj, do ĉiu traduko estas egale korekta. En alia kazo la fonta vorto povas havi kelkajn sencojn kaj tiuj sencoj estas tradukita diference. Ni trovas en vortarojn ofte suban strukturon:

fonta vorto:
senco1: traduko_1_1, traduko_1_2
senco2: traduko_2_1, traduko_2_2

La difino de senco (aŭ sencokampoj) estas en tiu punkto tre malklara afero. Precipe oni povas ĉiam dividi sencojn en pri detalaj sencoj. Do ne ekzistas metodo por klare difini la sencojn. En naturaj lingvoj (ankaŭ en Esperanto) vortojn ofte iom post iom ŝanĝiĝas la sencojn. En diferencaj fakoj aŭ homgrupoj vortojn havas iom alian sencon. Tial ankaŭ la difino de sinonimo ne estas klara. Diferencaj nacioj komprenas la sencojn diference kaj tio estas la trajto de ilia kulturo. En tradukaj vortaroj ne estas ankaŭ evidente, ĉu la sencoj estis difinitaj laŭ fonta aŭ cela lingvo. Tial ankaŭ la difino de sinonimo, kiel samsenca vorto, estas dubinda. La tradukaj vortaroj venkas tiujn malfacilaĵojn per aldonaj priskriboj. Ofte estas uzataj ekzemploj.

Ekzemploj

Ni rigardu la vorton "granda" kaj ĝiaj tradukoj por pola, germana kaj angla lingvo.

Pola lingvo "granda: duży, wielki, silny, spory"
Germana lingvo "granda: groß, berühmnt, heftig, stark"
Angla lingvo "granda: big, large, great"

La vortaro REVO difinas por la vorto "granda" 2 sencojn.

  1. Superanta la ordinarajn dimensiojn
  2. Superanta la ordinaran gradon, intensa, altkvalita.

Unue la vorto povas priskribi aĵojn, kiuj havas dimension en alia kaŭzo ĉiujn aĵojn, kiujn oni povas ordigi (Do logike senco 2 enhavas ankaŭ la sencon 1). La vorto granda povas esti anstataŭigata en apartaj kuntekstoj (laŭ la tezaŭro) per vortoj: ega, kolosa, fama, glora, renoma, forta, impetega, fortega, potenca, alta. Ĉiuj tiuj vortoj priskribas malkutiman gradon de iu kvalito. Evidentiĝas, ke tiu vorto estas tre malfacila por difino kaj traduko. Ni pritraktu kelkajn tradukojn de vorto "granda" kun substantivo.

Esperanta Lingvo Pola Lingvo
granda domo duży dom
granda komponisto wielki kompozytor
granda tertremo silne trzęsienie ziemi, wielkie trzęsienie ziemi
granda problemo duży problem, wielki problem
granda milito wielka wojna

Ne estas facile diri, kio diferencas la polan tradukon "duży" kaj "wielki". La vorto "duży" precipe pritraktas dimension kaj vorto "wielki" aliajn kvalitojn. Sed oni povas priskribi per "granda" ankaŭ abstraktaj nociojn kiel "problemo". Ŝajnas ankaŭ, ke vorto "wielki" estas stile pli nobla ol popola aŭ parolata "duży". En pola korpuso Poliqarp "duży problem" estas iom pli ofta ol "wielki problem" (granda problemo). Se ni priskribas personojn kaj oni ne volas priskribi la altecon de homo, oni devas uzi la vorton "wielki". En pola lingvo la vorto "wielki" emfazas ankaŭ la signifon de iu objekto por homoj. Do oni parolas pri "wielka wojna" (granda milito), se temas pri la dua mondmilito. La duopon "duża wojna" mi trovis nur unu fojon. Oni parolas pri "silne trzęsienie ziemi" (forta tertremo), se temas pri fizike mezurebla forteco, sed la tertremon en San Francisco 1906 oni nomiĝas "wielkie trzęsienie ziemi".

Implikoj por maŝina tradukado

Oni vidas, ke la elekto de taŭga traduko estas tre grava por kvalito de tradukado. Unue oni povas elekti por tradukado tiun tradukon, kiu estas oportuna por la plej granda kvanto de tekstoj. Tiu estas traduko, kies senco korespondas tre preciza al la senco de fonta vorto. Precipe la plej ofta vorto de cela lingvo estas la plej taŭga. Sed tio ne solvas la problemon kun la vorto "granda". Ankaŭ se la tradukilo ne povas difini la sencon de fonta teksto, ĝi povas analizi la kuntekston de vorto. Tie helpas la statistika metodo kaj granda korpuso de cela lingvo. Ĉe elekto de la plej taŭga traduko oni analizas la oftecon de kunteksto ĉe cela lingvo. Evidente oni povas komputi, ke la traduko "wielka wojna" estas multoble pli ofta ol la traduko "duża wojna". La malavantaĝo de tiu solvo estas, ke ĝi bezonas longdaŭran kalkuladon. Parton de tiu kalkulado oni povas prepari frue en speciala datumbanko, simile kiel mi tion faris en Esperantilo ĉe bazo de frazpartoj (Menuo Lingvistiko->Uzado de frazpartoj). La dua eblo estas la traduka vortaro de tutaj frazpartoj. Tia vortaro estas tre komforta por difini esceptojn sed iĝus tro abunda por tutaj klasoj de tradukado. Oni do devus difini tutajn seriojn de tradukoj: "granda poeto, granda matematikisto, granda homo, granda instruisto". La lasta eble devenas de kutimaj vortaroj, kiuj simple donas ekzemplojn de uzado aŭ mallongan klarigon. En kaŭzo de komputila prilaboro tiu priskribo devas esti kompreneble de komputilo. La natura kunteksto de adjektivo estas la priskribata substantivo. Ĉar Esperantilo havas ĉe tradukado la kompletan sintaksan arbon, ĝi povas facili trovi koncernan substantivon.

Ekzemple en frazo: "Adam Mickiewicz estas granda pola poeto." la natura kunteksto de adjektivo "granda" estas la substantivo "poeto". Nun oni devas informigi la tradukilon, ke ĉe personoj kaj aliaj difinitaj vortoj, ĝi traduku la vorton "granda" al vorto "wielki". Mi nun enprogramis tiun eblecon en Esperantilo. En traduka vortaro oni povas priskribi en kampo "senco" tiujn aldonajn informojn. Ekzemple por la vorto "granda" ni havas.

traduko senco ordo
duży {kun %persono milito} 2
traduko 1

Nova estas la esprimo "{kun %persono milito}", kiu influas la elekton de sinonimo depende de kunteksto. Tiu esprimo signifas, ke tiu traduko estas uzate, se la priskribata persono estas de tipo "%persono" aŭ estas vorto "milito". Se tiu testo ne sukcesis, la plej grava por elekto de traduko estas la kampo "ordo". En tiu kazo la traduko "duży" havas pli malgrandan valoron al la traduko "wielki", do la traduko "duży" estos uzata. La nocio "%persono" dependas al tiel nomataj semantikaj retojtaksonomio. Esperantilo nun ne enhavas taksonomian sistemon, sed tio estas mia celo por venonta programado. La prototipo estas pro mi la semantika reto de projekto WordNet. En Esperanto oni tre facile povas indiki, ĉu la vorto signifas personon. Oni povas ja ekzameni la sufikson je "ano, ino, isto, estro" aŭ ĉe "-o", aŭ ekzameni ĉu pro radiko la sufikso "-ino" ekzistas (filo, filino). La vera semantika reto por Esperanto estas granda defio. Mi pensas, ke interesa solvo estas aŭtomate aldoni tiujn priskribojn laŭ aŭtomata analizo de pola korpuso. Por tiu mi devis programi almenaŭ minimuman sintaksan analizilon por pola lingvo.

Preciza fonta teksto

Se oni mem preparas la tekston por maŝina tradukado, oni povas eviti la problemojn ĉe tradukado jam dum la kompilo de fonta teksto. La strategio estas uzi ĉiam la plej specialajn vortojn. Do oni povas skribi: "granda komponisto" - "fama, elstara komponisto" "granda princo" - "potenca princo" "granda tertremo" - "forta tertremo" Sed aliflanke tiuj specialaj vortoj estas pli maloftaj, kaj tial la teksto ne estas bone legebla aŭ eĉ tro faka.

Kiom da strategioj plu?

Nun Esperantilo konas kelkajn strategiojn de maŝina tradukado. Tio estas:

  1. Kampo "ordo" ĉe ĉiu traduko
  2. Vortaro de frazpartoj
  3. Reguloj fikse enprogramitaj por plej komplikaj kazoj
  4. priskribo de fako je ĉiu vorto (komputiko, medicino, ...)
  5. priskribo de kunteksto

En la maŝina tradukado konataj estas ankaŭ multaj aliaj strategioj. Nuntempe tre popularaj estas statistikaj metodoj, kiuj tamen bezonas grandajn paralelajn tekstarojn. La demando estas: Kiom da ili estas bezonataj? Mi opinias, ke oni devas kombini multajn strategiojn por atingi bonajn rezultojn. La praktika kaŭzo estas, ke mi ne disponas je altkvalitaj vortaroj kaj produkto de tiuj vortaroj estas tre temporaba. Feliĉe la kompletigon de vortaroj mi povas transdoni al uzantoj. Ankaŭ se mi ne plu disvolvigos la programon, la kvalito de tradukado povus daŭre plialtigi helpe de uzantoj. Mia takso estas nun pretigi la teknikan framon por multaj metodoj.

Keine Kommentare »

No comments yet.

RSS feed for comments on this post. TrackBack URL

Leave a comment

Du musst angemeldet sein, um einen Kommentar abzugeben.

Powered by WordPress