Esperantilo Blogo en Esperanto pri projekto Esperantilo kaj komputila lingvistiko

13.11.2006

Taŭgeco de Esperanto kiel interlingvo en maŝina tradukado

Filed under: lingvistiko,maŝina tradukado — artur @ 19:56

Ofte Esperanto estas proponita, kiel tiel nomata interlingvo por maŝina tradukado. DLT estas projekto, kiu reale tion provis. Ĝis nun neniu projekto rezultigis uzeblan sistemon.

Esperantistoj ofte mem sugestas la uzadon de Esperanto por tiuj kialoj. Mi devas konstati, ke kvankam ideo de interlingvo estas tre avantaĝa, Esperanto vere ne taŭgas por tiu tasko. Esperanto estas kreita kiel facile lernebla (por eŭropanoj) lingvo por internacia komunikado inter homoj. Tial Esperanto havas kelkajn specialajn trajtojn por atingi tiun celon.
Plej grava trajto estis granda lernebleco. Tiujn celojn Esperanto atingas per senescepta gramatiko kaj potenca vortfarado.
Esperanto estas kreita laŭ praktikaj bezonoj kaj spertoj kun multaj naturaj lingvoj. En Esperanto oni trovas vortojn de naciaj lingvoj kaj ankaŭ gramatikajn regulojn, kiuj funkcias en naciaj lingvoj. La kreito (aŭ kreintoj) de Esperanto neniam pensis pri maŝina tradukado kaj komputila lingvistiko, ĉar tiam tiuj temoj ne ekzistis.

La plej granda problemo ĉe komputila prilaboro de naturaj lingvoj estas multnivela multsenco de natura lingvo.
Oni ofte priskribas tri nivelojn.

  1. leksikona nivelo – sinonimoj. Ekzemple vorto: observi
  2. sintaksa nivelo – multaj eblaj kaj korektaj sintaksaj interpretadoj. Ekzemple frazo: Ŝi ricevis florojn de sia patro.
  3. pragmatika nivelo – kion celas la lingva esprimo.

Maŝina tradukado ĝis nun praktike pritraktas nur du nivelojn. Ŝajne la kreinto de Esperanto volis malaltigi unuflanke la multsencojn ĉe leksikona nivelo, sed aliflanke la sintaksa multsenco estas alta, ĉar tio ebligis facilan gramatikon.

La perfekta interlingvo por kialoj de maŝina tradukado devas ne havi mulsencojn. Ĝi devas havi la saman kapablon konservi informojn kiel ĉiuj lingvoj, ĉar oni volas eviti informoperdon ĉe tradukado jam pro maltaŭga interlingvo.

Mi volas prezenti kelkajn ekzemplojn

Leksikona multsenco

Ŝi observis birdojn. (pole: Ona obserwuje ptaki)
Li ne observis la leĝon. (pole: On nie przestrzegał prawa)

Vorto ‚observi‘ havas 3 sencojn. Malfeliĉe en pola lingvo oni devas uzi por 2 sencoj tute aliajn tradukojn.

Sintaksa multsenco

Ŝi ricevis florojn de sia patro. (pole: Ona otrzymała kwiaty ojca, aŭ Ona otrzymała kwiaty od ojca)

Oni ne povas en Esperanto tute klare difini, kiel oni devas interpreti la frazon.
Ŝi ricevis florojn [de sia patro]. aŭ Ŝi ricevis [florojn [de sia patro]].

Perdo de informoj

La informo-enhavo de gramatikaj strukturoj estas por naciaj lingvoj tre diferencaj. Tio malfaciligas la tradukadon.

Mi legis la libron.

Eblaj polaj tradukoj:

  1. Czytałem książkę
  2. Czytałam książkę
  3. Przeczytałem książkę
  4. Przytałam książkę

En pola lingvo fleksio de verboj signifas ankaŭ genron de subjekto. Por preskaŭ ĉiu pola verbo ekzistas 2 variantoj, kun signifo, ĉu la tasko estas plenumigita. Alia ekzemplo estas la pronomo ‚vi‘, kiu en Esperanto povas esti singulara aŭ plurala.

Aliaj teknikaj kialoj

Esperanto ne estas ankaŭ ideala por sintaksa analizo. Kelkajn vortetoj povas havi multajn rolojn en frazo.
Ekzemple la prepozicioj: al, de

Mi donas la libron al vi.
Mi veturas al pariso.
La libro estas skribita de fama aŭtoro.
Tio estas libro de fama aŭtoro.

Tiuj vortetoj devas esti tradukitaj al pola lingvo depende de rolo tute alie.

Daję książkę tobie.
Jadę do Paryża.
Książka została napisane przez sławnego autora.
To jest książka sławnego autora.

Esperanto ne estas normita

Esperanta lingvo lasas al la uzantoj tre grandan liberecon de sia uzado. Fundamento preskaŭ tute ne pritraktas la sintakson de la lingvo. La frazoj devas esti laŭ fundamento kompreneblaj, sed ĝi ne difinis de kiu. Ofte Esperantistoj nur kopias sian nacian lingvon. Tiaj frazoj estas korektaj sed certe ne kutimaj. La maŝina traduko estas tre malfacila.

Grandan mi legis libron. (sintaksa dispartigo)
Mi vidis lin veni hieraŭ. (germana kutimo)
Filo similas patron. (libera vortfarado)

Esperantistoj mem per evoluaj procesoj kreas regulojn pri la uzado. Esperanto evoluas laŭ reguloj de naturaj lingvoj, ĉar uzas ĝin homoj. En Esperanto ekzistas tre multaj ebloj esprimi ion. Ekzistas multaj sinonimoj (legu Ne ŝatataj vortoj).
Interlingvo devas esti firme normita kun difinita sintakso, kiun oni povas matematike (kaj logike) pruvi. Interlingvo devas havi difinitan vortaron kun tradukoj al ĉiuj koncernataj celaj lingvoj. Tiujn postulojn Esperanto ne plenumas.

En projekto DLT fine oni kreis propran normitan (regulitan) lingvon, kiu baziĝas sur Esperanto. Sed kial krei novan lingvon de Esperanto, se oni povas uzi por tiu alian nacian lingvon, kun pli bonaj vortaroj, kun pli vasta tekstaro, kaj kun pli ampleksaj lingvistikaj iloj.

La ideala interlingvo por maŝina tradukado devas havi trajtojn de formalaj lingvoj konataj de komputila scienco (ekzemple programaj lingvoj).

Aldonaj priskriboj de teksto

Ebla teknika solvo de tiuj problemoj estas pliriĉigo de tekstoj per aldonaj priskriboj.
Tiu tekniko (nomata angle tagging, vidu ankaŭ Tags) estas vaste uzata en lingvistika analizo en medio de XML kaj estas ofte pridiskutata ĉe tiel nomata semantika reto.

La kvanto de bezonataj aldonaj priskriboj dependas de cela lingvo de traduko.
Oni povas imagi, ke komputilo povus helpi en tiu tasko.
La komputila analizo povus trovi lokojn en tekstoj, kiuj havas multajn sencojn aŭ ne estas unusignife tradukebla al iu lingvo.

Mi{genro=ina} legis{aspekto=perfektiva} la libron.
Li ne observis{senco=2obei) la leĝon.
Ŝi ricevis [florojn de patro].

Imageble estas ankaŭ, ke komputilo aŭtomate aldonos tiujn priskribojn (uzante statistikajn metodojn aŭ profundan semantikan analizon) , kaj poste homo nur ekzamenos la rezulton.

Softvaraj patentoj pri Esperanto

Eĉ se la uzo de Esperanto kiel interlingvo en maŝina tradukado ne estas tiel avantaĝa, kiel oni ofte pensas, ekzistas
kelkaj softvaraj patentoj pri tio.
Vidu: United States Patent 5615301.
La patentoj mem estas tre ĝeneralaj kaj el teknika vidpunkto tre amatoraj. Por lingvistoj tiu eblo estas ja memkomprenebla. Aŭtoroj evidente ne priskribis ian inventaĵon, sed volis rezervi rajton por iu inventaĵo, kiu povus veni.
La afero de softvaraj patentoj estas ĝenerale tre dubinda (vidu www.nosoftwarepatents.com), kaj se temas pri Esperanto tre malkontentiga.

6.11.2006

Vortaro kaj glosaro en maŝina tradukado

Filed under: lingvistiko,maŝina tradukado — artur @ 20:12

Bona glosaro estas tre grava por bonkvalita maŝina tradukado. La aspekto de vortlistoj, kiuj estas uzataj en maŝina tradukado, havas aliajn necesojn ol vortaroj uzataj de homoj. Kutimaj vortaroj estas preparitaj por homoj, kiuj konas minimume bone unu lingvon. Tial unu lingvo en vortaro estas ofte nur skeme priskribita. Homoj uzas ofte laŭ bezono pliajn vortarojn por plenumigi ilian laboron, kaj povas ankaŭ uzi aliajn fontojn de lingva scio, ekzemple gramatikaj libroj. Homoj konas sufiĉe bone la lingvon por mem trovi la bazan formon de vorto kaj derivi bezonatan formon de vorto. Esceptoj estas priskribitaj kiel normala teksto aŭ kiel ekzemplo de uzado.

Kutimaj vortaroj de esperanto, kiujn oni povas trovi en reto, havas aspekton.

-ilo; ~zeug, Werkzeug
adjukti; (öffentlich) aufschreiben
administra; Verwaltungs~
~ad~ ;Nachsilbe für andauernde Handlung, z.B. "kuradi" = "Dauerlaufen"
rapida; schnell
fermi; schliessen
arbo; Baum

Oni povas bone rimarki, ke la listo enhavas ne nur normalajn vortajn parojn, sed ankaŭ priskriboj pri esperanta aŭ germana vortfarado aŭ eĉ gramatiko. La vortaro kondiĉas, ke la uzanto bone regas la germanan lingvon kaj konas ankaŭ la esperantan lingvon. Oni vane serĉas vortojn kiel: rapide, komputila, malfermi. La preparinto de vortaro supozas, ke la uzanto mem scias, kiel konstrui adverbon de adjektivo kaj ankaŭ bone konas la malan vorton al ‚fermi‘ (malfermi = öffnen). Germano ankaŭ scias, ke la genro de vorto ‚Baum‚ estas vira (‚der Baum‚) kaj ke pluralo estas ‚Bäume‚, li ankaŭ povas konstrui la akuzativon de ĝi ‚den Baum‚.

Sed por komputilo la nura scio pri lingvo devenas de algoritmoj de programo kaj de glosaro. Enmeti tiun scion en algoritmojn ne estas bona ideo, do tiu scio pri lingvo devas esti plejparte en glosaro.

Tial la glosaro por maŝina tradukado enhavas aliajn pluajn informojn kaj ĝia kovro devas esti pli granda.

Ekzemploj por pola aŭ germana lingvo

  • Por substantivoj oni bezonas genron.
  • Oni bezonas fleksian grupon aŭ listo de esceptoj por fleksio.
  • Pliaj gramatikaj priskriboj ekzemple: tipo de substantivo (abstrakta, gruponomo, nekalkulebla), ĉu verbo estas transitiva, aspekto de verbo.

Projekto de tiuj pliaj priskriboj estas tre malfacila laboro. Estas ankaŭ tre malfacile aŭtomate pliriĉigi la kutimajn vortlistojn je tiuj necesaj priskriboj. Ofte oni povas uzi statistikajn analizojn sur granda teksta korpuso por diveni la necesajn informojn. Aliokaze oni povas feliĉe trovi tiujn informojn de aliaj fontoj. Fine restas nur unu vojo, entajpi tiujn informojn mane.

Esperantilo enhavas redaktilon de vortaro, kiu facile ebligas redaktadon de glosaro. La redaktilo ankaŭ helpas korekte ekkoni kaj enmeti necesajn priskribojn.

Unu enskribo en glosaro enhavas sekvantajn kampojn:

  • traduko – unu esperanta vorta en baza formo
  • senco – la kampo estas ĝis nun ne uzata, sed povas enhavi priskriboj por multsencaj vortoj
  • fgrupo – fleksia grupo, tiu priskribo estas necesa pro fleksilo
  • gramatiko – tie oni enmetas pliaj informoj necesaj por tradukado

Precizaj informoj pri priskriboj oni trovu sur pagoj de esperantilo, ekzemple germana lingvo. En glosaro mi ankaŭ enmetis regulojn, kiuj estas necesaj por transformigo de prepozicioj kaj kazoj.

Asemblo de tiu glosaro estas peniga laboro, ĉar por bona kvalito, ĉiu de 50000 enskriboj devas esti kontrolitaj. Nun la programo funkcias ankaŭ, kiam la priskribojn mankas, en tiu kazo, la algoritmoj uzas la plej verŝajnan kombinon kaj tio ofte rezultigas per malalta kvalito de tradukita teksto.

Mi nun koncentriĝas pri programado de algoritmoj, ĉar nun nur mi tiun povas fari. La glosaron povas kompletigi la uzanto mem. La programo permesas eksportadon kaj importadon de glosaro, tiel la maŝina tradukado povas progresi eĉ sen mia partopreno.

Alia bona afero estas, ke la rezulta glosaro de tiu projekto povas esti libere uzata en aliaj projektoj laŭ la GPL Permisilo. Tiumaniere la sekvontaj projektoj povos komenci de fora punkto.

2.11.2006

Problemoj kun frazparto de tipo „multe da …“

Filed under: lingvistiko,pola lingvo — artur @ 11:04

Sintaksa analizo de esperantaj tekstoj estas ĝenerale pli facila ol tiu de aliaj naciaj lingvoj. Sed ekzistas kelkaj konstruaĵoj, kiuj ne konkordas kun bazaj reguloj. Mi skribas ‚bazaj reguloj‘ en senco, statistike plej oftaj. Kvankam ĉiu patriota esperantisto diras, ke Esperanto ne havas kaj ne povas havi esceptojn, ekzistas kelkaj konstruaĵoj, kiuj necesigas specialan pritrakton dum la sintaksa analizo.

Frazpartoj

Frazpartoj (legu ankaŭ en PMEG), estas ĉefe grupo de vortoj, kiuj havas unu specifan rolon en frazo.

Ĉefaj reguloj (plej oftaj reguloj)

  1. Ĉiu frazparto havas tielnomatan kapon (angle: head)
  2. Laŭ la arto de kapvorto oni distingas i,a,e aŭ o-frazpartojn (verbaj, adjektivaj, adverbaj aŭ substantivaj)
  3. Oni povas redukti la frazparton al kapvorto sen ĉesi la gramatikan korekton de tuta frazo
  4. En la kapvorto ekzistas gramatikaj informoj, kiuj sufiĉas por pritrakto de tuta frazparto
  5. Frazpartoj havas hierarkian (arban) strukturon.

Ekzemploj

tipo de frazparto frazparto tuta frazo redukto
sustantiva frazparto bonan libron Mi legis [bonan libron] Mi legis libron
adjektiva frazparto sufiĉe bonan Mi legis [[sufiĉe bonan] libron]. Mi legis bonan libron.
adverba frazparto tre rapide Mi legis bonan libron [tre rapide]. Mi legis bonan libron rapide.

Tiuj reguloj estas sufiĉaj por tre granda nombro de frazpartoj. Problemojn mi havis kun frazpartoj kiel „multe da …“, por kiu mi devis programi specialan pritrakton.

La rolo de tiu frazparto estas kutime de substantivo (subjekto, direkta objekto, …)

Mi legis multe de libroj.
Multe de homoj legis multe de libroj.

En normala kazo tiu frazparto devas esti adverba kun kapo ‚multe‘. Simile al frazo: ‚Mi ne scias neniun [rilate al li]‘ [rilate al li] estas adjekto, normala rolo por adverboj. Sed estas iu strange, ke adverba frazparto povas roli, kiel subjekto aŭ direkta objekto. Kaj tiu estus ja escepto.

Due, kiam tiu frazparto rolas kiel direkta direkta objekto, kie restas la akuzativo.

Mi legis multen de libroj.
Mi legis multe da librojn.

Ambaŭ variantoj estas malkorektaj laŭ fundamento. Akuzativa adverbo povas signifi nur direkton. En la dua frazo akuzativo ne povas stari kun prepozicio ‚da‘. Ankaŭ la kvara regulo, kiu estas tre oportuna por programado, ne estas tie korekta. Frazparto ‚multe de libroj‘ havas la pluralan nombron.

Multe da libroj estas interesaj

Ekzistas do du ebloj por frazkapo, sed ambaŭ ne respektas la normalajn regulojn.

  • Frazkapo estas la vorto ‚multe‘. Tiam la kapo ne havas nombrecon kaj ankaŭ akuzativon.
  • Frazkapo estas la vorto ‚libroj‘. Tiam la kapo ne havas akuzativon. Kaj kapo estas ne en unua stupo de sintaksa arbo [multe [da libroj]], kiu estas ankaŭ tre malafabla afero.

Ankaŭ la demando, ĉu tiu frazparto estas substantiva aŭ adverba mi lasu al lingvistoj.

frazparto ‚multe da …‘ kaj pola lingvo

Estas por mi okulfrape, ke la konstruaĵo tre similas al pola lingvo por vortoj: dużo (multe), kilka (kelke), wiele (multe). Ankaŭ en pola lingvo tiu rezultas kelkajn esceptojn kaj malfacilaĵojn:

Ja czytam książki (kazo: akuzativo).
Ja czytam wiele książek (kazo: genetivo).

Książki (esti – pluralo) interesujące (kazo: nominativo).
Wiele książek jest (esti – singularo) interesujących (kazo: genetivo).

En la lasta ekzemplo ni vidas, ke ‚wiele książek‘ estas parte singulara. Tute feliĉe en Esperanto verboj ne havas nombrecon.

Aliaj ebloj

Por mi, mallaborema programisto, estus pli facile, se Esperantistoj uzus aliajn eblajn formojn.

Mi legis multajn librojn.
Mi legis multon da librojn.

La lasta malkutima formo akordus kun eblaj formoj de numeraloj, kiel ‚deko da libroj‘.

Postaj rimarkoj

Post analizo de tekstaro mi rimarkis aliaj samfunkciaj adverboj: kelke multe malmulte sufiĉe iomete senfine nemulte. Vi ne forgesu ankaŭ pri: iom, tiom kaj kiom.

31.10.2006

Nunaj problemoj kun maŝina tradukado al germana lingvo

Filed under: germana lingvo,maŝina tradukado — artur @ 19:10

Nun mi havas du eblojn sisteme testi la kvaliton de maŝina tradukado. Unue mi havas la aron de ekzemplaj frazoj (germanaj ekzemploj). Mi havas ankaŭ la ilon, kiu aŭtomate rekonas ŝanĝojn en tradukado post ŝanĝoj en programo.
Tiel mi frue povas ekkoni, ĉu ŝanĝoj en programo ne havas pliajn eble negativajn influojn ol tiuj, kiujn mi celis.

Sed mi rimarkis, ke la vera kvalito de maŝina tradukado estas videbla nur en realaj tekstoj kompare al realaj homaj tradukoj. Tial mi programis la medion por facile kompari tradukadojn (ekzemplo Ekzemplo de tradukado).

Mi nun malrapide trarigardas la rezultojn. Nun mi devas konstati, ke la kvalito de germanaj tradukoj estas la plej
malaltaj de ĉiuj. Kelkaj frazoj estas eĉ tiel fuŝe tradukitaj, ke la senco de frazo ne estas rekonebla.
Mi analizis kelkajn frazojn, kaj devas konstati, ke la germana lingvo havas kelkajn specialaĵojn, kiu malfaciligas la tradukadon. Tiujn kelkajn specialaĵojn mi eĉ ĝis nun tute ne pritraktis en programo. Germana lingvo postulas ankaŭ pli bona kvalito de analizo de esperantaj frazoj, ol pola aŭ angla lingvoj.

(relative clause extraposition) – Relativsatzextraposition

Esperante oni povus nomi tiun fenomenon: kroma pozicio de relativa subfrazo.
Bonan priskribon en germana lingvo oni trovas ĉi tie.

En germana lingvo oni ofte devas transloki kelkajn verbajn specojn al fino de frazo:

Ekzemploj:


Ich möchte das Buch lesen. (Mi volas legi la libron.)

Er wird sich mit dem Mächchen morgen nicht treffen. (Li ne renkontos la knabinon morgaŭ).

Er reist morgen ab (verbo: abreisen). (Li forveturos morgaŭ)

Tiu okazas ĉe:

  • helpaj verboj (wollen, müssen, …)
  • estonta tempo
  • tranĉeblaj verboj (Trenbare Verben)

La programo en nuna eldono 0.84 bone tradukas tiujn specialaĵojn por facilaj frazoj, sed tute fiaskas ĉe kompleksaj frazoj kun subfrazoj.

Ekzemploj de kroma pozicio de relativa subfrazo:


Mi legos la libron, kiun mi hieraŭ aĉetis.

Sen kroma pozicio

Ich werde das Buch, das ich gestern gekauft habe, lesen.

Kun kroma pozicio

Ich werde das Buch lesen, das ich gester gekauft habe.

En la lasta frazo la relativa frazo ne staras direkte apud la substantivo ‚Buch‘. Ambaŭ frazoj estas gramatike tute korektaj. Ne estas tre klare evidente, kiam la kroma pozicio devas esti aplikata. La ĝenerala tendenco estas, ke por longaj subfrazoj eble multoblaj la kroma pozicio estas preferigita.

nfvp – non finite verb pharases

La dua problemo en la nuna eldona estas ne korekte analizitaj i-frazpartoj (engle: non finite verb pharese).

Ekzemplo:

Mi volas paroli pri tiu libro.

Ankaŭ en tiuj i-frazpartoj en germana lingvo la verbo venas al fina pozicio.

Traduko:


Ich will über dieses Buch sprechen.

Nun la sintaksa analizo en la programo ne povas korekte ekkoni tutajn i-frazpartojn, sed teknike tio estas ebla
kaj mi certe tion faros en venonta eldono de programo.

i-frazpartoj en sintaksa analizo


Mi volas vidi vin. (korekte)

Mi volas paroli pri tio. (malkorekte)
Tial la tradukado modulo de germana lingvo ne translokigis la verbon de i-frazparto al fino de tiu frazparto, sed al fino de ĉefa frazo. Tiu funkcias bone por facilaj frazoj, kvankam la baza sintaksa analizo ne estas korekta.

Mi volas paroli pri tio. Ich will darüber sprechen

La problemojn faras kompleksaj frazoj kun multaj i-frazpartoj. Nun la programo tradukas:

Mi venas paroli pri tio, vidi vin kaj la libron legi. Ich komme über dem, dich und das Buch lesen, zu zu sehen sprechen.

La traduko estas fiaska. Ŝajnas ke mi devas investi tempon por plibonigi la sintaksan analizon. I-frazpartoj ne estas bone rekonataj. Poste mi devos adapti la tradukan modulon por germana lingvo.

La alia problemo estas la germana glosaro (vortaro)

Ŝajne la vortaro estas tre vasta, sed aliflanke por maŝina tradukado, oni ne bezonas ĉiujn eblajn sinonimojn por unu esperanta vorto, sed unu traduko, kiu estas taŭga por plej granda nombro de tradukoj.
Ekzemple por vorto ‚fari‘ la glosaro enhavas sekvantajn tradukojn: machen, erschaffen, anfertigen, herstellen, tun, vollbringen, schließen, hinkriegen, tätigen, leiten, zurücklegen.
Kelkajn de ili oni uzas en tre maloftaj situacioj. En la kampo „ordo“ oni povas specifi, kiu traduko havas la plej altan prioritaton, sed por multaj vortoj tiu ĝis nun ne estas farita.

« Newer Posts

Powered by WordPress