Esperantilo Blogo en Esperanto pri projekto Esperantilo kaj komputila lingvistiko

21.12.2006

Kiel komputilo tradukas?

Filed under: lingvistiko,maŝina tradukado — artur @ 19:10

Mi bezonis preskaŭ unu jaron por lerni la bazon pri komputila lingvistiko. Mia unua libro estas „Computerlinguistik und Sprachtechnologie. Eine Einführung“ de „Kai-Uwe Carstensen, Christian Ebert, Cornelia Endriss, Susanne Jekat, Ralf Klabunde“. Kvankam la libro havas 650 paĝojn mi rapide rimarkis, ke ĝi nur tuŝas temojn, kiuj min interesis. Poste mi ofte traserĉis la reton je informoj pri komputila lingvistiko. Oni nur tre malfacile trovas ion, kiu ne nur tuŝas la temon. Tre helpa estis por mi la Internet Grammar of English, kiu tre klare kaj sisteme priskribas la sintaksan analizon. Pri teknikaj eroj mi plej profunde legis en dokumentaro de sistemo Natural Language Toolkit.

Nun mi decidis ne plu aktive disvolvi la programon, sed nur forigi la erarojn kaj dokumenti la sistemon. Restas ankaŭ kelkaj funkcioj, kiujn mi volas programi, sed en tute la sistemo ne ŝanĝiĝos. Unue mi decidis prepari mallongan prezenton, kiu povus komprenigi ankaŭ al ne programistoj, kiel Esperantilo tradukas. Mi preparas nun la teknikajn priskribojn de programo kaj enmetas komentojn en la fontoprogramo.

Mi preparis la prezenton per programo „Impress“ de OpenOffice. Mi provis uzi multajn bildojn, kaj prezenti la bazan teknikon de programo.

29.11.2006

Samsencaj transformoj de frazoj kaj vortoj.

Filed under: lingvistiko,maŝina tradukado — artur @ 18:59

En matematiko oni tre bone konas transformiĝojn, kiuj ne ŝanĝas la verecon de esprimo. Tiuj transformiĝoj estas plej ofte uzataj por pli bona kompreno aŭ matematika pruvo. Ekzistas difinitaj reguloj, kiuj priskribas tiujn transformiĝojn.

a+b=c => a+b-c=0 => a-c=-b

Similaj transformiĝoj ekzistas ankaŭ en programaj lingvoj

i = i+1; => i+=1; => i++;

Ĉe naturaj lingvoj tio ne estas tiel evidenta, sed oni ankaŭ povas rimarki tiajn fenomenojn. Oni nur pensu pri tiu, kiom da ebloj ekzistas por esprimi unu penson. La ebleco transformi frazojn laŭ iuj reguloj sen ŝanĝi la sencon de frazo, estas en komputila lingvistiko praktika aĵo. Tiuj transformiĝoj estas en maŝina traduko tre interesa, ĉar per ili oni povas malaltigi la nombro de konsiderendaj kazoj kaj supervenki la malsimilecon de gramatikoj.

Artoj de transformigoj

  1. Ordo de vortoj
  2. Uzado de sinonimoj
  3. Transformigo de frazo el aktiva al pasiva formo
  4. Transformigoj de frazpartoj al vortoj
  5. Transformigo de frazpartoj al subfrazoj
  6. Transformigoj de sintakso

Esperanto enhavas tre riĉajn kapablojn de vortfarado. Radikoj povas esti multoble uzataj.

  • Mi veturas per biciklo.
  • Mi veturas bicikle.
  • Mi biciklas.

Ofte oni povas transformigi tutajn frazpartojn al unu vorto.

  • sen eĥo – seneĥe
  • sur la lito – surlite
  • … de inter homoj – interhoma …

La malavantaĝo de tio estas, ke praktike ne estas eble krei kompletan vortaron de esperanto, kiu baziĝas sur vortoj, ĉar la nombro de eblaj vortoj, faritaj nur laŭ reguloj de vortfarado estas tre granda. Ekzistas ankaŭ natura tendenco, ke la nombro de uzataj vortoj kreskas kaj aliaj vortoj malaperas de aktiva uzado. Tre okulfrapa estas tendenco transformigi prepoziciajn frazpartojn en funkcio de adjekto al adverboj. Alia tendenco estas uzi radikojn kiel verbo. Tiu eble estas natura evoluo de lingvo en direkto de mallongigo de frazoj por lingva ŝparemo. Kreiĝas tre surprizaj vortfaradoj.

  • kongreso
  • kongresi
  • antaŭkongresi
  • antaŭkongresulo

Transformiĝo de sintakso

Tiuj transformiĝoj priskribis jam de lingvisto Chomsky. La kutima ekzemplo estas:

Mi legis la libron. => La libro estas legita de mi.

Ĉe tradukado tiuj transformiĝoj estas ofte necesaj, ĉar multaj lingvoj ne havas tiel potencajn participojn aŭ la uzo de kelkaj strukturoj estas pli strikta. Ekzemple pola lingvo ne havas venontan adverban participon.

Elvenonte de domo mi aŭdis la telefonon. => Kiam mi estis elvenonta de domo, mi aŭdis la telefonon. => (traduko al pola lingvo) Właśnie kiedy miałem wyjść z domu, usłyszałem telefon.

Aliajn ekzemplojn mi priskribis jam en blogo. Ĉiuj participoj oni povas transformiĝi al relativa frazo.

Loĝantoj de tiu urbo estas riĉa. Uloj, kiuj loĝas, en tiu urbo estas riĉaj.
La ventonta kunveno okazos en Romo. Kunveno, kiu venos, okazos en Romo.

Oni rimarkas, ke partizipoj ofte ne estas nur mallongigoj por relativa frazo, sed havas propran vivon (substantivan, adverban aŭ adjektivan).

Inversa vortfarado

Mi jam frue rimarkis, ke por tre abundaj kapabloj de esperanta vortfarado la preparo de glosaroj estas senlima. Mi komencis per simplaj transformoj.

  • libreto – eta libro
  • fidormi – fie dormi
  • analizilo – ilo por analizi
  • frazaro – aro de frazoj
  • boni – esti bona
  • dikigi – igi dika
  • dikiĝi – iĝi dika

Iam la rezulto de tiu transformiĝo post la maŝina tradukado estas tute ne atendata kaj ofte ridinda.

Mi havas vortaron. Mi havas aron da vortoj. Mam zbiór słów.

Kvankam la rezulto de tiu transformiĝo ne estas kontentiga, sed estas pli bone traduki malprecize ol tute ne traduki. La uzanto de Esperantilo povas malŝalti tiujn transformiĝojn per preferaĵo „Uzu inversan esperantan vortfaradon“.

Transdono de esperanta vortfarado al cela lingvo

Ofte vortfarado en nacia lingvo estas simila al esperanto. Do oni povas konstrui novan vorton en nacia lingvo laŭ plano de esperanta vorto. Tiu funkcias tre bone por pola kaj germana lingvo ekzemple ĉe verboj kun prepoziciaj prefiksoj.

  • ĵeti – rzycać (pl), elĵeti – wyrzycać
  • vivi – żyć (pl), travivi – przeżyć
  • vivi – leben (de), travivi – durchleben
  • veni – kommen (de), kunveni – mitkommen

Aliaj ekzemploj

  • saĝa – mądry (pl), malsaĝa – mądry inaczej
  • saĝa – mądry (pl), saĝe – mądrze

Tiun similecon oni povas uzi duope. Unue kiel helpilo por aŭtomata kreado de vortaroj. La rezultan vorton oni povas pruvi per literumilo. Due dum maŝina tradukado por anstataŭigi mankantaj tradukoj en vortaro. La uzanto de Esperantilo povas malŝalti tiuj transformigoj per preferaĵo „Derivu tradukojn aŭtomate“.

Esperanta vortfarado – ĉu vere unuforma?

La esperanta vortfarado estas pli bona ol tiu en naciaj lingvoj, ĉar ili estas unuforma kaj logika. Tio eble agordas por ĉefaj finaĵoj. Sed en multaj kazoj la senco de novaj vortoj ne estas klara.

  • gravi – esti grava
  • trajni – veturi per trajno
  • telefoni – paroli per telefono; paroli telefone
  • vivnivelo – nivelo de vivo
  • hundovivo – vivo kiel hundo
  • ŝipveturi – veturi per ŝipo
  • voĉlegi – legi laŭte
  • telefone – per telefono

Tio estas kaŭzo, ke multajn puristoj evitas tiujn formojn. La senco de vortfarado estas ofte nur klara, kiam oni konas la bazan sencon de radiko. Tiu estas por mi la pruvo, ke radikoj havas bazan naturon, kiu estas: verba, adjektiva, adverba aŭ substantiva. Ekzemple por adjektivaj radikoj ĉiam la transformiĝo ŝajnas ebla:

  • beli – esti bela
  • gravi – esti grava

Kvankam oni ofte uzas tiuspecajn transformiĝojn, mi mem ilin ne ŝatas. Por substantivaj radikoj la transformiĝo substantivo->verbo ne estas klara. Ankaŭ la adjektiva kaj adverba transformiĝo ne estas klara. Mi esperas, ke post bona kategorio de radikoj, oni povus pli precize priskribi la sencon de unuopaj vortfaradoj.

Esperanto-Esperanto vortaro

Ĉar en multaj esperantaj vortoj la senco de vorto donas nur tradicio (ekzemple finaĵo – um), oni povas imagi la vortaron, kiu tradukas el esperanto al esperanto. La unua tasko de tiu vortaro estus malaltigo nombro de uzataj vortoj (ne radikoj). Tiu povus unuflanke malaltigi nombron de uzataj sinonimoj, aliaflanke ĝi estus vortaro por evitindaj vortfaradoj. Ekzemploj

  • malsanulejo – sangigejo
  • firma – fiksa
  • bicikli – veturi per biciklo
  • kongresi – ĉeesti kongreson
  • gravi – esti grava
  • partopreni – ĉeesti

Ekzistas ankaŭ tre praktika ekonomia kaŭzo por tiu vortaro. Se oni povus malplialtigi la nombro de vortoj de 100000 al 50000 en Esperanto, tiam oni devas traduki nur 50000 vortoj al nacia lingvo. Ĉe multaj naciaj vortaroj la tempoŝparo estus granda. La danĝero estas, ke per evoluo de lingvo, la vortoj aŭ esprimoj, kiuj nun estas samsencaj, iam ekhavas aliajn sencojn. (ekzemplo: ĝentilhomo – ĝentila homo)

Ĉu vere ekzistas samsencaj transformiĝoj?

Transformiĝoj de natura lingvo en principo neniam ne ŝanĝas iomete la esprimon de frazo. La formo kaj stilo de lingvo estas tre grava enhavo de informo en lingva mesaĝo. Evidente ĉiu transformiĝo ŝanĝas la stilon de esprimo. Tiuj ŝanĝoj ne estas bone mezureblaj. Ĉiu formo povas esti ligita kun iu alia formo, kiun oni jam konas. Tiu simileco povas esti eĉ ĉefa informo de esprimo. (Pripensu frazon: „mi estas Berlinano“) Sole restas la iloj de psikolingvistiko, kiuj simple solvas tiun demandon per statistika enketo. (vidu Hiroshi Nagata kaj Renato Corsetti: Influoj de gepatra lingvo sur la lernadon de esperanto: psikolingvistika esploro)

Fina vorto

La temo estas tre vasta kaj ŝajnas al mi, ke en tiu kampo ekzistas multajn eblecojn. Por mi grava estas la konstato, ke Esperanto povas evolui kaj evoluas, kaj la direkto ne nek konata nek logika. Kiam mi legas esperantajn mesaĝojn en reto aŭ aŭdas junajn esperantistojn (vidu: Varsovia vento) mi supozas, ke la evoluo ĵus komencis.

26.11.2006

Uzado de komoj en Esperanto

Filed under: ĝenerale,lingvistiko — artur @ 12:04

Komoj havas en sintaksa analizo tre gravan rolon. En esperantaj tekstoj ŝajnas, ke reguloj por uzado de komoj ne ekzistas. Oni povas trovi ankaŭ en tre konataj tekstoj ĉiujn eblojn de uzado. Mi ĝis nun ne trovis en iu esperanta gramatiko konkretajn regulojn por uzado de komoj. Tio estas en tradicio de fundamento, kiu tiun temon ankaŭ ne pritaksas. Ankaŭ tre ampleksa MPEG, priskribas komo nur tre malplene (vidu: Helposignoj). Kutime tiuj publikaĵoj ne volas altrudi regulojn, sed priskribas aktualan statuson.

Mi analizis multajn tekstojn kaj supozas, ke la uzado de komo devenas plej parte de nacia lingvo de aŭtoro. Poloj uzas polajn regulojn, la germanoj uzas germanajn regulojn. Malfeliĉe uzado de komoj en naciaj lingvoj estas tre varia. En rusa lingvo la reguloj estas tre rigoraj, oni uzas komon relative ofte. Germanaj kaj polaj reguloj estas tre similaj. Angla lingvo evitas komojn, kiam tio estas ebla kaj ankaŭ malpermesas la uzadon de komoj en lokoj, en kiuj la komo estas por aliaj lingvoj tre kutima (ekzemple vorteto „ke“-„that“).

La uzado de komo en esperantaj tekstoj estas vera koŝmaro por komputila prilaboro.

Ekzemplojn ‚ke‘ kaj ‚por ke‘

  • Mi estas ĝoja ke vi venis.
  • Mi laboras por ke mi havu monon.
  • Mi estas ĝoja, ke vi venis.
  • Mi laboras, por ke mi havu monon.

Kunmeto de adjektivoj

  • Mi havas grandan rapidan veturilon
  • Mi havas grandan, rapidan veturilon

Adjektoj

Por rusoj komo, kiu dispartigas adjektojn, estas kutima. Ĉe kiu oni farigas dum legado mallongan paŭzon, rusojn volonte enmetas komojn.

  • Hieraŭ vespere, mi bonan libron legis.
  • Hieraŭ vespere mi bonan libron legis.

Vortetoj ’sed‘,’kiel‘,’ol‘

  • Mi ne estas granda sed malgranda.
  • Mi ne estas granda, sed malgranda.

Kunligo de verbaj frazpartoj

  • Mi ne volis peze labori sed longe studi.
  • Mi ne volas peze labori, sed longe studi.

Relativaj subfrazoj

Por mi mankanta komo ŝajnas esti okulfrapa eraro. Sed por anglalingvanoj ĉiu komo estas evitenda.

  • Mi ofte legis libron, kiun li rekomendis.
  • Mi ofte legis libron kiun li rekomendis.

Nekutima ordo

Mi rimarkis, ke uloj en kies nacia lingvo la ordo estas tre rigida, ofte uzas komojn en lokoj en kiuj ili uzas ne kutiman laŭ ili ordon. Tiu estas por mi stranga afero, ĉar ili kutime tute komojn ne uzas.

  • Post tagmezo mi venis.
  • Post tagmezo, mi venis.

Esperantilo amas komojn

Por komputila analizo pli bone estas havi komojn ol ne havi ilin. Escepto estas nur trouzo de komoj laŭ rusa maniero. Do ne dispartigu per komoj adjektojn. Esperantilo povas majstri kelkajn mankantajn komojn ekzemple antaŭ vortetoj ‚ke‘ aŭ duopo ‚por ke‘, sed plej parte la analizo povas tute fiaski pro unu mankanta komo. Por Esperantilo ankaŭ estas pli avantaĝe skribi: La libro estas peza kiel ŝtono. anstataŭ La libro estas peza, kiel ŝtono.. Dispartigu per komo do nur verbaj frazpartoj, se vi uzas subfrazojn kun (sed, se, ĝis, dum, …). Mi ne povas altrudi al iu ajn uzadon de komoj, sed se vi volas sukcesi kun esperantilo pripensu vian interpunkcion.

15.11.2006

Frekvenca statistiko de frazpartoj

Filed under: ĝenerale,lingvistiko — artur @ 21:51

Mi jam longe okupas pri lingva statistiko. Por mi statistiko estas en lingvistiko ĉefe la metodo por diferenci malgravaj aĵoj de gravaj. Por Esperanto validas samaj statistikaj principoj kiel por naturaj lingvoj. La unua ekzerco estis la asemblo de frekventeca listo de vortoj. La listo estas tre utila, kiam ni volas racionale plivastigi tradukan vortaron. Memkompreneble oni aligas unue vortojn, kiuj estas plej ofte uzataj. Mi volis trovi esperantajn frazeologiojn, kiuj baziĝas sur frazpartoj. La ideo baziĝas sur tiel nomataj (germane: Kookurenz, Kollokation, engle: Collocation). Por atingi pli bonajn rezultojn mi ne uzis simplan modelon de najbara apero, sed analizis sintaksajn strukturojn. Por tiu mi programis programon, kiu povas ordoni vortojn laŭ kuna apero en cetera sintaksa strukturo. Mi asemblis datumbazon kun sekvaj rilatoj inter 2 aŭ 3 vortoj.

  • np-adj: bona homo
  • vp-subj: homo vivas
  • vp-adv: vivi longe
  • vp-obj: vidi homon
  • vp-pp: kredi je
  • adj-adv: maksimume rapida
  • vp-pp-sub: kredi je dio
  • sub-pp-sub2: ordono de patro

Mi analizis preskaŭ tutan korpuson de ESF Testaro. La rezulta datumbazo (1.3 MB) okazis tre multinforma. Unue mi volis uzi tiujn datojn por plibonigo de tradukaj vortaroj kaj konstruo de vortaro de frazpartoj, sed oni povus uzi tiujn informojn ankaŭ por aliaj celoj. Imagebla estis:

  • Vortara helpo ĉe skribado de tekstoj. Oni povus ekzemple tre rapide trovi, kiujn adverbojn oni povus uzi kun verbo skribi „ofte (5), denove (3), simple (3), bele (2), reciproke (2), regule (2), ĉiusemajne (2), akurate (1), antaŭe (1), bone (1), dumaniere (1), dume (1), eble (1), efektive (1), eksterlande (1), ekzemple (1), fakte (1), favore (1), fine (1), frue (1), germane (1), hejme (1)“
  • Asemblo de sugestoj ĉe literuma korektado.
  • Serĉado de stilaj eraroj aŭ hazardaj interŝanĝoj de vortoj.
  • Aŭtomata asemblo de tradukaj vortaroj. Oni povus asembli la similan datumbazon por nacia lingvo kaj kompari la rezultojn
  • Asemblo de senta karto kiel konata Wordnet
  • Derivo de gramatikaj reguloj. Ekzemple, kiujn prepoziciojn oni ofte uzas kun verbo „danki“ (pro (34), en (7), per (4), por (4), pri (4))

Ekzemploj por vorto: patro

np np-adj sankta (24), cikonia (23), kara (5), alia (4), malfeliĉa (4), propra (4), bona (3), cia (3), maljuna (3), pia (3), sama (3)
obj vp-obj havi (11), ami (7), demandi (4), trovi (3), rigardi (2), simili (2), vidi (2), viziti (2), timi (2), koni (1), ekvidi (1)
subj vp-subj esti (65), diri (29), veni (12), morti (9), fari (8), havi (8), povi (7), doni (5), rigardi (5), rakonti (4), dormi (4)
sub vp-pp-sub iri al (4), esti por (3), ricevi de (3), ĵuri al (2), fari por (2), fariĝi al (2), promesi al (2), esti de (2), esti kun (2), heredi de (2), skribi al (2)
sub sub-pp-sub2 de infano (6), de antono (2), de arne (2), de edzino (2), de maŭrico (2), de . (1), de amikino (1), de andreo (1), de anjo (1), de cindrulino (1), de fernando (1)
sub2 sub-pp -sub2 morto de (6), palaco de (5), tombo de (5), domo de (4), volo de (3), alveno de (3), nomo de (2), ordono de (2), kastelo de (2), kolo de (2), koro de (2)

Ekzemploj por vorto: patrino

np np-adj cikonia (25), malfeliĉa (9), juna (6), kara (6), pasera (6), propra (6), respektinda (6), alia (4), maljuna (4), malĝoja (3), mortanta (3)
obj vp-obj nomi (2), rigardi (2), ŝati (2), perdi (2), demandi (2), havi (2), helpi (2), koni (1), ekvidi (1), imagi (1), forgesi (1)
subj vp-subj esti (38), diri (32), rakonti (7), sidi (7), veni (6), fari (6), rigardi (6), ricevi (6), povi (5), komenci (4), devi (4)
sub vp-pp-sub iri al (3), esti por (3), sendi al (3), kaŭzi al (2), proponi al (2), fari al (2), senti al (2), sidi ĉe (2), skribi al (2), aŭdigi dum (1), subskribi al (1)
sub sub-pp-sub2 de arne (8), de filo (4), de johano (4), de vento (4), de valento (3), de gastono (2), de infano (2), de knabino (2), de matildo (2), de amikino (1), de emil (1)
sub2 sub-pp-sub2 tombo de (4), brako de (3), vizaĝo de (2), enterigo de (2), koro de (2), tiu de (2), brusto de (2), morto de (2), ĝardeno de (1), provo de (1), amo de (1)

Ekzemploj por vorto: lingvo

np np-adj angla (49), alia (43), fremda (30), germana (23), internacia (20), nacia (17)
obj vp-obj lerni (24), paroli (10), uzadi (9), kompreni (8), uzi (7), regi (6)
subj vp-subj esti (51), havi (7), povi (6), devi (5), nomi (3), resti (3)
sub vp-pp-sub esti en (19), esti el (4), ekzisti en (4), havi en (4), paroli en (4), aperi en (3)
sub sub-pp-sub2 de korniko (2), de unio (2), de amo (1), de armeo (1), de besto (1), de demando (1)
sub2 sub-pp-sub2 influo de (6), enkonduko de (5), evoluo de (3), elekto de (3), plimulto de (3), nomo de (2)

Ekzemploj por vorto: morti

vp vp-subj homo (9), patro (9), infano (7), birdo (3)
vp vp-adv poste (7), miskomprene (4), multe (4), subite (4)
vp vp-obj antimo (1), deziro (1), loko (1), sangocirkulado (1)
vp vp-pp en (45), pro (32), de (22), antaŭ (6)
vp vp-pp-sub de malsato (7), pro malsato (4), antaŭ jaro (3), da homo (3)

Ekzemploj por vorto: stulta

adj np-adj demando (2), rakonto (1), infanaĵo (1), knabo (1)

Frekventeca vortaro de frazpartoj iĝos parto de Esperantilo

Ĉar mi konstatis tiun ilon utila, tial la ilo iĝos parto de venonta eldono de programo. Kelkaj tre strangaj rezultoj estas certe kaŭzitaj de ne plene korekta sintaksa analizo.

14.11.2006

I-Frazpartoj – Ĉio estas ebla.

Filed under: lingvistiko,maŝina tradukado — artur @ 18:54

Infinitivaj verbaj frazpartoj estas tre vasta kaj komplika parto de esperanta gramatiko. Adekvate komplika estas ankaŭ la maŝina tradukado al celaj lingvoj. La kompletan priskribon donas al ni plena manlibro de esperanta gramatiko (I-Verboj en PMEG). Infinitivaj frazpartoj plej ofte troviĝas kun verboj: „povi“, „devi“ kaj „voli“. Tiuj verboj havas en germana kaj angla gramatiko specialajn nomojn: (germane: „Hilfsverben“ aŭ „Modalverben“, angle „auxiliary verbs“).

Mi volas legi la libron.
Li povas tion fari.

I-verbo rolas en tiuj frazoj kvazaŭ kiel objekto. Sed por tiuj frazoj la kutima transformigo de objekto al subjekto per pasiva frazo ne estas ebla. Aliaj provoj.

Li povas legi libron. Kion li povas? Li povas tion. Kion li povas legi?

Uzado de infinitivaj frazpartoj en esperanto ŝajne ne havas limojn.

Ekzemploj de uzado de i-verboj

  • Kritiki estas facile
  • Li amas legi librojn.
  • Li helpis al ŝi prepari manĝon.
  • Li vidis la homojn legi librojn.
  • Li venis por vidi vin.
  • Li permesis al ŝi veni.
  • Li petas ŝi resti.
  • Mi laboras sen ripozi.
  • Li estas ema labori.
  • Li ne pensis pri neceso lerni tiun lingvon.

Kelkajn de ili oni povas transformigi al aliaj formoj.

  • Kritikado estas facila
  • Li amas legadon de libroj.
  • Li helpis al ŝi perpari manĝon.
  • Li vidis la homojn, kiu legis librojn.
  • Li venis, por ke li vidu vin.
  • Li permesis al ŝi la venon.
  • Li petas, ke ŝi restu.
  • Mi laboras sen repozo.
  • Li emas laboron.
  • Li ne pensis, ke estas necesa lerni tiun lingvon. Li ne pensis, ke lerno de tiu lingvo estas necesa.

Ceteraj i-verboj oni povas transformigi al substantivaj frazpartoj aliaj al subfrazoj kun prepozicio „ke“ aŭ „por ke“.
Interesa estas la eblo, kiun havas angla lingvo.

I want you to come.

En Esperanto tiu frazo estu:

Mi volas de vi veni. anstataŭ
Mi volas, ke vi venu.

Ĝis nun ŝajnas, ke tiu eblo ne estas uzata.

Maŝina tradukado

Naciaj lingvoj ne havas tiujn vastajn eblojn uzi infinitivajn frazpartojn. La malfacila tasko estas transformi la frazo al ebla formo ĉe tradukado. Ekzemple por pola traduko.

Mi vidis lin veni hejmen. Widziałem go, jak szedł do domu.

El teknika vidpunkto tre avantaĝa estas la transformigo de la frazo jam en Esperanto.

Mi vidis lin veni hejmen. = Mi vidis lin, kiam li venis hejmen.

Mi vidis homojn legi librojn. = Mi vidis homojn, kiuj legis librojn.

Tiaj transformigoj ebligas malplialtigi la strukturan riĉecon de Esperanto. Sed por germana lingvo la direkta traduko estas ebla.

Mi vidis lin veni hejmen. Ich sah ihn nach Hause gehen.

En silezia dialekto de pola lingvo tiu formo estas ankaŭ ebla:

Mi vidis lin veni hejmen. Widzio’łech go iść do dóm.

Sintaksa analizo de infinitivaj frazpartoj

Ĝi estas por ĉiu lingvo plej malfacila tasko de sintaksa analizo. Kaj ofte tio estas la kaŭzo, ke elegantaj analiziloj rezignas ĉe analizo de realaj tekstoj. La plej malfacila estas la difino de limoj de infinitivaj frazpartoj. Ŝajnas, ke bonajn rezultojn oni povas atingi nur per statistikaj metodoj.

Ĝis nun Esperantilo ne povas bone analizi ĉiujn tiujn senlimajn eblojn de Esperanta lingvo.

13.11.2006

Taŭgeco de Esperanto kiel interlingvo en maŝina tradukado

Filed under: lingvistiko,maŝina tradukado — artur @ 19:56

Ofte Esperanto estas proponita, kiel tiel nomata interlingvo por maŝina tradukado. DLT estas projekto, kiu reale tion provis. Ĝis nun neniu projekto rezultigis uzeblan sistemon.

Esperantistoj ofte mem sugestas la uzadon de Esperanto por tiuj kialoj. Mi devas konstati, ke kvankam ideo de interlingvo estas tre avantaĝa, Esperanto vere ne taŭgas por tiu tasko. Esperanto estas kreita kiel facile lernebla (por eŭropanoj) lingvo por internacia komunikado inter homoj. Tial Esperanto havas kelkajn specialajn trajtojn por atingi tiun celon.
Plej grava trajto estis granda lernebleco. Tiujn celojn Esperanto atingas per senescepta gramatiko kaj potenca vortfarado.
Esperanto estas kreita laŭ praktikaj bezonoj kaj spertoj kun multaj naturaj lingvoj. En Esperanto oni trovas vortojn de naciaj lingvoj kaj ankaŭ gramatikajn regulojn, kiuj funkcias en naciaj lingvoj. La kreito (aŭ kreintoj) de Esperanto neniam pensis pri maŝina tradukado kaj komputila lingvistiko, ĉar tiam tiuj temoj ne ekzistis.

La plej granda problemo ĉe komputila prilaboro de naturaj lingvoj estas multnivela multsenco de natura lingvo.
Oni ofte priskribas tri nivelojn.

  1. leksikona nivelo – sinonimoj. Ekzemple vorto: observi
  2. sintaksa nivelo – multaj eblaj kaj korektaj sintaksaj interpretadoj. Ekzemple frazo: Ŝi ricevis florojn de sia patro.
  3. pragmatika nivelo – kion celas la lingva esprimo.

Maŝina tradukado ĝis nun praktike pritraktas nur du nivelojn. Ŝajne la kreinto de Esperanto volis malaltigi unuflanke la multsencojn ĉe leksikona nivelo, sed aliflanke la sintaksa multsenco estas alta, ĉar tio ebligis facilan gramatikon.

La perfekta interlingvo por kialoj de maŝina tradukado devas ne havi mulsencojn. Ĝi devas havi la saman kapablon konservi informojn kiel ĉiuj lingvoj, ĉar oni volas eviti informoperdon ĉe tradukado jam pro maltaŭga interlingvo.

Mi volas prezenti kelkajn ekzemplojn

Leksikona multsenco

Ŝi observis birdojn. (pole: Ona obserwuje ptaki)
Li ne observis la leĝon. (pole: On nie przestrzegał prawa)

Vorto ‚observi‘ havas 3 sencojn. Malfeliĉe en pola lingvo oni devas uzi por 2 sencoj tute aliajn tradukojn.

Sintaksa multsenco

Ŝi ricevis florojn de sia patro. (pole: Ona otrzymała kwiaty ojca, aŭ Ona otrzymała kwiaty od ojca)

Oni ne povas en Esperanto tute klare difini, kiel oni devas interpreti la frazon.
Ŝi ricevis florojn [de sia patro]. aŭ Ŝi ricevis [florojn [de sia patro]].

Perdo de informoj

La informo-enhavo de gramatikaj strukturoj estas por naciaj lingvoj tre diferencaj. Tio malfaciligas la tradukadon.

Mi legis la libron.

Eblaj polaj tradukoj:

  1. Czytałem książkę
  2. Czytałam książkę
  3. Przeczytałem książkę
  4. Przytałam książkę

En pola lingvo fleksio de verboj signifas ankaŭ genron de subjekto. Por preskaŭ ĉiu pola verbo ekzistas 2 variantoj, kun signifo, ĉu la tasko estas plenumigita. Alia ekzemplo estas la pronomo ‚vi‘, kiu en Esperanto povas esti singulara aŭ plurala.

Aliaj teknikaj kialoj

Esperanto ne estas ankaŭ ideala por sintaksa analizo. Kelkajn vortetoj povas havi multajn rolojn en frazo.
Ekzemple la prepozicioj: al, de

Mi donas la libron al vi.
Mi veturas al pariso.
La libro estas skribita de fama aŭtoro.
Tio estas libro de fama aŭtoro.

Tiuj vortetoj devas esti tradukitaj al pola lingvo depende de rolo tute alie.

Daję książkę tobie.
Jadę do Paryża.
Książka została napisane przez sławnego autora.
To jest książka sławnego autora.

Esperanto ne estas normita

Esperanta lingvo lasas al la uzantoj tre grandan liberecon de sia uzado. Fundamento preskaŭ tute ne pritraktas la sintakson de la lingvo. La frazoj devas esti laŭ fundamento kompreneblaj, sed ĝi ne difinis de kiu. Ofte Esperantistoj nur kopias sian nacian lingvon. Tiaj frazoj estas korektaj sed certe ne kutimaj. La maŝina traduko estas tre malfacila.

Grandan mi legis libron. (sintaksa dispartigo)
Mi vidis lin veni hieraŭ. (germana kutimo)
Filo similas patron. (libera vortfarado)

Esperantistoj mem per evoluaj procesoj kreas regulojn pri la uzado. Esperanto evoluas laŭ reguloj de naturaj lingvoj, ĉar uzas ĝin homoj. En Esperanto ekzistas tre multaj ebloj esprimi ion. Ekzistas multaj sinonimoj (legu Ne ŝatataj vortoj).
Interlingvo devas esti firme normita kun difinita sintakso, kiun oni povas matematike (kaj logike) pruvi. Interlingvo devas havi difinitan vortaron kun tradukoj al ĉiuj koncernataj celaj lingvoj. Tiujn postulojn Esperanto ne plenumas.

En projekto DLT fine oni kreis propran normitan (regulitan) lingvon, kiu baziĝas sur Esperanto. Sed kial krei novan lingvon de Esperanto, se oni povas uzi por tiu alian nacian lingvon, kun pli bonaj vortaroj, kun pli vasta tekstaro, kaj kun pli ampleksaj lingvistikaj iloj.

La ideala interlingvo por maŝina tradukado devas havi trajtojn de formalaj lingvoj konataj de komputila scienco (ekzemple programaj lingvoj).

Aldonaj priskriboj de teksto

Ebla teknika solvo de tiuj problemoj estas pliriĉigo de tekstoj per aldonaj priskriboj.
Tiu tekniko (nomata angle tagging, vidu ankaŭ Tags) estas vaste uzata en lingvistika analizo en medio de XML kaj estas ofte pridiskutata ĉe tiel nomata semantika reto.

La kvanto de bezonataj aldonaj priskriboj dependas de cela lingvo de traduko.
Oni povas imagi, ke komputilo povus helpi en tiu tasko.
La komputila analizo povus trovi lokojn en tekstoj, kiuj havas multajn sencojn aŭ ne estas unusignife tradukebla al iu lingvo.

Mi{genro=ina} legis{aspekto=perfektiva} la libron.
Li ne observis{senco=2obei) la leĝon.
Ŝi ricevis [florojn de patro].

Imageble estas ankaŭ, ke komputilo aŭtomate aldonos tiujn priskribojn (uzante statistikajn metodojn aŭ profundan semantikan analizon) , kaj poste homo nur ekzamenos la rezulton.

Softvaraj patentoj pri Esperanto

Eĉ se la uzo de Esperanto kiel interlingvo en maŝina tradukado ne estas tiel avantaĝa, kiel oni ofte pensas, ekzistas
kelkaj softvaraj patentoj pri tio.
Vidu: United States Patent 5615301.
La patentoj mem estas tre ĝeneralaj kaj el teknika vidpunkto tre amatoraj. Por lingvistoj tiu eblo estas ja memkomprenebla. Aŭtoroj evidente ne priskribis ian inventaĵon, sed volis rezervi rajton por iu inventaĵo, kiu povus veni.
La afero de softvaraj patentoj estas ĝenerale tre dubinda (vidu www.nosoftwarepatents.com), kaj se temas pri Esperanto tre malkontentiga.

6.11.2006

Vortaro kaj glosaro en maŝina tradukado

Filed under: lingvistiko,maŝina tradukado — artur @ 20:12

Bona glosaro estas tre grava por bonkvalita maŝina tradukado. La aspekto de vortlistoj, kiuj estas uzataj en maŝina tradukado, havas aliajn necesojn ol vortaroj uzataj de homoj. Kutimaj vortaroj estas preparitaj por homoj, kiuj konas minimume bone unu lingvon. Tial unu lingvo en vortaro estas ofte nur skeme priskribita. Homoj uzas ofte laŭ bezono pliajn vortarojn por plenumigi ilian laboron, kaj povas ankaŭ uzi aliajn fontojn de lingva scio, ekzemple gramatikaj libroj. Homoj konas sufiĉe bone la lingvon por mem trovi la bazan formon de vorto kaj derivi bezonatan formon de vorto. Esceptoj estas priskribitaj kiel normala teksto aŭ kiel ekzemplo de uzado.

Kutimaj vortaroj de esperanto, kiujn oni povas trovi en reto, havas aspekton.

-ilo; ~zeug, Werkzeug
adjukti; (öffentlich) aufschreiben
administra; Verwaltungs~
~ad~ ;Nachsilbe für andauernde Handlung, z.B. "kuradi" = "Dauerlaufen"
rapida; schnell
fermi; schliessen
arbo; Baum

Oni povas bone rimarki, ke la listo enhavas ne nur normalajn vortajn parojn, sed ankaŭ priskriboj pri esperanta aŭ germana vortfarado aŭ eĉ gramatiko. La vortaro kondiĉas, ke la uzanto bone regas la germanan lingvon kaj konas ankaŭ la esperantan lingvon. Oni vane serĉas vortojn kiel: rapide, komputila, malfermi. La preparinto de vortaro supozas, ke la uzanto mem scias, kiel konstrui adverbon de adjektivo kaj ankaŭ bone konas la malan vorton al ‚fermi‘ (malfermi = öffnen). Germano ankaŭ scias, ke la genro de vorto ‚Baum‚ estas vira (‚der Baum‚) kaj ke pluralo estas ‚Bäume‚, li ankaŭ povas konstrui la akuzativon de ĝi ‚den Baum‚.

Sed por komputilo la nura scio pri lingvo devenas de algoritmoj de programo kaj de glosaro. Enmeti tiun scion en algoritmojn ne estas bona ideo, do tiu scio pri lingvo devas esti plejparte en glosaro.

Tial la glosaro por maŝina tradukado enhavas aliajn pluajn informojn kaj ĝia kovro devas esti pli granda.

Ekzemploj por pola aŭ germana lingvo

  • Por substantivoj oni bezonas genron.
  • Oni bezonas fleksian grupon aŭ listo de esceptoj por fleksio.
  • Pliaj gramatikaj priskriboj ekzemple: tipo de substantivo (abstrakta, gruponomo, nekalkulebla), ĉu verbo estas transitiva, aspekto de verbo.

Projekto de tiuj pliaj priskriboj estas tre malfacila laboro. Estas ankaŭ tre malfacile aŭtomate pliriĉigi la kutimajn vortlistojn je tiuj necesaj priskriboj. Ofte oni povas uzi statistikajn analizojn sur granda teksta korpuso por diveni la necesajn informojn. Aliokaze oni povas feliĉe trovi tiujn informojn de aliaj fontoj. Fine restas nur unu vojo, entajpi tiujn informojn mane.

Esperantilo enhavas redaktilon de vortaro, kiu facile ebligas redaktadon de glosaro. La redaktilo ankaŭ helpas korekte ekkoni kaj enmeti necesajn priskribojn.

Unu enskribo en glosaro enhavas sekvantajn kampojn:

  • traduko – unu esperanta vorta en baza formo
  • senco – la kampo estas ĝis nun ne uzata, sed povas enhavi priskriboj por multsencaj vortoj
  • fgrupo – fleksia grupo, tiu priskribo estas necesa pro fleksilo
  • gramatiko – tie oni enmetas pliaj informoj necesaj por tradukado

Precizaj informoj pri priskriboj oni trovu sur pagoj de esperantilo, ekzemple germana lingvo. En glosaro mi ankaŭ enmetis regulojn, kiuj estas necesaj por transformigo de prepozicioj kaj kazoj.

Asemblo de tiu glosaro estas peniga laboro, ĉar por bona kvalito, ĉiu de 50000 enskriboj devas esti kontrolitaj. Nun la programo funkcias ankaŭ, kiam la priskribojn mankas, en tiu kazo, la algoritmoj uzas la plej verŝajnan kombinon kaj tio ofte rezultigas per malalta kvalito de tradukita teksto.

Mi nun koncentriĝas pri programado de algoritmoj, ĉar nun nur mi tiun povas fari. La glosaron povas kompletigi la uzanto mem. La programo permesas eksportadon kaj importadon de glosaro, tiel la maŝina tradukado povas progresi eĉ sen mia partopreno.

Alia bona afero estas, ke la rezulta glosaro de tiu projekto povas esti libere uzata en aliaj projektoj laŭ la GPL Permisilo. Tiumaniere la sekvontaj projektoj povos komenci de fora punkto.

2.11.2006

Problemoj kun frazparto de tipo „multe da …“

Filed under: lingvistiko,pola lingvo — artur @ 11:04

Sintaksa analizo de esperantaj tekstoj estas ĝenerale pli facila ol tiu de aliaj naciaj lingvoj. Sed ekzistas kelkaj konstruaĵoj, kiuj ne konkordas kun bazaj reguloj. Mi skribas ‚bazaj reguloj‘ en senco, statistike plej oftaj. Kvankam ĉiu patriota esperantisto diras, ke Esperanto ne havas kaj ne povas havi esceptojn, ekzistas kelkaj konstruaĵoj, kiuj necesigas specialan pritrakton dum la sintaksa analizo.

Frazpartoj

Frazpartoj (legu ankaŭ en PMEG), estas ĉefe grupo de vortoj, kiuj havas unu specifan rolon en frazo.

Ĉefaj reguloj (plej oftaj reguloj)

  1. Ĉiu frazparto havas tielnomatan kapon (angle: head)
  2. Laŭ la arto de kapvorto oni distingas i,a,e aŭ o-frazpartojn (verbaj, adjektivaj, adverbaj aŭ substantivaj)
  3. Oni povas redukti la frazparton al kapvorto sen ĉesi la gramatikan korekton de tuta frazo
  4. En la kapvorto ekzistas gramatikaj informoj, kiuj sufiĉas por pritrakto de tuta frazparto
  5. Frazpartoj havas hierarkian (arban) strukturon.

Ekzemploj

tipo de frazparto frazparto tuta frazo redukto
sustantiva frazparto bonan libron Mi legis [bonan libron] Mi legis libron
adjektiva frazparto sufiĉe bonan Mi legis [[sufiĉe bonan] libron]. Mi legis bonan libron.
adverba frazparto tre rapide Mi legis bonan libron [tre rapide]. Mi legis bonan libron rapide.

Tiuj reguloj estas sufiĉaj por tre granda nombro de frazpartoj. Problemojn mi havis kun frazpartoj kiel „multe da …“, por kiu mi devis programi specialan pritrakton.

La rolo de tiu frazparto estas kutime de substantivo (subjekto, direkta objekto, …)

Mi legis multe de libroj.
Multe de homoj legis multe de libroj.

En normala kazo tiu frazparto devas esti adverba kun kapo ‚multe‘. Simile al frazo: ‚Mi ne scias neniun [rilate al li]‘ [rilate al li] estas adjekto, normala rolo por adverboj. Sed estas iu strange, ke adverba frazparto povas roli, kiel subjekto aŭ direkta objekto. Kaj tiu estus ja escepto.

Due, kiam tiu frazparto rolas kiel direkta direkta objekto, kie restas la akuzativo.

Mi legis multen de libroj.
Mi legis multe da librojn.

Ambaŭ variantoj estas malkorektaj laŭ fundamento. Akuzativa adverbo povas signifi nur direkton. En la dua frazo akuzativo ne povas stari kun prepozicio ‚da‘. Ankaŭ la kvara regulo, kiu estas tre oportuna por programado, ne estas tie korekta. Frazparto ‚multe de libroj‘ havas la pluralan nombron.

Multe da libroj estas interesaj

Ekzistas do du ebloj por frazkapo, sed ambaŭ ne respektas la normalajn regulojn.

  • Frazkapo estas la vorto ‚multe‘. Tiam la kapo ne havas nombrecon kaj ankaŭ akuzativon.
  • Frazkapo estas la vorto ‚libroj‘. Tiam la kapo ne havas akuzativon. Kaj kapo estas ne en unua stupo de sintaksa arbo [multe [da libroj]], kiu estas ankaŭ tre malafabla afero.

Ankaŭ la demando, ĉu tiu frazparto estas substantiva aŭ adverba mi lasu al lingvistoj.

frazparto ‚multe da …‘ kaj pola lingvo

Estas por mi okulfrape, ke la konstruaĵo tre similas al pola lingvo por vortoj: dużo (multe), kilka (kelke), wiele (multe). Ankaŭ en pola lingvo tiu rezultas kelkajn esceptojn kaj malfacilaĵojn:

Ja czytam książki (kazo: akuzativo).
Ja czytam wiele książek (kazo: genetivo).

Książki (esti – pluralo) interesujące (kazo: nominativo).
Wiele książek jest (esti – singularo) interesujących (kazo: genetivo).

En la lasta ekzemplo ni vidas, ke ‚wiele książek‘ estas parte singulara. Tute feliĉe en Esperanto verboj ne havas nombrecon.

Aliaj ebloj

Por mi, mallaborema programisto, estus pli facile, se Esperantistoj uzus aliajn eblajn formojn.

Mi legis multajn librojn.
Mi legis multon da librojn.

La lasta malkutima formo akordus kun eblaj formoj de numeraloj, kiel ‚deko da libroj‘.

Postaj rimarkoj

Post analizo de tekstaro mi rimarkis aliaj samfunkciaj adverboj: kelke multe malmulte sufiĉe iomete senfine nemulte. Vi ne forgesu ankaŭ pri: iom, tiom kaj kiom.

« Newer Posts

Powered by WordPress