Esperantilo Blogo en Esperanto pri projekto Esperantilo kaj komputila lingvistiko

12.9.2007

Maŝina tradukado el pola lingvo al Esperanto

Filed under: pola lingvo,programado — artur @ 18:46

Mi ne planis programi maŝinan tradukadon el pola lingvo, tamen nun mi dum longa tempo laboris pri tiu temo, kaj la venonta versio de Esperantilo enhavos unuan fojon la maŝinan tradukadon el pola lingvo al esperanta lingvo. La ĉefa kaŭzo pri mia frua rezisto je tiu temo estis, ke mi pritraktis la sintaksan analizon de pola lingvo kiel tre komplika, tro komplika por miaj rimedoj. Post kelkaj eksperimentoj mi konstatis, ke plena (profunda) sintaksa analizo ne estas tiel necesa por pola lingvo. Ekzistas ankaŭ la libera projekto morfologik kaj la s_fsa, kiuj oferas polan etiketilon. Do mi povis reuzi jam ekzistantan programaron. Tamen la vortprovizo de projekto morfologik, kvankam ĝi estas tre abunda, enhavis multe da eraroj. Do mi devis unue purigi tiun provizon. Por tiu tasko mi produktis de vortaro de Esperantilo ĉiujn fleksiajn formojn. Tiujn funkciojn mi jam bezonis por tradukado al pola lingvo. Feliĉe la laborkvanto ne estis tiel granda kaj mi povis rapide atingi unuajn rezultojn.

Ĉe tiu temo mi frontis unufoje la problemon de ambiguo de naturaj lingvoj. Por bona tradukado oni bezonas bonan senambiguilon (angle: disambigulation). La sendisambiguo koncernas ĉefe du problemojn.

  • Trovi la bazan vorton
  • Trovi unusencan gramatikan etiketon

Mi frue eĉ ne supozis, kiom da ambigueco ekzistas en pola lingvo. Mi pensas, ke nia cerbo faras tiun taskon tiel rapide, ke la ambigueco ne iĝas konscia. Do mi rimarkis tiun ambiguon nur dum la testado de tradukado.

Mi donas kelkajn ekzemplojn.

mam - verbo (mieć-havi), substatnivo (mama-patrino)
bez - konjukcio (sen), substantivo (sambuko)
jak - konjunkcio (kiel), substantivo (gruntbovo)

Ankaŭ la pola fleksio estas parte tre ambigua.

książki - baza vorto: książka
singularo, genetivo
pluralo, nominativo
pluralo, akuzativo

En pola lingvo akuzativo kaj nominativo por senvivaj substantivoj de vira genro estas samaj. Do mi devis uzi multajn diferencajn teknikojn por difini la gramatikan funkcion de vortoj en pola frazo. Pola lingvo havas ankaŭ komplikajn trajtojn ĉe negado kaj numeraloj. Jen la tabelo, kiu montras kelkajn defiojn de pola lingvo.

Ja mam książkę. Mi havas libron.
Ja nie mam książki. (genetivo-singularo) Mi ne havas libron.
Ja mam książki. (akuzativo-pluralo) Mi havas librojn.
Cena książki jest wysoka. (genetivo-singularo) Prezo de libro estas alta.

En tiu ekzemplo la vorto „książki“ devas esti tradukita depende de kunteksto al „libron, librojn aŭ de libro“.
Tamen ĉiujn tiujn frazojnj la programo nun povas korekte traduki. Do mi esperas, ke la tradukado el pola lingvo estus ankaŭ iam utila. Mi pensas, ke se la traduko estus komprenebla, tiam jam multaj esperantistoj povus kompreni polajn tekstojn. Do tiu direkto de tradukado estus eble pli interesa ol tradukado de Esperanto al pola lingvo. Tiu okupo estas pro mi bona okazo ekkoni la polan lingvon. Tiun scion oni nur tre malfacile atingas per legado de gramatikaj libroj. Eble ankaŭ la cerboj de polaj gramatikistoj malkaŝas al ili kelkajn gravajn fenomenojn de pola lingvo.

31.12.2006

Pola kaj esperanta vortfarado

Filed under: lingvistiko,pola lingvo — artur @ 13:51

En la kristnaska periodo mi legis la gramatikan libron, kiun mi iam aĉetis en polando „Zarys Gramatyki Polskiej“ de Alicka Nagórko. Tre interesa estis por mi la ĉapitro pri pola vortvarado. Mi esperis, ke mi povus kompletigi la polan-esperantan vortaron aŭtomate. La baza ideo estus konstrui la derivon de pola radiko por konata esperanta vorto laŭ pola vortfarado. Fine la programo testas, ĉu tiu arte farita vorto vere ekzistas en pola lingvo per simpla literumado. Mi tion jam faris por derivi adverbojn de adjektivoj, kiuj normale ne aperas en polaj vortaroj.

  • rapida – rapide
  • szybki – szybko

En pli ampleksaj kazoj mi povus eĉ simuli en maŝina tradukado spontanan vortvaradon. Tie temas pri vortoj, kiu normale ne ekzistas en vortaro, ofte emocia vortfarado: „domaĉo, fiprogrami, monaĉo“. Mi suspektas, ke aŭtomata vortfarado por sufiksoj: „adi, isto, ejo, ino, ero, ulo“ aŭ adjektivigo aŭ substantivigo estas principe ebla. Per tiu libro mi ankaŭ lernis iomete pri interesaj principoj de pola vortfarado, kiu eble ankaŭ validas por esperanta vortfarado. Kelkaj interesaj principoj:

  • La unua fonto de vortfarado estas enpropriĝo (pole: „Asymilation“ ) de fremdaj vortoj.
  • Ofta konstuoprincipo estas mensa asociacio.
  • Per unuigo (pole: „Unifikacja“). Partoj de vortgrupo estas forigitaj
  • Konstruo per vortoripedado

Tiu principoj kondukas ofte al nelogikaj aŭ tempaj vortfaradoj, kiuj ne povas esti logike komprenataj. Mi trovis tiujn vortfaradojn en Esperanto lingvo.

  • Enpropiĝo: vorto „partopreni“ estas enpropiĝo de germana „teilnehmen“ aŭ pola „brać udział“. La vorto ne estas logika, ĉar kiun parton oni prenas ĉe tiu ago.
  • Per unuigo. Forigo de vortoj. En pola lingvo la ĉeno „telefon komurkowy“ – „komurkowiec“ – „komórka“. En esperanta lingvo: „komputila muŝo“ – „muŝo“.
  • Asociacio: krokodili, kabei
  • Ripetado: finfine (schlussendlich), treege, unusola

Tiu vortfarado estas ofte tre kritikita de esperantaj puristoj, ĉar la lingvo iĝas per tio pli natura ol neŭtrala.Interesa en pola lingvo estas vortfarado por socia dialekto aŭ emocia vortfarado. Ofte oni uzas la eblojn de pola lingvo ŝanĝi certajn literojn en radiko. (ekz: s-ch)

  • cigaredaĉoj – papierochy; cigaredoj – popierosy
  • monaĉo – pieniąchy, mono – pieniądze

Poloj tre volonte uzas vortfaradon por esprimi emociojn, humoron aŭ ceteran asociacion

  • poseł – poślica
  • kundel – kundlyzm
  • bicie mordy – mordobijnia
  • kolega – koleś – kolesiówa

Tre potenca estas ankaŭ la pola sufikso „owy“, kiu signifas nur „havas rilaton kun“. Tio sufikso estas uzate ofte samtempe ĉe la proceso de unuigo („Unifikacja“).

  • szkoła podstawowa – podstawówka
  • karta obiegowa – obiegówka
  • klasa przedszkolna – zerówka

Tiu vortoj povas havi aliajn signifojn por aliaj grupoj kaj fakoj. Mi tion observis en esperanto, ke vortoj kiel:

  • reto – TTT (enpropriĝo de angla asociacio „net“)
  • retejo – TTT-ejo
  • retumi – traserĉi la TTT-aron

Kiam oni iam komencis la vortfaradan lavangon, la proceso iĝas for de logika kontrolo. Estas interese, ke la (Sonja’s English-Esperanto Dictionary) vortaro malsugestas la uzadon ne vorto „retejo“.

En Esperanto la similan rolon de pola „owy“ havas la sufikso „um“. Kaj tiu sufikso estas tre volonte uzate de esperanta junularo por krei propra socia dialekto:

  • bierumi
  • kongresumi

En pola lingvo sufiksoj, kvankam tre riĉaj, ne havas fiksan signifon. „arz“ povas signifi profesion, ilon aŭ eĉ aĵon. Mi supozas, ke la plej radika signifo de vorto (radiko) havas influon je eblaj derivoj.

Kion mi povas konstati post tiu legado.

  • Vortfarado tre malofte estas proceso de logika derivo. Kaj tio validas ankaŭ por Esperanto. Novaj vortoj ne devas esti logikaj sed devas esti allogaj por uzantoj (eble angle „sexy“)
  • Spontana vortfarado estos eble la plej granda problemo de maŝina tradukado.
  • Esperanton enfluas eble pluraj sentoj de vortfarado.
  • Ofte en la libro oni legas. Tiu aŭ tiu kampo bezonas pli vastan esploron. Kompletan sciencan bazon de pola vortfarado oni eble devas longe atendi.
  • Mi havas nun kelkajn ideojn de eksperimentoj kun pola vortfarado en Esperantilo

6.12.2006

Ordo de frazpartoj en pola lingvo

Filed under: pola lingvo — artur @ 21:49

Simile al Esperanto ordo de frazpartoj en Pola lingvo ne estas strikte difinita. Ĉiuj subaj frazoj estas gramatike korektaj.

  • Frato amas fratinon. Brat kocha siostrę.
  • Fratinon amas frato. Siostrę kocha brat.
  • Frato fratinon amas. Brat siostrę kocha .

Sed tio ne signifas, ke la ordo estas en pola lingvo tute sensignifa. Ŝajnas, ke ekzistas kutima ordo, kaj ordo, kiu per pozicio de iu elemento, emfazas ion. Kiam mi aŭtomate tradukis frazojn de Esperanto al pola lingvo, la programo ne ŝanĝis la ordon de frazpartoj. Tio rezultigis malofte nekutiman tradukon al pola lingvo. La kutima ordo de Esperanto diferencas do de kutima pola ordo.

Kelkaj ekzemploj:

  • Kio estas tio. Co jest to? (kutime) Co to jest? (Kio tio estas)
  • Patro konas lin. Ojciec zna go. (kutime) Ojciec go zna (Patro lin konas.
  • Frato ofte lavis sin. Brat często mył się. (kutime) Brat często się mył. (Frato ofte sin lavis)

En Esperanto la kutima ordo estas Subjekto+Verbo+Objekto. Inter tiuj ĉefaj elementoj povas esti enmetitaj aliajn adjektojn.

  • Mi ofte programas vespere.
  • En la lasta jaro li finigis sian laboron.

En pola lingvo tiu ordo ankaŭ estas la kutima, sed ŝajnas, ke ekzistas kelkaj aliaj aldonaj reguloj. Mi povis rimarki sekvajn regulojn.

  • En pola lingvoo oni evitas personajn pronomojn kaj tablovortojn en la fino de frazo.
  • Oni ankaŭ evitas refleksivan pronomon „się“ („sin“) en la fino de frazo.
  • Ĉe demandoj verboj ofte okupas la lastan lokon.

Subjektiva frazparto

En pola lingvo ambaŭ variantoj de priskribo de substantivo per adjektivo estas kutimaj

  • fama libro – słynna książka
  • libro fama – książka słynna

Sed ekzistas malgranda diferenco inter tiuj du ebloj. La modelo „Subjekto+Adjektivo“ estas uzata plej ofte, kiam la esprimo difinas konkretan klason de aĵoj.

  • sistemo komputila – system komputerowy
  • libro scienca – książka naukowa

Tio okazas plej ofte, kiam la adjektivo devenas de substantivo. Adjektivigo de substantivoj estas en pola lingvo tre kutima. En esperantilo adjektivoj, kiuJ devas stari post la substantivo estas speciale markitaj en vortaro per priskribo „def“ en kampo „gramatiko“ de adjektivo. Interese, ke en Esperanto ne ekzistas ĝis nun tiu kutimo.

En germana liNgvo la adjektivigo de substantivoj ne estas ĉiam ebla. Ni havas do:

  • sistemo komputila – Komputersystem
  • libro scienca – wissenschaftliches Buch

En la vortaro de Esperantilo por vorto „komputila“ ekzistas traduko „Komputer~“. Tio signifas, ke oni povas uzi
nur vortfaradon ĉe tiu vorto.

Nekutima ordo en pola lingvo

Per ne kutima ordo en pola lingvo oni ofte volas fabriki iun specifan stilon. Ofte per nekutima ordo oni simulas maljunan polan lingvon (Ekzemple tiu de romanoj de Sienkiewicz).

  • Nieszczęście by chyba waćpanu taka służba przynieść mogła.
  • Od dwóch już miesięcy Zaporożcy saletry mi nie puszczają, którą od Czarnego Morza przywozić trzeba.

Mi pensas ankaŭ pri filmo „milito de astroj“ kaj la parolmanieron de majstro „joda“ (Yoda). Priskribon de ordo de frazpartoj oni vane serĉas en polaj gramatikaj libroj. Mi ofte povis trovi nur rimarkon, ke la ordo estas libera. Tio estas tute alia por lingvoj kun tre rigida ordo kiel angla lingvo. Ĝenerale oni povas trovi en la reto nur malmultajn informojn pri pola lingvo. La plej bona retejo, kiun mi trovis, estas farita de hobiulo. Gramatyka języka polskiego.

En tiu kazo la pola lingvistiko ne liveras necesajn informojn por praktika aplikado en komputila lingvistiko. Mi rimarkis, ke nur por tiel nomataj grandaj lingvoj onI trovas en la reto sufiĉajn informojn. Kvankam pola lingvo ne estas tiel malgranda, la kvanto de informoj pri pola lingvo estas tre malgranda kompare al germana aŭ rusa lingvo. Mi eĉ ne pensas pri vere malgrandaj lingvoj.

Mi mem ofte ne estas tute certa, kiu ordo en pola lingvo estas kutima, ĉar ofte ekzistas grandaj regionaj diferencoj.

Kutima kaj nekutima ordo en Esperanto

Estas tre malfacile diri, kiu ordo estas kutima por Esperanto. Estus eble tre interesa tasko, pritrakti tiun temon laŭ statistikaj metodoj. Nun mi ne bezonas tiujn informojn, sed por preciza sintaksa analizo, tiu povas esti necesa.

Dispartigitaj frazpartoj

Penseblaj sed maloftaj estas en esperanto sekvaj frazoj.

  • [Tre bonan] mi legis [libron] hieraŭ. (tre bona libro)
  • [vin] mi volas [renkonti]. (renkonti vin)

La dispartigon oni povas observi ĉe np-frazpartoj (adjektivo+substantivo) kaj ivp-frazpartoj (infinitivaj verbaj frazpartoj). En pola lingvo tiun dispartigon mi trovas pli ofte ol en Esperanto kaj kutime en respondoj.

  • Kian libron vi legis? Bonan mi legis libron.

La sintaksa analizilo de esperantilo tute ne povas analizi tiajn frazojn kaj mi ne planas tiun eblon en la venonto. Bedaŭrinde la strukturo, kiu povus konservi tiujn informojn, estas pli komplika el teknika vidpunkto.

2.11.2006

Problemoj kun frazparto de tipo „multe da …“

Filed under: lingvistiko,pola lingvo — artur @ 11:04

Sintaksa analizo de esperantaj tekstoj estas ĝenerale pli facila ol tiu de aliaj naciaj lingvoj. Sed ekzistas kelkaj konstruaĵoj, kiuj ne konkordas kun bazaj reguloj. Mi skribas ‚bazaj reguloj‘ en senco, statistike plej oftaj. Kvankam ĉiu patriota esperantisto diras, ke Esperanto ne havas kaj ne povas havi esceptojn, ekzistas kelkaj konstruaĵoj, kiuj necesigas specialan pritrakton dum la sintaksa analizo.

Frazpartoj

Frazpartoj (legu ankaŭ en PMEG), estas ĉefe grupo de vortoj, kiuj havas unu specifan rolon en frazo.

Ĉefaj reguloj (plej oftaj reguloj)

  1. Ĉiu frazparto havas tielnomatan kapon (angle: head)
  2. Laŭ la arto de kapvorto oni distingas i,a,e aŭ o-frazpartojn (verbaj, adjektivaj, adverbaj aŭ substantivaj)
  3. Oni povas redukti la frazparton al kapvorto sen ĉesi la gramatikan korekton de tuta frazo
  4. En la kapvorto ekzistas gramatikaj informoj, kiuj sufiĉas por pritrakto de tuta frazparto
  5. Frazpartoj havas hierarkian (arban) strukturon.

Ekzemploj

tipo de frazparto frazparto tuta frazo redukto
sustantiva frazparto bonan libron Mi legis [bonan libron] Mi legis libron
adjektiva frazparto sufiĉe bonan Mi legis [[sufiĉe bonan] libron]. Mi legis bonan libron.
adverba frazparto tre rapide Mi legis bonan libron [tre rapide]. Mi legis bonan libron rapide.

Tiuj reguloj estas sufiĉaj por tre granda nombro de frazpartoj. Problemojn mi havis kun frazpartoj kiel „multe da …“, por kiu mi devis programi specialan pritrakton.

La rolo de tiu frazparto estas kutime de substantivo (subjekto, direkta objekto, …)

Mi legis multe de libroj.
Multe de homoj legis multe de libroj.

En normala kazo tiu frazparto devas esti adverba kun kapo ‚multe‘. Simile al frazo: ‚Mi ne scias neniun [rilate al li]‘ [rilate al li] estas adjekto, normala rolo por adverboj. Sed estas iu strange, ke adverba frazparto povas roli, kiel subjekto aŭ direkta objekto. Kaj tiu estus ja escepto.

Due, kiam tiu frazparto rolas kiel direkta direkta objekto, kie restas la akuzativo.

Mi legis multen de libroj.
Mi legis multe da librojn.

Ambaŭ variantoj estas malkorektaj laŭ fundamento. Akuzativa adverbo povas signifi nur direkton. En la dua frazo akuzativo ne povas stari kun prepozicio ‚da‘. Ankaŭ la kvara regulo, kiu estas tre oportuna por programado, ne estas tie korekta. Frazparto ‚multe de libroj‘ havas la pluralan nombron.

Multe da libroj estas interesaj

Ekzistas do du ebloj por frazkapo, sed ambaŭ ne respektas la normalajn regulojn.

  • Frazkapo estas la vorto ‚multe‘. Tiam la kapo ne havas nombrecon kaj ankaŭ akuzativon.
  • Frazkapo estas la vorto ‚libroj‘. Tiam la kapo ne havas akuzativon. Kaj kapo estas ne en unua stupo de sintaksa arbo [multe [da libroj]], kiu estas ankaŭ tre malafabla afero.

Ankaŭ la demando, ĉu tiu frazparto estas substantiva aŭ adverba mi lasu al lingvistoj.

frazparto ‚multe da …‘ kaj pola lingvo

Estas por mi okulfrape, ke la konstruaĵo tre similas al pola lingvo por vortoj: dużo (multe), kilka (kelke), wiele (multe). Ankaŭ en pola lingvo tiu rezultas kelkajn esceptojn kaj malfacilaĵojn:

Ja czytam książki (kazo: akuzativo).
Ja czytam wiele książek (kazo: genetivo).

Książki (esti – pluralo) interesujące (kazo: nominativo).
Wiele książek jest (esti – singularo) interesujących (kazo: genetivo).

En la lasta ekzemplo ni vidas, ke ‚wiele książek‘ estas parte singulara. Tute feliĉe en Esperanto verboj ne havas nombrecon.

Aliaj ebloj

Por mi, mallaborema programisto, estus pli facile, se Esperantistoj uzus aliajn eblajn formojn.

Mi legis multajn librojn.
Mi legis multon da librojn.

La lasta malkutima formo akordus kun eblaj formoj de numeraloj, kiel ‚deko da libroj‘.

Postaj rimarkoj

Post analizo de tekstaro mi rimarkis aliaj samfunkciaj adverboj: kelke multe malmulte sufiĉe iomete senfine nemulte. Vi ne forgesu ankaŭ pri: iom, tiom kaj kiom.

Powered by WordPress