Esperantilo Blogo en Esperanto pri projekto Esperantilo kaj komputila lingvistiko

31.12.2006

Pola kaj esperanta vortfarado

Filed under: lingvistiko,pola lingvo — artur @ 13:51

En la kristnaska periodo mi legis la gramatikan libron, kiun mi iam aĉetis en polando „Zarys Gramatyki Polskiej“ de Alicka Nagórko. Tre interesa estis por mi la ĉapitro pri pola vortvarado. Mi esperis, ke mi povus kompletigi la polan-esperantan vortaron aŭtomate. La baza ideo estus konstrui la derivon de pola radiko por konata esperanta vorto laŭ pola vortfarado. Fine la programo testas, ĉu tiu arte farita vorto vere ekzistas en pola lingvo per simpla literumado. Mi tion jam faris por derivi adverbojn de adjektivoj, kiuj normale ne aperas en polaj vortaroj.

  • rapida – rapide
  • szybki – szybko

En pli ampleksaj kazoj mi povus eĉ simuli en maŝina tradukado spontanan vortvaradon. Tie temas pri vortoj, kiu normale ne ekzistas en vortaro, ofte emocia vortfarado: „domaĉo, fiprogrami, monaĉo“. Mi suspektas, ke aŭtomata vortfarado por sufiksoj: „adi, isto, ejo, ino, ero, ulo“ aŭ adjektivigo aŭ substantivigo estas principe ebla. Per tiu libro mi ankaŭ lernis iomete pri interesaj principoj de pola vortfarado, kiu eble ankaŭ validas por esperanta vortfarado. Kelkaj interesaj principoj:

  • La unua fonto de vortfarado estas enpropriĝo (pole: „Asymilation“ ) de fremdaj vortoj.
  • Ofta konstuoprincipo estas mensa asociacio.
  • Per unuigo (pole: „Unifikacja“). Partoj de vortgrupo estas forigitaj
  • Konstruo per vortoripedado

Tiu principoj kondukas ofte al nelogikaj aŭ tempaj vortfaradoj, kiuj ne povas esti logike komprenataj. Mi trovis tiujn vortfaradojn en Esperanto lingvo.

  • Enpropiĝo: vorto „partopreni“ estas enpropiĝo de germana „teilnehmen“ aŭ pola „brać udział“. La vorto ne estas logika, ĉar kiun parton oni prenas ĉe tiu ago.
  • Per unuigo. Forigo de vortoj. En pola lingvo la ĉeno „telefon komurkowy“ – „komurkowiec“ – „komórka“. En esperanta lingvo: „komputila muŝo“ – „muŝo“.
  • Asociacio: krokodili, kabei
  • Ripetado: finfine (schlussendlich), treege, unusola

Tiu vortfarado estas ofte tre kritikita de esperantaj puristoj, ĉar la lingvo iĝas per tio pli natura ol neŭtrala.Interesa en pola lingvo estas vortfarado por socia dialekto aŭ emocia vortfarado. Ofte oni uzas la eblojn de pola lingvo ŝanĝi certajn literojn en radiko. (ekz: s-ch)

  • cigaredaĉoj – papierochy; cigaredoj – popierosy
  • monaĉo – pieniąchy, mono – pieniądze

Poloj tre volonte uzas vortfaradon por esprimi emociojn, humoron aŭ ceteran asociacion

  • poseł – poślica
  • kundel – kundlyzm
  • bicie mordy – mordobijnia
  • kolega – koleś – kolesiówa

Tre potenca estas ankaŭ la pola sufikso „owy“, kiu signifas nur „havas rilaton kun“. Tio sufikso estas uzate ofte samtempe ĉe la proceso de unuigo („Unifikacja“).

  • szkoła podstawowa – podstawówka
  • karta obiegowa – obiegówka
  • klasa przedszkolna – zerówka

Tiu vortoj povas havi aliajn signifojn por aliaj grupoj kaj fakoj. Mi tion observis en esperanto, ke vortoj kiel:

  • reto – TTT (enpropriĝo de angla asociacio „net“)
  • retejo – TTT-ejo
  • retumi – traserĉi la TTT-aron

Kiam oni iam komencis la vortfaradan lavangon, la proceso iĝas for de logika kontrolo. Estas interese, ke la (Sonja’s English-Esperanto Dictionary) vortaro malsugestas la uzadon ne vorto „retejo“.

En Esperanto la similan rolon de pola „owy“ havas la sufikso „um“. Kaj tiu sufikso estas tre volonte uzate de esperanta junularo por krei propra socia dialekto:

  • bierumi
  • kongresumi

En pola lingvo sufiksoj, kvankam tre riĉaj, ne havas fiksan signifon. „arz“ povas signifi profesion, ilon aŭ eĉ aĵon. Mi supozas, ke la plej radika signifo de vorto (radiko) havas influon je eblaj derivoj.

Kion mi povas konstati post tiu legado.

  • Vortfarado tre malofte estas proceso de logika derivo. Kaj tio validas ankaŭ por Esperanto. Novaj vortoj ne devas esti logikaj sed devas esti allogaj por uzantoj (eble angle „sexy“)
  • Spontana vortfarado estos eble la plej granda problemo de maŝina tradukado.
  • Esperanton enfluas eble pluraj sentoj de vortfarado.
  • Ofte en la libro oni legas. Tiu aŭ tiu kampo bezonas pli vastan esploron. Kompletan sciencan bazon de pola vortfarado oni eble devas longe atendi.
  • Mi havas nun kelkajn ideojn de eksperimentoj kun pola vortfarado en Esperantilo

29.12.2006

Nova eldono de Esperantilo – 0.87

Filed under: ĝenerale — artur @ 16:29

La eldono ne enhavas novajn funkciojn, Multajn malgrandaj plibonigoj kaj korektoj estas faritaj. Mi sugestas al ĉiu uzanto instali tiun eldonon, ĉar ĝi estas iomete pli matura.

Sintaksa analizo

  • nova branĉotipo ppinf por strukturoj kiel (por|sen|anŝtataŭ|krom) + inf; ekz: [por [vidi vin]]
  • vortetoj dum kaj ĝis estas depende de kazo pritraktataj kiel frazenkondukiloj (post komoj)

Pola traduko

  • kiel en identiga rolo estas tradukata al ‚jako‘
  • Pasintaj pasivoj estas tradukata kun verbo zostać.Ekz: Libro estas skribita -> Książka została napisana.
  • dum -> „gdy“„w czasie“ depende de kontekso
  • Numeraloj en formo ‚2-an‘ estas tradukata al ‚2‘
  • La verba aspekto estas elektitaj depende de adjektoj. Ekzemple: Mi helpis lin -> Ja pomogłem mu. Mi helpis lin du jarojn -> Ja pomagałem mu dwa lata.
  • ’ne plu‘ -> ‚więcej nie‘

Germana traduko

  • kiel en identiga rola estas tradukata al ‚als‘
  • por + inf -> um … zu …
  • Numeraloj en formo ‚2-an‘ estas tradukata al ‚2‘

Aliaj ŝanĝoj, forigoj der eraroj

  • Eraro en trovado de frazoj en traduka memoro estas korektita. Nun traduka memoro devas denove funkcii.
  • Ignorlisto ĉe literumado ankaŭ por aliaj lingvoj ol nur Esperanto.
  • Litergrandeco en rezultaj fenestroj estas same grande kiel en ĉefa redaktilo. Dankon al Enbor por rimarko.
  • Gramatika korektado estas plibonigita por akcepti pliajn korektajn frazojn sen raporti falsaj eraroj.
  • La fonta kodo de programo estas prikomentita
  • Multaj aliaj malgrandaj korektoj kaj plibonigoj

Raportu erarojn kaj dezirojn

28.12.2006

konjunkcio kaj prepozicio: ĝis, dum, antaŭ ol, post kiam

Filed under: lingvistiko,programado — artur @ 12:21

Sintaksa analizo en Esperantilo funkcias sufiĉe bone por granda parto de frazoj. Restas nun pli komplikaj kazoj, kiuj ĝis nun ne funkcias. Ofte mi frue tute ne pritraktis tiujn kazojn, ĉar mi ne volis trokompliki la aferojn.

Vortetoj, kiuj povas havi en sintakso plurajn funkciojn, kaŭzas ĉiam problemojn. La plej problema estas evidente la vorteto: „kiel“. Sed ankaŭ vortetoj „ĝis“ kaj „dum“ rolas kiel aŭ prepozicioj aŭ konjunkcioj (aŭ pli precize frazenkondukiloj). En la lasta rolo ili estas similaj al vortetoj: „kvankam, apenaŭ, kvazaŭ“. Pli detale oni legu pri tio en PMEG.

  • Li legis multajn librojn, dum li studis.
  • Dum la mateno estas tre varme en tiu lando.

En pola lingvo oni uzas du diferencajn esprimojn por tiuj du kazoj

  • dum – gdy, w czasie gdy (kiel konjunkcio)
  • dum – w czasie (kiel prepozicio)

Vorteto ‚ĝis‘ havas ankaŭ tempan kaj lokan signifon.

  • Ĝis li laboris, li havis monon.
  • Li iras ĝis la bordo.
  • Ĝis mateno li atendis la amikon.
  • Li estis tre fama ĝis nun.

Oni atentu, ke „ĝis“ povas ankaŭ esti en unu strukturo kun primitivaj tempaj adverboj: „nun, morgaŭ, …“.Por sintaksa analizo malfacile estas diferenci en kiu rolo aperas la vorteto. Se la sintaksa analizo grupigas false la vorteton kun sekva substantiva frazparto, tiam en frazo mankas la subjekto.

  • Korekte – [Ĝis] [patro] laboris, li havis propran monon.
  • False – [Ĝis patro] laboris, li havis propran monon.

Interesaj estas fiksaj grupoj „antaŭ ol“ kaj „post kiam“, kiuj ankaŭ rolas kiel frazenkondukiloj. La grupo „antaŭ ol“ estas de tute alia speco ol iliaj eroj. „antaŭ ol“ estas nun frazenkondukiloj, kvankam nek „antaŭ“ nek „ol“ povas sole havi tiun rolon. Oni ne povas forigi unu elementon sen perdi la gramatikan korekton de tuta frazo. Tio estas en Esperanto tre malofta fenomeno, kiu tre helpas ĉe konstruo de sintaksa analizilo. Ĉe „post kiam“ oni povus konsideri „post“ kiel modifo de „kiam“. Tiuj grupoj similas ankaŭ al grupo „por ke“. Ankaŭ en Esperanto estas vera la statistika pareto regulo 20/80. 20% de kazoj rezultigas 80% de laboro. La sintaksan analizilon en Esperantilo mi programas jam 1 jaron, sed por korekte analizi la kromajn kazojn mi necesus aldonajn 5 jarojn. Eĉ pli malkontentiga esta la konstato, ke ofte la nunaj teknikaj solvoj en programo ne kapablas analizi tiujn restantajn kazojn, tial eble por ĉiam restas iuj frazoj, kiuj ne estas analizitaj korekte. Mi esperas tamen, ke programlingvo XOTcl, kiun mi uzas, estas sufiĉe fleksebla ankaŭ por tiuj kazoj.

21.12.2006

Kiel komputilo tradukas?

Filed under: lingvistiko,maŝina tradukado — artur @ 19:10

Mi bezonis preskaŭ unu jaron por lerni la bazon pri komputila lingvistiko. Mia unua libro estas „Computerlinguistik und Sprachtechnologie. Eine Einführung“ de „Kai-Uwe Carstensen, Christian Ebert, Cornelia Endriss, Susanne Jekat, Ralf Klabunde“. Kvankam la libro havas 650 paĝojn mi rapide rimarkis, ke ĝi nur tuŝas temojn, kiuj min interesis. Poste mi ofte traserĉis la reton je informoj pri komputila lingvistiko. Oni nur tre malfacile trovas ion, kiu ne nur tuŝas la temon. Tre helpa estis por mi la Internet Grammar of English, kiu tre klare kaj sisteme priskribas la sintaksan analizon. Pri teknikaj eroj mi plej profunde legis en dokumentaro de sistemo Natural Language Toolkit.

Nun mi decidis ne plu aktive disvolvi la programon, sed nur forigi la erarojn kaj dokumenti la sistemon. Restas ankaŭ kelkaj funkcioj, kiujn mi volas programi, sed en tute la sistemo ne ŝanĝiĝos. Unue mi decidis prepari mallongan prezenton, kiu povus komprenigi ankaŭ al ne programistoj, kiel Esperantilo tradukas. Mi preparas nun la teknikajn priskribojn de programo kaj enmetas komentojn en la fontoprogramo.

Mi preparis la prezenton per programo „Impress“ de OpenOffice. Mi provis uzi multajn bildojn, kaj prezenti la bazan teknikon de programo.

9.12.2006

Nova eldono de Esperantilo 0.86 nun elŝutebla

Filed under: ĝenerale — artur @ 19:06

La plej grava novaĵo estas la montrileto de REVO-leksikono. Ĝi povas montri en eta montrilo la enhavon de REVO-leksikono. Mi ofte trovis la retan leksikonon ne tre komforta ĉe serĉado kaj navigado, kaj ĝi premisas la daŭran konekton al interreto. Por ŝparo de memoro mi forigis de leksikono tekstajn fontojn kaj tradukojn. La montrilo oferas ankaŭ la eblojn rigardi la ligojn, kiuj montras al iu vorto (navigado en ambaŭ direktoj). La funkcio estas simila al wikipedia „Ligiloj ĉi tien“. Mi uzis la fonton de REVO-leksikono, sed oni mem povas rekonstrui la leksikonan bazon de tiu fonto. Ĉar REVO uzas ankaŭ GPL-Permisilon, tio bone kunordas kun Esperantilo. Mi aligis ankaŭ statistikan frekvencan bazon de frazpartoj, kiun mi ankaŭ priskribis en mia blogo.

Mi ankaŭ multe laboris pri plibonigo de germana maŝina tradukado. Sed konstante la plej bonan kvaliton liveras pola maŝina tradukado.

Nun la literumado povas ankaŭ proponi sugestojn por misskribitaj vortoj. Ĉar mi enhavigis en Esperantilo la literumilon Hunspell, Esperantilo povas nun literumi aliajn lingvojn kaj uzi listojn de vortoj de OppenOffice projekto. Uzantoj, kiuj jam uzas OppenOffice, kaj jam instalis aldonajn vortarojn, povis ilin anonci en Esperantilo.

Plena listo de ŝanĝoj:

  • nova funkcio: REVO-montrilo
  • nova funkcio: Statistika uzado de vortoj en frazpartoj
  • nova funkcio: literumado de aliaj lingvoj helpe de Hunspell literumilo
  • nova funkcio: propono de sugestoj ĉe literumado
  • transformilo de teksta enkodo subtenas nun ankaŭ enkodon de REVO-leksikono
  • novaj lingvistikaj analiziloj: datumbazo de frazpartoj, disigu en radikitaj frazoj
  • pli bona sintaksa analizo: vorteto „kiel“
  • erarforigo: fleksio de vortoj ĉe ŝanĝo de sinonimo en interaktiva tradukado
  • multaj plibonigoj de maŝina tradukado al germana lingvo
  • kelkaj plibonigoj de maŝina tradukado al angla kaj pola lingvo
  • korektoj kaj plivastigoj de vortaroj (ĉefe germana vortaro)

Kiel kutime mi atendas raportojn pri programfuŝaĵoj kaj proponojn de venontaj funkcioj.

6.12.2006

Ordo de frazpartoj en pola lingvo

Filed under: pola lingvo — artur @ 21:49

Simile al Esperanto ordo de frazpartoj en Pola lingvo ne estas strikte difinita. Ĉiuj subaj frazoj estas gramatike korektaj.

  • Frato amas fratinon. Brat kocha siostrę.
  • Fratinon amas frato. Siostrę kocha brat.
  • Frato fratinon amas. Brat siostrę kocha .

Sed tio ne signifas, ke la ordo estas en pola lingvo tute sensignifa. Ŝajnas, ke ekzistas kutima ordo, kaj ordo, kiu per pozicio de iu elemento, emfazas ion. Kiam mi aŭtomate tradukis frazojn de Esperanto al pola lingvo, la programo ne ŝanĝis la ordon de frazpartoj. Tio rezultigis malofte nekutiman tradukon al pola lingvo. La kutima ordo de Esperanto diferencas do de kutima pola ordo.

Kelkaj ekzemploj:

  • Kio estas tio. Co jest to? (kutime) Co to jest? (Kio tio estas)
  • Patro konas lin. Ojciec zna go. (kutime) Ojciec go zna (Patro lin konas.
  • Frato ofte lavis sin. Brat często mył się. (kutime) Brat często się mył. (Frato ofte sin lavis)

En Esperanto la kutima ordo estas Subjekto+Verbo+Objekto. Inter tiuj ĉefaj elementoj povas esti enmetitaj aliajn adjektojn.

  • Mi ofte programas vespere.
  • En la lasta jaro li finigis sian laboron.

En pola lingvo tiu ordo ankaŭ estas la kutima, sed ŝajnas, ke ekzistas kelkaj aliaj aldonaj reguloj. Mi povis rimarki sekvajn regulojn.

  • En pola lingvoo oni evitas personajn pronomojn kaj tablovortojn en la fino de frazo.
  • Oni ankaŭ evitas refleksivan pronomon „się“ („sin“) en la fino de frazo.
  • Ĉe demandoj verboj ofte okupas la lastan lokon.

Subjektiva frazparto

En pola lingvo ambaŭ variantoj de priskribo de substantivo per adjektivo estas kutimaj

  • fama libro – słynna książka
  • libro fama – książka słynna

Sed ekzistas malgranda diferenco inter tiuj du ebloj. La modelo „Subjekto+Adjektivo“ estas uzata plej ofte, kiam la esprimo difinas konkretan klason de aĵoj.

  • sistemo komputila – system komputerowy
  • libro scienca – książka naukowa

Tio okazas plej ofte, kiam la adjektivo devenas de substantivo. Adjektivigo de substantivoj estas en pola lingvo tre kutima. En esperantilo adjektivoj, kiuJ devas stari post la substantivo estas speciale markitaj en vortaro per priskribo „def“ en kampo „gramatiko“ de adjektivo. Interese, ke en Esperanto ne ekzistas ĝis nun tiu kutimo.

En germana liNgvo la adjektivigo de substantivoj ne estas ĉiam ebla. Ni havas do:

  • sistemo komputila – Komputersystem
  • libro scienca – wissenschaftliches Buch

En la vortaro de Esperantilo por vorto „komputila“ ekzistas traduko „Komputer~“. Tio signifas, ke oni povas uzi
nur vortfaradon ĉe tiu vorto.

Nekutima ordo en pola lingvo

Per ne kutima ordo en pola lingvo oni ofte volas fabriki iun specifan stilon. Ofte per nekutima ordo oni simulas maljunan polan lingvon (Ekzemple tiu de romanoj de Sienkiewicz).

  • Nieszczęście by chyba waćpanu taka służba przynieść mogła.
  • Od dwóch już miesięcy Zaporożcy saletry mi nie puszczają, którą od Czarnego Morza przywozić trzeba.

Mi pensas ankaŭ pri filmo „milito de astroj“ kaj la parolmanieron de majstro „joda“ (Yoda). Priskribon de ordo de frazpartoj oni vane serĉas en polaj gramatikaj libroj. Mi ofte povis trovi nur rimarkon, ke la ordo estas libera. Tio estas tute alia por lingvoj kun tre rigida ordo kiel angla lingvo. Ĝenerale oni povas trovi en la reto nur malmultajn informojn pri pola lingvo. La plej bona retejo, kiun mi trovis, estas farita de hobiulo. Gramatyka języka polskiego.

En tiu kazo la pola lingvistiko ne liveras necesajn informojn por praktika aplikado en komputila lingvistiko. Mi rimarkis, ke nur por tiel nomataj grandaj lingvoj onI trovas en la reto sufiĉajn informojn. Kvankam pola lingvo ne estas tiel malgranda, la kvanto de informoj pri pola lingvo estas tre malgranda kompare al germana aŭ rusa lingvo. Mi eĉ ne pensas pri vere malgrandaj lingvoj.

Mi mem ofte ne estas tute certa, kiu ordo en pola lingvo estas kutima, ĉar ofte ekzistas grandaj regionaj diferencoj.

Kutima kaj nekutima ordo en Esperanto

Estas tre malfacile diri, kiu ordo estas kutima por Esperanto. Estus eble tre interesa tasko, pritrakti tiun temon laŭ statistikaj metodoj. Nun mi ne bezonas tiujn informojn, sed por preciza sintaksa analizo, tiu povas esti necesa.

Dispartigitaj frazpartoj

Penseblaj sed maloftaj estas en esperanto sekvaj frazoj.

  • [Tre bonan] mi legis [libron] hieraŭ. (tre bona libro)
  • [vin] mi volas [renkonti]. (renkonti vin)

La dispartigon oni povas observi ĉe np-frazpartoj (adjektivo+substantivo) kaj ivp-frazpartoj (infinitivaj verbaj frazpartoj). En pola lingvo tiun dispartigon mi trovas pli ofte ol en Esperanto kaj kutime en respondoj.

  • Kian libron vi legis? Bonan mi legis libron.

La sintaksa analizilo de esperantilo tute ne povas analizi tiajn frazojn kaj mi ne planas tiun eblon en la venonto. Bedaŭrinde la strukturo, kiu povus konservi tiujn informojn, estas pli komplika el teknika vidpunkto.

1.12.2006

La programado ne havas finon.

Filed under: programado — artur @ 21:08

Mi nun malrapide preparas la novan eldonon. La teknikaj novaĵoj estas pretaj. Nun mi testas la funkciadon de tuta programo. Ĝis nun mi ne tre atente pritraktis germanan lingvon, la kvalito de traduko estas malalta. La testado de tradukado iras laŭ suba metodo. Mi tradukas iun longan tekston kaj tralegas atente ĉiujn frazojn. La falsajn tradukojn mi kolektas. Poste mi analizas la erarojn. Unue mi rigardas la sintaksan analizon de fonta frazo poste mi analizas la rezulton. Mia programada medio XOTclIDE lasas al mi tre riĉajn eblojn observi la funkciadon de programo. Mi havas ilojn por inspektado de strukturoj.

Mi malkovras ĉiam ion novan. Hodiaŭ mi malkovris, ke sintaksa analizo malprava difinas la funkciojn de frazpartoj de tipo „kiom da (np)“. La funkcio de tiuj frazpartoj estas tre simila al frazpartoj laŭ modelo „multe da (np)“, pri kiu mi jam skribis en Problemoj kun frazparto de tipo “multe da …”. Mi feliĉe povis uzi la samajn strukturojn. Mi ankaŭ plibonigis la funkcion pro trovi subjekton kaj objekton. En frazoj de tipo „Kiom da libroj vi legis“, la „Kiom da libroj“ estas objekto. Frue la programo, kiu laboras de maldekstra flanko etiketigis la frazparton kiel subjekto.

Kiam la programo funkcios korekte?

Eble neniam mi atingas la seneraran staton de programo. Tio estas por mi normala konstato. Sed nun, kiam mi tralaboras miajn listojn, mi ofte ne scias, de kio mi devas komenci. La unua konsolo estas, ke unu eraro, kiun mi forigas, unu plibonigo povus pozitive influi la prilaboron de multegaj frazoj, grandaj tekstoj. Ĉiu eĉ eta plibonigo pligrandigas la kvaliton de programo. La lasta zorgo estas, ke ŝanĝoj en programo povus negative influi la funkciojn, kiuj frue korekte laboris. Mi ankaŭ volas labori efektive kaj distingi gravajn fuŝaĵojn de negravaj.

Powered by WordPress