Esperantilo Blogo en Esperanto pri projekto Esperantilo kaj komputila lingvistiko

20.3.2007

Gepatra lingvo, Ponta lingvo kaj Tradukado

Filed under: ĝenerale — artur @ 18:50

Mia gepatra lingvo estas pola lingvo, sed de multaj jaroj mi loĝas en Germanio. Mi forveturis Polandon, kiam mi havis 17 jarojn. Mi bezonis pli ol 2 jarojn por lerni la germanan lingvon por senĝene komuniki per ĝi. Tio estas averaĝa tempo por lerni la fremdan lingvon en iu ŝtato, do mi ne estas nek talenta nek maltalenta en tiu afero. Tamen ĝis nun, kiam mi jam loĝas en Germanio 16 jarojn, mi havas fremdan polan akcenton kaj eĉ ne sukcesis paroli tute senerare. Tio ne signifas, ke mia pola lingvo estas perfekta. Ankaŭ Poloj rapide rimarkas, ke mi havas ian strangan akcenton kaj ili ridetas pri miaj eraretoj. Mi havis grandan ambicion regi la germanan lingvo sur nivelo de mia pola lingvo. Mi tralegis la monton de germanaj libroj kaj eble mia provizo de vortoj estas pli granda ol tiu de averaĝa germano, sed tamen ĉiu infano tre rapide ekkonas, ke mi estas fremdulo. Interese estas, ke en germanaj kursoj de lingvo la bona prononcado preskaŭ ne estis la temo de lecionoj. Do homoj kun tre bona aŭdkapablo sukcesis paroli la lingvon kun korekta akcento, la aliaj estas eĉ post jaroj miskomprenataj. Germanoj ofte miras, ke iu fremdulo konas la tutan germanan literaturon kaj havas grandegan provizon de vortoj kaj tamen ne sukcesas elparoli la bazajn germanajn fonemojn (äöü). Post multaj jaroj mi ekkonis de mia edzino, ke la lernado de prononcado estas ebla kaj eĉ ekzistas profesiaj ekzercoj kaj metodoj por lerni tion. Mi miras do, kial la germanaj kursoj tiun temon preskaŭ tute ne pritraktas, kvankam la bona prononcado estus la granda kondiĉo por integriĝo en tiu socio.

Mi ne povas nur efektive diri, kiun lingvon mi nun pli bone regas. En mia profesia kampo, tio estas informatiko kaj ekonomio, mi pli volonte uzas la germanan lingvon. Ankaŭ mi ne sukcesos skribi oficialan leteron (eble peto al administracio) en pola lingvo, sed la burokratan germanan lingvon mi nun komprenas. Fakajn librojn mi plej volonte legas en germana lingvo, se ili estas tradukitaj de angla lingvo. La originalaj germanaj fakaj libroj estas ofte ne legeblaj pro troŝarĝata stilo. Kiam mi legas polajn fakajn librojn, mi ofte ridetas pri polaj fakaj vortoj. Nun mi havas nur malofte la okazon paroli per pola lingvo. Ofte eĉ kun miaj malaltaj polaj geamikoj, kiuj ankaŭ loĝas en Germanio, mi parolas germane.

Nun mi uzas regule kelkajn lingvojn eĉ en unu tago, kvankam mi ne estas tradukisto kaj lingvo ne estas mia profesio. Mi parolas per rusa lingvo kun rusaj programistoj, mi devas krei kaj legi dokumentaron en angla lingvo, en ĉiutaga vivo mi plej ofte uzas la germanan lingvo, kun gepatroj kaj dum estado en Polando mi uzas la polan lingvo. Mi ne forgesas pri Esperanto, kiun mi uzas precipe nur por legado de artikoloj en la reto. Librojn mi legas plej volonte en germana kaj pola lingvo. Tiujn lingvojn mi uzas do diversmaniere kaj por diversaj kialoj. Tio estas eble nenio malkutima en nia hodiaŭa tutmondo. Interesaj estas por mi la observadoj rilate al germana kaj pola lingvoj, kiuj estas la plej gravaj en mia vivo. Mi kelkfoje miregis, ke la sama teksto, kiun mi legis en pola lingvo kaj en germana lingvo, efikas sur mi alie. Tio ne dependas ankaŭ de kvalito de traduko. La informoj (enhavo) de tekstoj estas la samaj, tamen post la legado mi havas aliajn sentojn al la temo. Ĝenerale la germana teksto havas pro mi alian signifon ol la pola teksto. Tiu signifo kuŝas en kampo de emocioj kaj efektive oni tre malfacile povas tiun fenomenon klarigi. Mi eble pli bone komprenis tiun, kiam mia edzino, kiu ne estas Polino, foje diris el mi en mia gepatra lingvo: „Mi amas vin“. Tio estis tute alia travivaĵo ol la sama frazo elparolata jam frue de la sama persono en alia lingvo.

Mi estas granda ŝatanto de pola aŭtoro „Stanisław Lem“. Antaŭe mi ne povis en Polando trovi ĉiujn liajn librojn, do mi komencis legi tiujn librojn en germanaj tradukoj. Kvankam mi povas diri, ke mi bone komprenas en germana lingvo, mi pli volonte legas la polan originalon. La libro en pola lingvo ŝajnas al mi esti tute alia libro. Por mi estas evidente, ke gepatra lingvo havas alian signifon ol ĉiu sekva lingvo. La ligoj de gepatra lingvo al emocioj estas pli grandaj, kaj oni ne povas ilin konscie kontroli. La gepatra lingvo kuŝas pli profunde en nia konscio. La alia pruvo estas ankaŭ la signifo de „fekvortoj“ pro fremlingvanoj. Mi lernis, ke kelkajn vortojn en germana aŭ rusa lingvo oni prefere ne uzu. Tamen, nur kiam mi uzus la polajn „fekvortojn“, mi sentus la enan honton.

La alian similan sperton mi havis kun la testado de maŝina tradukado de mia programo Esperantilo. Mi ofte tralegis la saman tekston en Esperanta lingvo kaj iom poste en pola lingvo, kiu estis maŝine tradukita. Kvankam la kvalito de traduko ne estas bona, tamen mi ofte miris pri la sento de teksto, kiun mi spertis nur en pola traduko. La diferencoj estas ju pli grandaj des pli grandaj estas emocioj ligitaj kun la teksto. Esperantan tekston, kiu priskribas la mizeron de homoj en iu lando, mi povas pritrakti politike kaj pragmatike. La kunsenton kun tiuj homoj mi havus pli ofte, se la teksto estus en gepatra lingvo.

Por mi estas tre evidente kiel grava estas por nia konscio la gepatra lingvo. Mi estas tre kontenta, ke Esperantistoj subtenas la gepatran lingvon, per tiu, ke ili subtenas la diversecon de lingvoj. Tio bone ludas kun koncepto de Esperanta lingvo kiel ponta lingvo. Sed tio ankaŭ montras al mi kiel limigita estas la efikeco de ponta lingvo kompare al gepatra lingvo. Efektive por atingi la homojn en tuta skalo oni devas traduki la tekstojn al gepatra lingvo. Vasta uzado de ponta lingvo sen tradukado plimalriĉigis la homojn je emocioj. Mi ne povas prijuĝi ĉiujn uzantojn de pontaj lingvoj. Mi ne scias, ĉu ekzistas Esperantistoj, kiuj per Esperanta lingvo povas senti tiel profunde kiel per gepatra lingvo. Ankaŭ nuntempe angla lingvo estas la plej ofte uzata ponta lingvo. Ĝi estas por multaj homoj ponta lingvo, sed teman ne plej konvena ponta lingvo. Mia supozo estas, ke la ponta lingvo estas nur bona helpilo, se ne ekzistas alia alternativo. Mi spertis, ke estas pli avantaĝe paroli kun rusoj ruse, eĉ se ambaŭ flankoj parolas bone anglan lingvon. La kazo, ke almenaŭ unu de flanko povas uzi la gepatran lingvon, estas pli avantaĝa ol ambaŭ flankoj devus uzi fremdan por si lingvon. La komuniko iĝas en tiu kazo pli vigla. Ekzistas kazoj, kiam oni konscie ne volas, ke emocioj estas gravaj, ekzemple ĉe intertraktoj, en tiu kazo la tute fremda lingvo aŭ ponto lingvo estas avantaĝa. Tio je estas escepta situacio. Mi mem ne kredas, ke komuniko sen emocia nivelo, estas vere plena komuniko. Fine ambaŭ flankoj de komuniko ne estos kontentaj. Se komuniko iĝas en bona volo kaj reciproka respekto, neniu flanko ne volas profiti je pli bona kono de lingvo. La argumento, ke ponta lingvo iĝas la flankoj de komuniko pli egala ĉe uzado de lingvo, estas nur ŝajna argumento, ĉar ĉiam ekzistas homoj, kiuj povas pli aŭ malpli bone paroli. En realo sen reciproka respekto la ponta lingvo ne estas utila.

Tie leviĝas la demando, ĉe la graveco de gepatra lingvo kaj maleblecoj de ponta lingvo estas konscia por Esperantistoj. Kiel kutime oni observas kelkajn fluojn. Iuj volas iĝi Esperanton samnivela lingvo al gepatraj lingvoj. La ekzisto de denaskaj parolantoj de Esperanto estas por ili grava argumento. Mi vere dubas, ke oni povas kompari denaskajn Esperantistojn kun aliaj denaskuloj. Unue por la gepatroj ofte Esperanto estas nur fremda lingvo, due gepatroj ne estas solaj, kiuj influas la lingvan evoluon de infanoj. La vasta familio, urbo kaj najbara socio havas poste pli gvidan rolon ol gepatroj. Nun ne ekzistas tia longdaŭra tute esperanta vasta medio por paroli pri denaskaj esperantistoj. Ankaŭ ĉe tiu afero ekzistas streboj transformiĝi la grupojn de interesantoj al veraj civitoj, kies gepatra lingvo estus Esperanto. En la simila direkto celas homoj, kiuj bonvenas la naturan evoluon de Esperanto, per kiu fine la Esperanto atingus la statuson de gepatra lingvo. Mi estas sufiĉe sindetenema al tiuj streboj, kvankam ĉiu estas libera tion fari. Oni ne uzu (aŭ misuzu) la pontan lingvon por krei novan naciecon, religion aŭ ismon. Por krei novan socion kun novaj pli bonaj homoj. Tio estas utopio. La alia grupo de Esperantistoj, kiu estas pli granda, vidas en Esperanto eĉ la solan eblon savi la gepatrajn lingvojn. En tiu kontesto mi ofte miras pri vasta kreado de arta literaturo en Esperantujo. Tiu havus ja nur sencon, se tiuj tekstoj en la ponta lingvo estus fine tradukataj al gepatraj lingvoj. En tiu senco Esperantistoj estus la elito, kiu preparas kaj tradukas tekstojn. Mi povas ja admiri la teknikon kaj formon de iu Esperanta poeziaĵo, sed neniam tiu poeziaĵo povus anstataŭigi la efikecon de gepatra lingvo. Ĉu poeziaĵo en Esperanto estas pura skribemo (pole: grafomania) aŭ nur antaŭstupo al fina traduko, mi tion ne scias. Efektive oni ne skribas en Esperanto por atingi la plej grandan grupon de homoj. Por mi la ĉefa taŭgeco de Esperanto estas tiu de ponta lingvo. Tiu lingvo taŭgas bone por efektive komuniki sur faka nivelo sen uzado de tradukistoj kaj peniga longa lernado. Tial mi pli atendus, ke Esperanto estus pli sukcesa en faka literaturo, scienco aŭ tekniko. Vere la plejmulto de Esperantistoj ne estas teknikistoj sed idealistoj kaj mondoplibonigistoj. Kaj por tiuj lastaj homoj Esperanto iĝis eĉ pli kara ol la gepatra lingvo. Paradokse estas tiuj idealistoj kaj ne praktikemuloj, kiuj savis tiun lingvon de morto. Oni ne atendu, ke por ĉiu homo Esperanto estus io pli ol ponta lingvo.

Mi ne atendas, ke la komunikado tra ĉiuj kanaloj (sur ĉiu nivelo) estas ebla per ponta lingvo. Tamen estas tre ĝojige, kiam oni spertas, ke oni povas direkte komuniki kun fremduloj per tiu grandega lingvo.

27.2.2007

Esperantilo en eldono 0.90 kun nova gramatika korektilo

Filed under: ĝenerale — artur @ 21:22

La ĉefa temo de tiu eldono estas la gramatika kontrolado. Tiu eldono havas preskaŭ komplete reprogramitan uzulan interfacon de gramatika korektilo. Mi esperas, ke tiu eldono estas la unua, kiu estos vaste uzata por gramatika kontrolado. Nun la gramatika kontrolado povas ankaŭ en kelkaj kazoj sugesti la korekton. La kvalito de mesaĝoj de korektilo estis plibonigita kaj la mesaĝoj estas nun pli konkretaj. Tiu denova okupo pri gramatika kontrolado estas eble rezulto de mesaĝgrupo Komputila lingvistiko kaj intereso de kelkaj personoj pri tiu temo. Eble iam ekestos ankaŭ aliaj interesaj korektiloj.

Mi aldonis ankaŭ tute novan funkcion de gramatika kontrolado. La uzanto povas nun direkte marki ĉiujn gramatikajn erarojn per butono en suba kampo de fenestro. Ĉiuj eraraj aŭ dubindaj vortoj estas markitaj. Se oni enigas per muŝo en la kampon de vorto, en la suba listo de mesaĝoj oni povas legi la erarmesaĝon. Per klako de dekstra muŝa butono oni povas selekti sugestan korekton kaj tuj korekti la tekston.

Kvankam mi multe testis la programon sur mia blogo aŭ blogoj de aliaj esperantistoj, tamen la funkciado de korektilo ne estas ĉiam kontentiga. Mi malkovris esperantajn blogojn kiel bonaj fontoj de malkorektaj tekstoj. Ankaŭ mesaĝgrupoj de TTT-ejo lernu estas tre bonaj por trovi nekorektajn tekstojn. Mi testis ankaŭ la programon sur hazardaj paĝoj de esperanta vikipedio, sed mi trovis entute nur kelkajn erarojn.

Ekzistas ĉefe du problemoj.

  • Programo ne trovas gramatikajn erarojn.
  • Programo plendas pri korektaj frazoj.

Mi lasttempe ĉefe laboris pri malplialtigo de falsaj mesaĝoj, sed tamen analizo de kompleksaj tekstoj faras problemojn. Por mezuri la kvalito de rezultoj oni uzas grandecojn konataj de Information Retrieval. Laŭ tiu difino Esperantilo havas ne tre bonan „recall“. Tiu estas nombro de mesaĝoj kompare al korektaj mesaĝoj. Tial la programo ne estas tre bona por komencantoj, kiuj povus esti konfuzitaj de malkorektaj mesaĝoj. La liston de ekzemplaj eraroj kaj mesaĝoj oni povas rigardi tie.

Ĉe tiu okupo mi plibonigis ankaŭ la sintaksan analizon. Nun la sintaksa analizo povas rekoni en kelkaj kazoj subfrazojn ankaŭ, se la frazo ne enhavas komojn. Tio havis ankaŭ pozitivan influon je kvalito de maŝina tradukado.

Kiel kutime mi korektis kelkajn programajn erarojn. Esperantilo enhavas nun la ilon por prepari erarajn raportojn. Se en Esperantilo okazos eraro, oni ekvidos novan fenestron, en kiu oni povas priskribi la situacion de eraro kaj krei dosieron kun raporto (en XML-formato). La raporto enhavas ankaŭ kelkajn teknikajn informojn (Stacktrace), kiuj helpas al mi trovi kaj korekti la eraron. Tiun dosieron oni povas sendi al mi.

15.2.2007

Nova eldono 0.89 de programo „Esperantilo“

Filed under: ĝenerale — artur @ 21:11

En la lasta temo mi regule preparis novan eldonon ĉiujn monaton. La ŝanĝoj ne estas grandaj, sed tio estas ja la trajto de programado en mallongaj paŝoj. En tiu eldono mi precipe plibonigis la polan tradukadon. Helpe de vikipedio kaj multaj testaj tradukoj kaj mana laboro mi plivastigis polan vortaron je pli ol 1000 vortoj. Mi forigis ankaŭ kelkajn erarojn, kiuj estis raportitaj de uzantoj. Dankon al ĉiu, kiu raportis erarojn.

Pola tradukado

  • Per vortaro de frazpartoj estas tradukitaj kelkajn frazaĵojn: iom post iom, ĉu ne, antaŭ ol, …
  • „pli kaj pli rapida“ -> „coraz szybszy“
  • „unu post la alia“ -> „jeden po drugim“
  • „unuj“ -> „jedni“
  • durativa aspekto ĉe infitivaj frazpartoj de verboj: komenci, fini
  • plibonigo de tradukado de vortoj kun streko (ekz: libro-vendado).
  • plivastigo de esperanto-esperanto vortaro kaj aŭtomata pola vortfarado kaj inversa esperanta vortfarado.

Sintaksa Anlizo

  • Plibonigo de analizo de infinitivaj frazpartoj.
  • Analizo de vorteto: unuj en rolo de pronomo.
  • aliaj malgrandaj korektoj

Aliaj ŝanĝoj

  • Gramatika korektado estis iomete plibonigita.
  • Nova analizilo de ligilojn en vikipedio inter artikoloj. Menuo: Lingvistiko->Vikipedio
  • Du novaj lingvistikaj analizoj: „Nekonataj tradukoj“ kaj „Gramatikaj eraroj“
  • Retestado de frazo ĉe gramatika korektilo

Korektitaj Eraroj

  • Misfunkcio de XML-Korektilo
  • Kelkaj misfunkcioj ĉe uzado de Hunspell kiel literuma vortaro.

Mi atendas kiel kutime erar-raportojn kaj komentarojn.

19.1.2007

Nova eldono 0.88 de programo „Esperantilo“

Filed under: ĝenerale — artur @ 21:40

Novaj funkcioj

  • Korektado de HTML paĝoj per ekstera programo HTML Tidy.
  • Ĉiuj preferaĵoj povas estas redaktata en unu dialogo (menuo; Prefaraĵoj->Redaktu prefaraĵojn)
  • Gramatika kaj stila korektado laŭ ekzemploj (pri koncepto legu blogon)
  • Pola traduka vortaro estas plivastigita je 3000 vortojn. La tradukojn estas plejparte trovitaj aŭtomate laŭ reguloj de pola vortfarado.
  • Oni povas nun precize difini la literojn uzatajn en redaktilo.
  • Esperantilo enhavas nun aldonajn enkodojn de Tcl-programlingvo.
  • Plibonigo de gramatika korektado.

Sintaksa Anlizo

  • Korekta analizo de duopaj frazkondikiloj „krom ke, malgraŭ ke, sen ke“
  • Analizo de infinitivaj priskriboj de adjektivoj kaj substantivoj: „preta labori, ordono ataki“. Tiuj adjektivoj kaj substantivoj devas estas speciale markitaj en esperanta vortaro.

Maŝina Tradukado al Pola Lingvo

  • Uzado de esperanto-esperanto vortaro ĉe tradukado
  • Substantivigo de verboj ĉe traduko de subfrazoj: „sen + INF, krom + INF“.
  • Aŭtomata derivo de „eto“-substantivoj laŭ reguloj de pola vortfarado.

Forigitaj eraroj

  • Misfunkcio de navigada kroniko en REVO-montrilo.
  • Word-dosieroj povas esti denove tradukataj per tradukada asistento.
  • Misfunkcio ĉe enigo de multaj vortoj en traduka vortaro.
  • Aliaj malgrandaj korektoj

Dankon al KaGu kaj Enbor por testado kaj erarreportoj.

9.1.2007

lingvistiko, esperanto, komputilaj projektoj

Filed under: ĝenerale,lingvistiko,maŝina tradukado — artur @ 21:01

Ideo de maŝina tradukado ekzistas ekde apero de komputiloj. Maŝina tradukado kaj arta penso estis la revo de unuaj programistoj, eble ĉar tiuj temoj estus bone komprenataj por vasta publiko. Tradukado estas malfacila tasko, kiun povas plenumi nur kelkaj homoj post longa lernado. Tial komputilo, kiu tradukas, estus la pruvo por taŭgeco de komputiloj.

Ĉiu nun scias, ke ne ekzistas komputiloj, kiuj povas pensi aŭ traduki en nivelo de homoj. Longe post multaj fiaskaj projektoj, en kiuj oni perdis grandan kvanton de mono, eĉ specialistoj pensis, ke programado de tiuj sistemoj ne estas ebla. Historio de komputika lingvistiko bone priskribas la konata dokumento Machine Translation: past, present, future. Ofte eĉ Esperantistoj varbas por Esperanto kun argumento, ke maŝina tradukado ne estas ebla kaj neniam estos ebla. En tiu kazo oni ofte prezentas tre bizarajn frazojn, kiuj nur tre malfacile estas tradukeblaj eĉ por profesiaj tradukistoj. Mi estas certa, ke per similaj argumentoj oni povus ankaŭ pruvi, ke tradukado ĝenerale ne estas ebla. Sed la temo de komputila lingvistiko ne mortis kaj eĉ lastatempe bone progresas. Kvankam ne ekzistas perfektaj tradukaj programoj, la unuopaj eroj de komputila lingvistiko aperas pli kaj pli ofte. Preskaŭ ĉiu uzas nun literumadon en redaktiloj kaj komputilajn vortarojn. Ankaŭ „google“ estas ja infano de komputila lingvistiko.

Kial fiaskis tiom da projektoj pri maŝina tradukado?

Oni povus ĝenerale diri, ke komputilaj projektoj tre ofte fiaskas. La duono de projektoj neniam finiĝas kaj 75% de projektoj ne atingas la celojn. Ili estas pli multekostaj aŭ ne havas la necesajn planitajn funkciojn. La temo de maŝina tradukado havas aldonojn specialajn trajtojn, kiuj eĉ faras tiujn projektojn eĉ pli malfacilajn kaj pli riskajn. Tio estas:

  • Oni havas tre altajn atendojn. Oni volas programojn, kiuj regas multajn lingvojn, tradukas en reala tempo en multaj direktoj kaj povas kompreni diritajn vortojn kaj mem paroli.
  • Oni bezonas multajn specialistojn de diversaj kampoj
  • La baza lingvistika teorio, kiu estas praktike taŭga, ne ekzistis. La historiaj teorioj ne estis taŭgaj por multaj kazoj.
  • Lingvistikaj programaj postulas grandajn necesojn al komputiloj. Ĝis 1980 komputiloj ne estas taŭgaj por lingvistiko, ĉar ili ne havis necesan rapidecon kaj memoron. La haveblaj komputiloj en frua tempo estis tro multekostaj. Oni pripensu, ke eĉ baza vortaro havas 50000 vortojn. Prilabori, traserĉi aŭ redakti tiun kvanton de informoj estas por tiamaj komputiloj tre malfacila tasko.
  • La projektoj preskaŭ ĉiam komencis de nulo. Lingvistoj nenion sciis pri komputiloj, programistoj nenion sciis pri lingvistiko. Oni devus skribi programojn kaj solvi bazajn teknikajn defiojn. Lingvistoj devis krei taŭgajn teoriojn.
  • Ĉiu profesia projekto havas nur limigitan kvanton da rimedoj. La unua limo estas tempo. Oni devas havi rezultojn post unu aŭ du jaroj. Post tiu tempo la membroj de projekto komencas iom komprenis pri la temo de projekto.
  • Tiuj projektoj estis tro grandaj. Organizado de grandaj projektoj estas eĉ pli komplika ol la temo de projektoj. La respondeculoj ofte pensas, ke ĉiu problemo estas solvebla per aldonaj partoprenantoj de projekto. Konata programista anekdoto diras, ke laŭ tiu pensmaniero oni povus konstati: Por havi unu novan homon oni necesus unu virinon kaj 9 monatojn da tempo. Oni povus duonigi la tempon havante du virinojn.
  • Ne ekzistis komputilaj materialoj, kiujn oni povis uzi de komenco.

Mi pensas, ke la unua problemo estas, ke la projektoj volis sole atingi ĉion. Oni ne provis dividi la taskon en multaj kampoj. Kvankam projektoj fiaskas, ili ofte lasas multajn rezultojn aŭ eĉ solvojn de unuopaj problemoj. Sed por monaj kaŭzoj estas ofte maleble transdoni tiujn rezultojn al sekvaj projektoj. Do multaj rezultoj malaperas en arkivoj por ĉiam. La projektoj malaperas, kvazaŭ ili neniam estis. En plej bona kazo restas de tiuj projektoj malgranda raporto aŭ scienca laboraĵo, sed vortaroj aŭ programa kodo, ĉio ĉi malaperas por ĉiam.

La unuaj projektoj estis pagitaj de militaj fortoj, ĉar ili bezonis maŝinan tradukadon por spionado de aliaj landoj. Tial la rezultoj de tiuj projektoj estis ŝtataj sekretoj. En universitatoj, kiuj ankaŭ havis lingvistikajn projektojn, oni uzis por projektoj studentojn, kiuj ne estas bonaj spertaj programistoj kaj ofte forlasis la projekton post unu aŭ du jaroj. Tio estas tro mallonga periodo por efike produkti uzeblajn rezultojn. Komercaj projektoj fiaskis miaopinie precipe por kazo de mallonga tempo. Komercistoj pensas precipe nur en unujaraj periodoj de librotenado. Ĝis nun preskaŭ ne ekzistas merkato por partoj de solvoj de komputiko. Tiu kampo de komerca programado laboras laŭ maniero ĉio aŭ nenio. Ĉu iu memoras pri sistemoj kiel Amiga OS, OS/2 aŭ diversaj aliaj programoj, kiuj por ĉiam malaperis, kvankam ĝi rulis bone kaj estis uzeblaj. Ĝis antaŭ mallonga tempo ŝajnis, ke en tiu komerca kampo povas esti nur unu gajninto. Tio estas aŭ IBM aŭ MS. Sed nun ekzistas alia komputila mondo de liberaj programoj. Do estas eble ruli la tutan sistemon nur per libera programaro.

Lingvistikaj projektoj. Ĉu problemo de interkomunikado?

Programistoj kaj lingvistoj devenas el tute aliaj kampoj de scienco. Ili havis alian manieron solvi la problemojn. Mi pensas, ke malbona kunlaboro inter lingvistoj kaj programistoj estas ankaŭ granda kaŭzo de malsukcesoj. Programistoj devenas de scienca kampo de matematiko. Ili serĉis laŭ matematika maniero la mallongan precizan formulon, kiu estas vera por ĉiu kazo. La akademia teorio de lingvistiko estas plena da logikaj formuloj, kiuj preskaŭ malestas en praktika uzo. La naturajn lingvojn oni ne povas priskribi per simplaj formuloj.

En komputilaj projektoj oni kutime havas du grupojn de homoj. La unua grupo estas tiel nomataj teknikaj fakuloj. Tio estas programistoj. Alia grupo estas fakaj specialistoj, kiuj scias iom pri temo de projekto. La sukceso de projekto dependas ofte de ebleco de lernado de du grupoj unu de alia. Programistoj devas lerni de fakuloj kaj fakuloj devas lerni de programistoj.

Lingvistoj devenas de humanecaj sciencoj, simile al filozofio aŭ literaturo. Por ili lingvo estis historie io sakra, io magia, io, kion oni ne nepre devas logike kompreni. Lingvistoj pritraktas lingvojn kun preskaŭ religia maniero. Ili akceptas misterojn kaj nelogikajn esprimojn. Ili ne pruvas. Ili ŝategas debati pri kuriozaĵoj. La argumento de aŭtoritato estas pli grava ol logika pruvo. Lingvistikaj teorioj estis do frue tute maltaŭgaj por programistoj, kiuj devas ja liveri pragmatikajn kaj praktikajn rezultojn. Mi pensas, ke nova generacio de lingvistoj iom post iom lernas uzi sciencajn metodojn en lingvistiko. Ili uzas statistikon, pruvas la rezultojn sur grandaj tekstaroj. Ili lernis ordigi la teorion laŭ ofteco de uzebleco. Kuriozaĵoj ne plu rolas gravan rolon en teorioj. Ili eĉ lernis uzi la komputilon kaj permesas al la aliaj tuŝi ilian sakran lingvon.

Sed ankaŭ la sinteno de programistoj kun rigida matematika fundo estas malutila por lingvistikaj projektoj. Bonan priskribon de takso de programado donas al ni Kulturaj aspektoj de komputil-programado. Programistoj atendis de natura lingvo similajn trajtojn, kiel ili tion konas de programaj lingvoj. Pritrakti naturajn lingvojn estas unue la arto administri esceptojn. Tial oni ne povas atenti iun formulon, kiu priskribas ĉiujn fenomenojn de lingvo.

La kutimaj problemoj, kiujn frontas programistoj, estas ankaŭ aliaj ol tiuj de lingvistiko. Kutime rezultoj de programoj devas esti tre certaj. Oni pripensu komputilaj sistemoj, kiuj de multaj jaroj laboras en bankoj aŭ en komerco. Komputiloj regulas multajn sistemojn. Ili konservas grandajn datumojn. Ili devas esti sekuraj kaj certaj. En lingvistiko, la problemoj estas ofte ne certaj. La problemoj havas statistikan naturon. En komputiko, ĉiu esprimo estas aŭ vera aŭ malvera. Naturaj lingvoj ne havas tiujn trajtojn. Tial lingvistikaj programoj devas prilabori datojn, kiuj enhavas erarojn, kiuj ne estas tute analizeblaj. Rezultojn de maŝina tradukado oni nur malfacile povas pritaksi, ĉar eĉ tradukoj de homoj estas diskuteblaj. Ne ekzistas objektiva mezuro de kvalito de tradukado.

Natura lingvo sekvas la statistikajn principojn de naturaj fenomenoj. Ekzemple oni povas kun 10 simplaj reguloj bone priskribi 80% de tekstojn, por restajn 10% oni bezonus 20 regulojn, kaj por lastaj 10% de tekstoj oni bezonus tute alian teorion kaj por multaj homoj tiuj frazoj estus diskutindaj rilate al ilia korekteco. Tiu fenomeno estas konata sur la nomo principo de Pareto

Komputila lingvistiko en nuna Stato

Lingvistoj kaj programistoj multe lernis de fruaj malsukcesoj. La nunaj sciencaj laboraĵoj havas altan praktikan taŭgecon. Ekzistas sukcesaj projektoj, kiuj pritraktas nur unu limigitan kampon de lingvistiko. Aliaj projektoj povas uzi la rezulton de aliaj projektoj. Por tio pli grava estas ankaŭ la libera programado, kiu sen monaj komplikaĵoj permesas uzi fruajn rezultojn de aliaj projektoj. La GPL permesilo garantias, ke la laboro de homoj iĝas parto de homa heredaĵo kaj ne malaperas en iu tirkesto. Tiu laboro ne povas esti ankaŭ misuzata de komercaj firmaoj. Sed ĉiam ekzistas danĝero, ke grandaj komercaj fortoj, kiuj por iĝi pli granda uzas iliajn plej danĝeraj armilojn, tio estas advokatoj, por malpermesi al aliaj ian aktivadon kaj pensadon. La plej malnobla kaj malverplena ilo en monoj de advokatoj estas softvaraj patentoj.

Malkontentiga estas ankaŭ komercigo de universitataj projektoj. Kvankam multaj universitataj projektoj estas financitaj de publika mono, kiu devenas ja de niaj impostoj, la rezultoj de tiuj esploroj ne estas libere atingeblaj. Do por angla lingvo ekzistas la libera semantika mapo de vortoj WordNet, sed la simila projekto por eŭropaj lingvoj EuroNet estas atingebla nur je granda prezo. Multaj universitatoj kunlaboras en tiu kampo kaj interŝanĝas la rezultojn de iliaj esploroj senpage, sed tio ja signifus, ke nur universitatoj rajtas esplori science laŭ sciencaj principoj, laŭ kiuj ja la scienca kono estas publika bono. Fine tiu komercigita scienco helpus al neniu kaj rezultoj, kiuj ne estas atingeblaj en vero ne ekzistas.

Kompreno de aŭtoraj rajtoj ĉe lingvistikaj fontoj povus esti malfacila problemo por komputila lingvistiko. Ĝenerale lingvo ne apartenas al iu speciala ulo. Zamenhofo ankaŭ igis Esperanton publika bono kaj li rezignis pri aŭtoraj rajtoj de Esperanto. Sed tio ne estas certa afero ĉe vortaroj. Vortaro estas unue la propraĵo de eldonejo. Ĉu vorto, kiu aperas en vortaro iĝas aŭtomate propraĵo de eldonejo. Ĉu iu frazo, aŭ iu speciala uzo de vorto estas propraĵo de aŭtoro de tiu frazo. Por eviti tiujn problemojn mi nur uzas liberajn fontojn kiel REVO ĉe mia programado. Povus esti, ke aliaj fontoj estas pli bonaj, sed uzo de tiuj fontoj estas malrekomendinda. Ni pripensu do la situacion. Mi korektis la internan vortaron en programo laŭ priskribo de profesia vortaro en tradicia libra formo, kiun mi aĉetis je normala prezo. Ĉe unu vorto tio ja ne estas problemo, sed se mi tion faris ĉe 100 aŭ 1000 vortoj, mi povas havi problemojn, ĉar iu povas akuzi min, ke mi ŝtelis la parton de vortaro. Tiu povos esti tre granda problemo ĉe Esperanto, ĉar tiu lingvo estas nova kaj konstruita, kontraŭe al naciaj lingvoj oni povus trovi la kreinto de iu vorto, frazo kaj speciala gramatika uzo. Mi esperas, ke mi ne havos tiun problemon, ĉar nek la programo nek Esperanto iĝos tiel popularaj, ke iuj komercistoj havos interesojn financi advokatojn por malkonstrui tiun projekton. Eble pro normalaj uloj tio ĝenerale ŝajnas tre malebla afero, sed tio bedaŭrinde ofte okazas ĉe programado.

Ekestis tamen pozitivaj aferoj. Multaj komercaj firmaoj publikigas la rezultojn de ilia laboro laŭ GPL permesilo. Ekzemple tre konata programlingvo JAVA iĝis lastatempe la parto de libera programaro. Memkompreneble, la firmaoj faras tion en situacio, kiam ili ne povas venki la komercan konkuranton kaj per tiu paŝo, ili volas minimume malfortigi la konkuranton. Sed firmaoj ankaŭ rimarkis, ke malfermo de projektoj pozitive influas la projektojn kaj tamen lasas al ili la eblojn perlabori monon per aldonaj servoj. Ankaŭ granda lingvistika projekto Open Logos iĝis malferma. Tio estas tre kontentiga afero, ĉar fontoj, kiuj unue iĝas parto de libera programado ne povas esti enproprigitaj de iu, do ili fariĝas la parto de homeca heredo.

Nun ekzistas multaj fontoj en interreto, de kiu oni povas elĉerpi la scion pri lingvistiko. Okulfrape estas, ke precipe nur pro angla lingvo ekzistas kompleta oferto de solvoj. Malfeliĉe angla lingvo estas la lingvo, kiu apartenas de komputila vidpunkto al la plej malfacila lingvo por komputila pritraktado. Tial la progreso estas tre malrapida. Tre kontentiga por mi estas la fakto, ke ankaŭ por pola kaj germana lingvo aperas bonaj fontoj. (pola gramatiko, Germana vortaro de sinonimoj) Ili estas ofte publikigaj de hobiuloj, sed kun bona kvalito.

Por grandaj lingvoj oni nun povus konstrui fortan sistemon de partoj, kiuj nun ekzistas. Programistoj scias, ke intergluo de moduloj, kiuj uzas diferencajn komputilajn teknikojn estas ofte tre malfacila tasko. Tial oni ne atendu rapidan progreson.
En komerca kampo ekzistas firmaoj, kiuj sukcesas vendi lingvistajn programojn al profesiaj tradukistoj je granda prezo. Kvankam profesiaj tradukistoj estas ofte plej grandaj kritikistoj de ideo de maŝina tradukado, ili mem ofte uzas tiujn programojn. Mi miras, ke ĝis nun oni pagas por tradukoj je tradukita vorto, kvankam ofte por kutimaj dokumentoj, la tradukistoj havas ja ŝablonojn kun preta tradukado sur iliaj komputiloj kaj ĉe „tradukado“ ili devas enskribi nur kelkajn nomojn kaj datojn. La profesia tradukado de oficialaj dokumentoj estas fabriko de mono, kaj tiuj homoj faros ĉion por longe havi tiun fonton de facila mono.

Oni ne esperu, ke profesiaj programoj aperas iam por Esperanto. Ne ekzistas oficialaj dokumentoj en Esperanto, kiujn oni devus traduki, do la neceso de tiuj programoj preskaŭ ne ekzistas. Nun nur kelkaj grandaj lingvoj estas entute pritraktataj de tiuj programoj.

Esperanto en komputila lingvistiko

Oni ofte parolas en Esperantujo pri taŭgeco de Esperanto por lingvistika komputiko. Tamen la rezultoj estas mizeraj. La principa kaŭzo de tio estas, ke projektoj, kiuj estas pagitaj de naciaj fontoj, ne volas subteni ne nacian lingvon. Esperanto povis ja ŝteliri en tiujn projektojn kiel interlingvo, sed verdire Esperanto ne estas el teknika vidpunkto bona interlingvo (legu). Mi ne pensas, ke tio ofte reokazos en la venonta tempo. Sed ekzistas projektoj en alia direkto, kiuj estas subtenataj de esperantista medio. Por mi la gravaj projektoj estas REVO, Tekstaro kaj PMEG. Esperanta vikipedio estas ankaŭ grava. Oni devas konstati, ke Esperanto konkurencas kun aliaj lingvoj en tiu kampo. Se oni komencas lingvistikan projekton, oni pritraktas, kiuj fontoj kaj solvoj estas nun uzeblaj kaj pretaj. En la unua flanko Esperanto promesas esti pli facila, en la dua flanko aliaj lingvoj (principe angla lingvo) havas pli da pretaj solvoj kaj fontoj. Mi pensas, ke ankaŭ en tiu kampo Esperanto jam malvenkis kun angla lingvo. Unue nun ĉiu programisto konas jam anglan lingvon, ĉar sen angla lingvo si ne sukcesis iĝi programisto. Due, kiu volas lerni novan kaj malofte uzatan lingvon de malgranda grupo por eksperimenti kun ĝi? Oni faras tion nur pro hobia intereso aŭ por lernado. La facileco de Esperanto ne povas konkeri la vastan aperon de angla lingvo en komputila lingvistiko. Mi pensas, ke nun la unua ŝanco per ia estado de Esperanto en komputila lingvistiko estas hobiaj projektoj kaj libera programado. En tiu situacio estas grave, ke ĉiuj fontoj estas publikigitaj laŭ libera permesilo.

Libera programado kaj komputila lingvistiko

Libera programado havis kelkajn sukcesojn en sia historio. La plej granda sukceso estas la libera mastruma sistemo linukso. Nun estas eble uzi komputilon, kiu rulas nur liberajn programojn. Tiuj programoj estas eĉ tiel grande sukcesaj, ke komercaj firmaoj, interesiĝas pri tiuj projektoj, kaj ne programistoj uzas tiujn programojn. Ĝis nun liberaj programoj estas skribitaj plejofte de programistoj por programistoj. Ili programis mastrumajn sistemojn, redaktilojn, programajn ilojn por sia ĉiutaga laboro. La natura lingvo estas por programistoj ne tre interesa. Tamen restas iama revo de fruaj programistoj programi komputilon, kiu pensas kaj kiu tradukas.

La defio de maŝina tradukado estas do interesa kaj konata por programistoj. Ĝis nun aperis jam kelkaj projektoj, kiuj aŭ rapide mortis aŭ ne estas aktive pluevoluigita (Traduki, Linguaphile, Translato). Tio estas normala afero. Plej ofte programistoj ne estas pretaj sole kaj por longa tempo prilabori unu temon. Ĉar ekestas tre multa kvanto de liberaj projektoj, oni nur tre malfacile povas trovi uzantojn kaj helpantojn. Ŝanco, ke iu projekto travivos la tempon de intereso de la unua aŭtoro estas tre malgranda. Komputilaj projektoj bezonas kutime kelkajn jarojn de maturiĝo. Tiu longa tempo estas necesa ĵus por lingvistikaj projektoj, ĉar en tiu tempo oni devas lerni vastan teorion. La maturiĝoestas ankaŭ necesa post reagoj de uzantoj. Estas tre malfacila afero programi programon, kiu estas facile uzebla. Por programistoj, iliaj propraj programoj estas ĉiam facilaj, tial ili nur malfacile rimarkas malfacilaĵojn pri uzebleco de programoj.

Projekto „Esperantilo“

Kiam mi komencis programi la unuajn liniojn de kodo por Esperantilo, mi neniam pensis, ke post du jaroj mi programos maŝinan tradukadon kaj pensos pri sintaksa analizo. Mi volis nur havi simplan redaktilon por vindozo kaj linukso, per kiu sen peniga instalado oni povas skribi tiujn strangajn esperantajn literojn. Poste mi pensis pri literumado kaj gramatika korektado, ĉar mi ĉiam forgesis la akuzativon. Mi skribis la programon unue por mi mem. Poste mi legis multe pri maŝina tradukado kaj ĝenerale pri komputila lingvistiko. Mi rimarkis, ke aŭtoroj ne estis bonaj programistoj, kaj ke ili tute ne konas novajn teknikojn de programado. En tiama tempo mi okupiĝis pri nova programa lingvo XOTcl kaj programada medio XOTclIDE, kiun mi antaŭe mem programis. Mi serĉis temon por pruvi la taŭgecon de tiu lingvo kaj programa medio. En miaj fruaj spertoj mi rimarkis, ke tiu programa lingvo permesas al mi pli efikan programadon. Mi ankaŭ trovis en interreto kelkajn materialojn pri Esperanto. Esperanton mi lernis frue tute hazarde de mia kolego kaj mi eĉ partoprenis la lokan kurson en urbo Essen. Mi ne iĝis membro de iu esperanta asocio. Mi trovis tre viglan REVO, MPEG kaj Tekstaron. Do mi ne devis komenci de nulo. Mi havis fontojn, kiujn mi povis uzi. Mi ankaŭ informis min pri similaj projektoj kaj ofte traserĉis la reton. Mi ne havas grandajn celojn kaj planojn, sed mi provis aldoni novajn funkciojn, kaj se ili funkcias, mi programas plu. Ĉar mi sciis, ke la risko, ke mi ne sukcesos, estas tre granda, mi de komenco elektis kelkajn strategiojn por malaltigi tiun riskon.

Mia programa metodo estas grande influata de tiel nomata Extrame Programming, kiun mi konis de programlingvo Smalltalk. La programa medio ebligas tiel nomatan interaktivan programadon. Laŭ tiu metodo oni povas ŝanĝi programon, kiu samtempe rulas. Tio estas tre helpema ĉe lingvistikaj programoj kaj tio instigas al eksperimentoj. Unue mi limigis la plej forajn celojn al tiuj, kiuj mi mem povas iam atingi. Do mi volis elpensi novan lingvon aŭ konstrui tute novan teknikon. Due mi difinis por mi kelkajn strategiojn:

  • La programo celas nur traduki de Esperanto kaj prilabori nur Esperantan lingvon.
  • La celaj lingvoj estas lingvoj, kiujn mi mem konas.
  • Mi ne kalkulas je helpo de aliaj je moto: „mi komencis ion kaj la aliaj tion finigis“.
  • Mi uzas jam konatajn teknikojn kaj teoriojn. Ĉar mi ne estas lingvisto mi ne volas eklabori novan sciencajn teoriojn.
  • Se tio estas ebla, mi uzas pretajn liberajn solvojn. Mi koncentriĝis pri specialaj esperantaj temoj, ĉar estas ne verŝajne, ke aliaj tiun faris.
  • La programo ĉiam devus esti uzebla por iu takso kaj liveri rezultojn. Poste la celo estas plibonigi la rezultojn. Mi celas evoluan progreson. Mi ne volis, ke la programo estas uzebla nur post kelkaj jaroj.
  • Mi publikiĝas samtempe ĉiujn rezultojn: vortarojn, fontan kodon, testajn frazojn.
  • Mi unue faras taskojn, kiujn nur mi mem povas fari. Do mi programas, sed mi uzas pretajn vortarojn. Mi mem ne kompletiĝas la vortarojn, ĉar tio povas fari poste aliaj. Mi plibonigas la vortarojn nur ĉe evidentaj eraroj.
  • Mi serĉas la dialogon kun uzantoj laŭ la maniero de libera programado.
  • Mi ne kunligas kun la programo iujn komercajn planojn kaj mi evitas ligojn kun komercaj medioj.

Esperantilo estas eksperimento, la programado povus ĉiam finiĝi, ekzemple ĉar mi ne vidus ŝancojn por plua evoluo aŭ mi ne plu ĝojus la programadon. Tial mi volas sekurigi la rezultojn de tiu projekto. Mi publikigas ĉiujn fontojn kaj vortarojn. Sekvaj projektoj povus tiujn fontojn uzi. Mi ankaŭ skribas tiun blogon por dokumenti la laboron. Ankaŭ, se la projekto estas hobia kaj malperfekta, ĝi povas esti fonto por kritiko kaj por komparo kun sekvaj projektoj.

Homoj sugestis al mi, ke tiu projekto estas tro ambicia, por hobia projekto de unu homo. Jes, mi certe tute same pritraktis tiun projekton frue, se iu donis al mi la planon programi ĝin. Sed nun mi jam pruvis por mi mem, ke estas eble pli ol mi tion pensis frue. Certe tio ne estas pruvo, ke la projekto progresas en simila tempo poste. En tiu projekto oni do ne pritaksu planojn sed faktojn. Kaj faktoj ne povas esti ambiciaj, ili estas veraj aŭ malveraj. Mi skribas tion, ĉar mi spertas, ke ofte eĉ uzantoj, kiuj iomete uzis la programon, ne raportas erarojn, ĉar ili pensas, ke la projekto ne havas ŝancon de pluevoluo.

Mi ankaŭ ne estas naiva programisto pri libera programado, ĉar mi havas longan sperton en tiu medio. Fakto estas, ke plej granda parto de projektoj vivas de unu persono, do mi devas fari ĉion sole. Programistoj, kiuj ĵus skribis kelkajn liniojn kaj poste varbas por aliaj programistojn devas seniluziigi, se ili esperas je granda helpo. La motivoj de programistoj de libera programado estas diferencaj, pura helpemo estas tre malofta. Oni certe ne povas kalkuli je helpemo de profesiuloj, ĉar ili vivtenas sin per ilia profesieco. Ankaŭ oni ne kalkulu je preciza kritiko, tio ankaŭ estus ja ia helpo.

En tiu tempo mi ankaŭ lernis multon kaj devis adapti miajn fruajn atendojn. Unue mi devis konstati, ke Esperanto estas natura lingvo kaj ne tre diferenca de aliaj naturaj lingvoj. Ekzistas kampoj en Esperanto, kiuj estas same komplikaj kiel en aliaj lingvoj. Do la facileco de Esperanto estas nur limigita en ceteraj kampoj.
Due mi rimarkis, ke la teorio de Esperanto ne estas fiksa. Ekzistas multaj diferencaj teorioj pri tiu lingvo kaj estas malfacile trovi klarajn respondojn pri detaloj. Ankaŭ la fontoj, kiuj estas atingeblaj en TTT, ne estas kompletaj.
Mi devis do ofte prilabori bazajn fontojn kiel vortaroj. Ĉar Esperanto estas tre nova lingvo kaj forte evoluas, ne ekzistas fiksa maniero de ĝia uzo. Esperantistoj ofte imitas sian gepatran lingvon. Tial la sintaksa analizo estas granda defio. La tre efika vortfarado en Esperanto malfaciligas samgrade la maŝinan tradukadon. Multaj statistikaj teknikoj de maŝina tradukado ne aplikebla por Esperanto, ĉar en tiu lingvo mankas sufiĉe grandaj paralelaj tekstoj (Tekstoj en du aŭ pluraj lingvoj). Sed tio estas ja normala prezo de naiva kaj hobia komenco.

La reagoj de uzantoj kaŭzas ofte pli da labore ol helpo. Sed ili estas necesaj kaj mi ĉiam respondas je leteroj de uzantoj kaj interesantoj. Mi ĝojas ĉiam pri la reagoj kaj mi povas diri, ke ĉiu, kiu skribas al mi, partoprenas en la projekto. Tiu blogo estas ankaŭ por mi la ilo por malplialtigi la laboron kun reagoj de uzantoj. Mi povos ja nun ofte respondi: Bonvolu legi la blogon kun numero tiu kaj tiu. Mia espero estas ankaŭ, ke aliaj programistoj malkaŝas por si mem, ke komputila lingvistiko ne estas tial senespere komplika kampo, kiel oni tion edukas.

29.12.2006

Nova eldono de Esperantilo – 0.87

Filed under: ĝenerale — artur @ 16:29

La eldono ne enhavas novajn funkciojn, Multajn malgrandaj plibonigoj kaj korektoj estas faritaj. Mi sugestas al ĉiu uzanto instali tiun eldonon, ĉar ĝi estas iomete pli matura.

Sintaksa analizo

  • nova branĉotipo ppinf por strukturoj kiel (por|sen|anŝtataŭ|krom) + inf; ekz: [por [vidi vin]]
  • vortetoj dum kaj ĝis estas depende de kazo pritraktataj kiel frazenkondukiloj (post komoj)

Pola traduko

  • kiel en identiga rolo estas tradukata al ‚jako‘
  • Pasintaj pasivoj estas tradukata kun verbo zostać.Ekz: Libro estas skribita -> Książka została napisana.
  • dum -> „gdy“„w czasie“ depende de kontekso
  • Numeraloj en formo ‚2-an‘ estas tradukata al ‚2‘
  • La verba aspekto estas elektitaj depende de adjektoj. Ekzemple: Mi helpis lin -> Ja pomogłem mu. Mi helpis lin du jarojn -> Ja pomagałem mu dwa lata.
  • ’ne plu‘ -> ‚więcej nie‘

Germana traduko

  • kiel en identiga rola estas tradukata al ‚als‘
  • por + inf -> um … zu …
  • Numeraloj en formo ‚2-an‘ estas tradukata al ‚2‘

Aliaj ŝanĝoj, forigoj der eraroj

  • Eraro en trovado de frazoj en traduka memoro estas korektita. Nun traduka memoro devas denove funkcii.
  • Ignorlisto ĉe literumado ankaŭ por aliaj lingvoj ol nur Esperanto.
  • Litergrandeco en rezultaj fenestroj estas same grande kiel en ĉefa redaktilo. Dankon al Enbor por rimarko.
  • Gramatika korektado estas plibonigita por akcepti pliajn korektajn frazojn sen raporti falsaj eraroj.
  • La fonta kodo de programo estas prikomentita
  • Multaj aliaj malgrandaj korektoj kaj plibonigoj

Raportu erarojn kaj dezirojn

9.12.2006

Nova eldono de Esperantilo 0.86 nun elŝutebla

Filed under: ĝenerale — artur @ 19:06

La plej grava novaĵo estas la montrileto de REVO-leksikono. Ĝi povas montri en eta montrilo la enhavon de REVO-leksikono. Mi ofte trovis la retan leksikonon ne tre komforta ĉe serĉado kaj navigado, kaj ĝi premisas la daŭran konekton al interreto. Por ŝparo de memoro mi forigis de leksikono tekstajn fontojn kaj tradukojn. La montrilo oferas ankaŭ la eblojn rigardi la ligojn, kiuj montras al iu vorto (navigado en ambaŭ direktoj). La funkcio estas simila al wikipedia „Ligiloj ĉi tien“. Mi uzis la fonton de REVO-leksikono, sed oni mem povas rekonstrui la leksikonan bazon de tiu fonto. Ĉar REVO uzas ankaŭ GPL-Permisilon, tio bone kunordas kun Esperantilo. Mi aligis ankaŭ statistikan frekvencan bazon de frazpartoj, kiun mi ankaŭ priskribis en mia blogo.

Mi ankaŭ multe laboris pri plibonigo de germana maŝina tradukado. Sed konstante la plej bonan kvaliton liveras pola maŝina tradukado.

Nun la literumado povas ankaŭ proponi sugestojn por misskribitaj vortoj. Ĉar mi enhavigis en Esperantilo la literumilon Hunspell, Esperantilo povas nun literumi aliajn lingvojn kaj uzi listojn de vortoj de OppenOffice projekto. Uzantoj, kiuj jam uzas OppenOffice, kaj jam instalis aldonajn vortarojn, povis ilin anonci en Esperantilo.

Plena listo de ŝanĝoj:

  • nova funkcio: REVO-montrilo
  • nova funkcio: Statistika uzado de vortoj en frazpartoj
  • nova funkcio: literumado de aliaj lingvoj helpe de Hunspell literumilo
  • nova funkcio: propono de sugestoj ĉe literumado
  • transformilo de teksta enkodo subtenas nun ankaŭ enkodon de REVO-leksikono
  • novaj lingvistikaj analiziloj: datumbazo de frazpartoj, disigu en radikitaj frazoj
  • pli bona sintaksa analizo: vorteto „kiel“
  • erarforigo: fleksio de vortoj ĉe ŝanĝo de sinonimo en interaktiva tradukado
  • multaj plibonigoj de maŝina tradukado al germana lingvo
  • kelkaj plibonigoj de maŝina tradukado al angla kaj pola lingvo
  • korektoj kaj plivastigoj de vortaroj (ĉefe germana vortaro)

Kiel kutime mi atendas raportojn pri programfuŝaĵoj kaj proponojn de venontaj funkcioj.

26.11.2006

Uzado de komoj en Esperanto

Filed under: ĝenerale,lingvistiko — artur @ 12:04

Komoj havas en sintaksa analizo tre gravan rolon. En esperantaj tekstoj ŝajnas, ke reguloj por uzado de komoj ne ekzistas. Oni povas trovi ankaŭ en tre konataj tekstoj ĉiujn eblojn de uzado. Mi ĝis nun ne trovis en iu esperanta gramatiko konkretajn regulojn por uzado de komoj. Tio estas en tradicio de fundamento, kiu tiun temon ankaŭ ne pritaksas. Ankaŭ tre ampleksa MPEG, priskribas komo nur tre malplene (vidu: Helposignoj). Kutime tiuj publikaĵoj ne volas altrudi regulojn, sed priskribas aktualan statuson.

Mi analizis multajn tekstojn kaj supozas, ke la uzado de komo devenas plej parte de nacia lingvo de aŭtoro. Poloj uzas polajn regulojn, la germanoj uzas germanajn regulojn. Malfeliĉe uzado de komoj en naciaj lingvoj estas tre varia. En rusa lingvo la reguloj estas tre rigoraj, oni uzas komon relative ofte. Germanaj kaj polaj reguloj estas tre similaj. Angla lingvo evitas komojn, kiam tio estas ebla kaj ankaŭ malpermesas la uzadon de komoj en lokoj, en kiuj la komo estas por aliaj lingvoj tre kutima (ekzemple vorteto „ke“-„that“).

La uzado de komo en esperantaj tekstoj estas vera koŝmaro por komputila prilaboro.

Ekzemplojn ‚ke‘ kaj ‚por ke‘

  • Mi estas ĝoja ke vi venis.
  • Mi laboras por ke mi havu monon.
  • Mi estas ĝoja, ke vi venis.
  • Mi laboras, por ke mi havu monon.

Kunmeto de adjektivoj

  • Mi havas grandan rapidan veturilon
  • Mi havas grandan, rapidan veturilon

Adjektoj

Por rusoj komo, kiu dispartigas adjektojn, estas kutima. Ĉe kiu oni farigas dum legado mallongan paŭzon, rusojn volonte enmetas komojn.

  • Hieraŭ vespere, mi bonan libron legis.
  • Hieraŭ vespere mi bonan libron legis.

Vortetoj ’sed‘,’kiel‘,’ol‘

  • Mi ne estas granda sed malgranda.
  • Mi ne estas granda, sed malgranda.

Kunligo de verbaj frazpartoj

  • Mi ne volis peze labori sed longe studi.
  • Mi ne volas peze labori, sed longe studi.

Relativaj subfrazoj

Por mi mankanta komo ŝajnas esti okulfrapa eraro. Sed por anglalingvanoj ĉiu komo estas evitenda.

  • Mi ofte legis libron, kiun li rekomendis.
  • Mi ofte legis libron kiun li rekomendis.

Nekutima ordo

Mi rimarkis, ke uloj en kies nacia lingvo la ordo estas tre rigida, ofte uzas komojn en lokoj en kiuj ili uzas ne kutiman laŭ ili ordon. Tiu estas por mi stranga afero, ĉar ili kutime tute komojn ne uzas.

  • Post tagmezo mi venis.
  • Post tagmezo, mi venis.

Esperantilo amas komojn

Por komputila analizo pli bone estas havi komojn ol ne havi ilin. Escepto estas nur trouzo de komoj laŭ rusa maniero. Do ne dispartigu per komoj adjektojn. Esperantilo povas majstri kelkajn mankantajn komojn ekzemple antaŭ vortetoj ‚ke‘ aŭ duopo ‚por ke‘, sed plej parte la analizo povas tute fiaski pro unu mankanta komo. Por Esperantilo ankaŭ estas pli avantaĝe skribi: La libro estas peza kiel ŝtono. anstataŭ La libro estas peza, kiel ŝtono.. Dispartigu per komo do nur verbaj frazpartoj, se vi uzas subfrazojn kun (sed, se, ĝis, dum, …). Mi ne povas altrudi al iu ajn uzadon de komoj, sed se vi volas sukcesi kun esperantilo pripensu vian interpunkcion.

15.11.2006

Frekvenca statistiko de frazpartoj

Filed under: ĝenerale,lingvistiko — artur @ 21:51

Mi jam longe okupas pri lingva statistiko. Por mi statistiko estas en lingvistiko ĉefe la metodo por diferenci malgravaj aĵoj de gravaj. Por Esperanto validas samaj statistikaj principoj kiel por naturaj lingvoj. La unua ekzerco estis la asemblo de frekventeca listo de vortoj. La listo estas tre utila, kiam ni volas racionale plivastigi tradukan vortaron. Memkompreneble oni aligas unue vortojn, kiuj estas plej ofte uzataj. Mi volis trovi esperantajn frazeologiojn, kiuj baziĝas sur frazpartoj. La ideo baziĝas sur tiel nomataj (germane: Kookurenz, Kollokation, engle: Collocation). Por atingi pli bonajn rezultojn mi ne uzis simplan modelon de najbara apero, sed analizis sintaksajn strukturojn. Por tiu mi programis programon, kiu povas ordoni vortojn laŭ kuna apero en cetera sintaksa strukturo. Mi asemblis datumbazon kun sekvaj rilatoj inter 2 aŭ 3 vortoj.

  • np-adj: bona homo
  • vp-subj: homo vivas
  • vp-adv: vivi longe
  • vp-obj: vidi homon
  • vp-pp: kredi je
  • adj-adv: maksimume rapida
  • vp-pp-sub: kredi je dio
  • sub-pp-sub2: ordono de patro

Mi analizis preskaŭ tutan korpuson de ESF Testaro. La rezulta datumbazo (1.3 MB) okazis tre multinforma. Unue mi volis uzi tiujn datojn por plibonigo de tradukaj vortaroj kaj konstruo de vortaro de frazpartoj, sed oni povus uzi tiujn informojn ankaŭ por aliaj celoj. Imagebla estis:

  • Vortara helpo ĉe skribado de tekstoj. Oni povus ekzemple tre rapide trovi, kiujn adverbojn oni povus uzi kun verbo skribi „ofte (5), denove (3), simple (3), bele (2), reciproke (2), regule (2), ĉiusemajne (2), akurate (1), antaŭe (1), bone (1), dumaniere (1), dume (1), eble (1), efektive (1), eksterlande (1), ekzemple (1), fakte (1), favore (1), fine (1), frue (1), germane (1), hejme (1)“
  • Asemblo de sugestoj ĉe literuma korektado.
  • Serĉado de stilaj eraroj aŭ hazardaj interŝanĝoj de vortoj.
  • Aŭtomata asemblo de tradukaj vortaroj. Oni povus asembli la similan datumbazon por nacia lingvo kaj kompari la rezultojn
  • Asemblo de senta karto kiel konata Wordnet
  • Derivo de gramatikaj reguloj. Ekzemple, kiujn prepoziciojn oni ofte uzas kun verbo „danki“ (pro (34), en (7), per (4), por (4), pri (4))

Ekzemploj por vorto: patro

np np-adj sankta (24), cikonia (23), kara (5), alia (4), malfeliĉa (4), propra (4), bona (3), cia (3), maljuna (3), pia (3), sama (3)
obj vp-obj havi (11), ami (7), demandi (4), trovi (3), rigardi (2), simili (2), vidi (2), viziti (2), timi (2), koni (1), ekvidi (1)
subj vp-subj esti (65), diri (29), veni (12), morti (9), fari (8), havi (8), povi (7), doni (5), rigardi (5), rakonti (4), dormi (4)
sub vp-pp-sub iri al (4), esti por (3), ricevi de (3), ĵuri al (2), fari por (2), fariĝi al (2), promesi al (2), esti de (2), esti kun (2), heredi de (2), skribi al (2)
sub sub-pp-sub2 de infano (6), de antono (2), de arne (2), de edzino (2), de maŭrico (2), de . (1), de amikino (1), de andreo (1), de anjo (1), de cindrulino (1), de fernando (1)
sub2 sub-pp -sub2 morto de (6), palaco de (5), tombo de (5), domo de (4), volo de (3), alveno de (3), nomo de (2), ordono de (2), kastelo de (2), kolo de (2), koro de (2)

Ekzemploj por vorto: patrino

np np-adj cikonia (25), malfeliĉa (9), juna (6), kara (6), pasera (6), propra (6), respektinda (6), alia (4), maljuna (4), malĝoja (3), mortanta (3)
obj vp-obj nomi (2), rigardi (2), ŝati (2), perdi (2), demandi (2), havi (2), helpi (2), koni (1), ekvidi (1), imagi (1), forgesi (1)
subj vp-subj esti (38), diri (32), rakonti (7), sidi (7), veni (6), fari (6), rigardi (6), ricevi (6), povi (5), komenci (4), devi (4)
sub vp-pp-sub iri al (3), esti por (3), sendi al (3), kaŭzi al (2), proponi al (2), fari al (2), senti al (2), sidi ĉe (2), skribi al (2), aŭdigi dum (1), subskribi al (1)
sub sub-pp-sub2 de arne (8), de filo (4), de johano (4), de vento (4), de valento (3), de gastono (2), de infano (2), de knabino (2), de matildo (2), de amikino (1), de emil (1)
sub2 sub-pp-sub2 tombo de (4), brako de (3), vizaĝo de (2), enterigo de (2), koro de (2), tiu de (2), brusto de (2), morto de (2), ĝardeno de (1), provo de (1), amo de (1)

Ekzemploj por vorto: lingvo

np np-adj angla (49), alia (43), fremda (30), germana (23), internacia (20), nacia (17)
obj vp-obj lerni (24), paroli (10), uzadi (9), kompreni (8), uzi (7), regi (6)
subj vp-subj esti (51), havi (7), povi (6), devi (5), nomi (3), resti (3)
sub vp-pp-sub esti en (19), esti el (4), ekzisti en (4), havi en (4), paroli en (4), aperi en (3)
sub sub-pp-sub2 de korniko (2), de unio (2), de amo (1), de armeo (1), de besto (1), de demando (1)
sub2 sub-pp-sub2 influo de (6), enkonduko de (5), evoluo de (3), elekto de (3), plimulto de (3), nomo de (2)

Ekzemploj por vorto: morti

vp vp-subj homo (9), patro (9), infano (7), birdo (3)
vp vp-adv poste (7), miskomprene (4), multe (4), subite (4)
vp vp-obj antimo (1), deziro (1), loko (1), sangocirkulado (1)
vp vp-pp en (45), pro (32), de (22), antaŭ (6)
vp vp-pp-sub de malsato (7), pro malsato (4), antaŭ jaro (3), da homo (3)

Ekzemploj por vorto: stulta

adj np-adj demando (2), rakonto (1), infanaĵo (1), knabo (1)

Frekventeca vortaro de frazpartoj iĝos parto de Esperantilo

Ĉar mi konstatis tiun ilon utila, tial la ilo iĝos parto de venonta eldono de programo. Kelkaj tre strangaj rezultoj estas certe kaŭzitaj de ne plene korekta sintaksa analizo.

8.11.2006

Kiu bezonas Esperantilon?

Filed under: ĝenerale,uzantoj — artur @ 19:59

Verdire pri tiu demando mi devis pensi, antaŭ kiam mi komencis programi Esperantilon. Mi mem bezonis etan programon kun kelkaj funkcioj, kaj tia programo ne ekzistis. Sed poste mi ekinteresiĝis pri komputila lingvistiko. Ĉu tasko de gramatika korektado aŭ maŝina tradukado estas realigebla kaj kiel mi tion povus fari? Mi volis ankaŭ testi, ĉu XOTcl kiel programa lingvo estas bona por tiu tasko. Tio estas plej ofte la ĉefa motivo de hobiaj programoj de libera programado.

Sed mi ankaŭ de komenco volis, ke tiu programo havas uzantojn. Uzantoj estas ankaŭ necesaj por senkostaj programoj, ne kiel pagantoj sed kiel uloj, kiu motivigas la programadon kaj helpas ĉe programado. Nombro de uzantoj estas indikilo por kvalito de programo. Bonaj programoj havas multajn uzantojn, kaj mi volas ja programi bonan programon.
Uzantoj helpas ankaŭ pli direkte ĉe programado. Helpe de iliaj reagoj, la programo progresas kaj plibonigas.
Por liberaj programoj uzantoj estas eĉ pli necesaj ol por profesiaj.

Ĉe profesia programado laboras multaj homoj, kiuj estas diferencaj specialistoj. Tiuj estas: kreintoj de konceptoj, manaĝeroj, arkitektoj, administrantoj, testantoj, aŭtoroj de dokumentoj, spertuloj pri merkato, uloj por mastruma propagando, kaj programistoj. En libera programado ekzistas nur du grupoj: uzantoj kaj programistoj (kaj ofte nur unu programisto). Uzantoj ofte rolas kiel aliaj specialistoj en profesiaj projektoj. Tio havas avantaĝojn por uzantoj kaj programistoj. La uzantoj havas senkostajn programojn kaj povas direkte influi la programadon, la programistoj povas libere programi kaj direkte influi la tempon por programado, metodojn kaj ilojn, kiujn ili uzas. Uzantoj de programo rolas kiel spertuloj pri konceptoj, ĉar ili ja plej bone scias, kion ili volas.
Ili estas testantoj. Ili propagandas por la programo, kiam la programo plaĉas al ili.

Mi do lastatempe pensas pri uzanto (aŭ uzantoj) de mia programo. La unuaj reagoj de uzantoj estas por mi tre neatendintaj kaj tial ankaŭ tre valoraj. Mi atendis, ke uzantoj bezonis pli bonan tradukadon aŭ volis havi ian specialan funkcion por lingvistiko. Sed la unua peto estis, ke mi faru pli grandajn literojn en programo, ĉar pli maljunaj homoj ne havas bonajn okulojn. Ofte uzantoj deziris aĵojn, pri kiuj mi neniam pensis.

La fakto, ke uzantoj de iu programo povas aktive partopreni ĉe ĝia kreado, estas pro multaj homoj nova kaj ne kutima. Multaj uloj havas komercan pensmanieron pri programado. Ili pensas, ke programo estas nur varo, por kiu oni pagas.
Se oni pagas por io, oni atendas ceteran kvaliton por tio. Se iu varo ne havas sufiĉan kvaliton, oni plendas pri la varo ĉe vendisto aŭ produktanto. Tiu pensmaniero kondukas al la konstato, ke oni ne rajtas plendi pri io, por kio oni ne pagis.

Tio ne agordas kun libera programado. Programoj estas kreaĵoj de penso, kaj havas similajn valorojn kiel aliaj kreaĵoj de penso. Ili povas esti valora por homaro kaj estas parto de ĝia kulturo. La uzantoj kaj kreintoj estas principe la samaj, ĉar ili estas eroj de homaro.

La uzantoj de programo ne nur rajtas plendi pri senkosta programo, por kiu ili ne pagis, sed havas eĉ moralan
devon tion fari.

La plendo pri programo, reporto pri misfunkcio, ne estas en libera programado io negativa. La raporto estas valora informo, estas partopreno en kreado. Per tio la uzanto faras per sia reago la samon, kiel la programisto. Li faris ion, eble ion bonan por komunumo, senpage.

Se vi trovis misfunkcion de la programo. Skribu al mi!
Se vi ne trovis deziratan funkcion. Skribu al mi!
Se vi uzas la programon. Skribu al mi!

Kiam mi pensas pri uzantoj de programo, mi ankaŭ devas pensi, kial ili uzas la programon?
Precipe mi devas koncedi, ke ne ekzistas multaj esperanto-parolantoj, kaj ke verkado en esperanto ne estas tre granda.
Mi supozas sekvajn grupojn de uzantoj:

Grupo Uzataj funkcioj
Komencantoj vortaro, korektado, baza maŝina tradukado
Lernantoj de esperanta lingvo  
hobiaj Esperantistoj vortaro, redaktado de HTML-pagoj, korektado
Progresuloj de esperanta lingvo. Ili verkas esperantajn tekstojn, kaj volas korekti ilin  
Lingvistoj vortaro, analizoj, maŝina tradukado
Volas prilabori per komputilo tekstarojn.  
Tradukistoj vortaro, maŝina tradukado, traduka memoro
Eble nur neprofesiaj tradukistoj, kiu volas traduki rapide tekstojn  
Programistoj fonto de programo, tekstaro, maŝina tradukado
Ili intereso estas maŝina tradukado mem kaj ankaŭ komputila lingvistiko. Ili povas esti studentoj aŭ hobiuloj  
« Newer PostsOlder Posts »

Powered by WordPress