Esperantilo Blogo en Esperanto pri projekto Esperantilo kaj komputila lingvistiko

11.4.2007

Roloj de vorto „eble“

Filed under: lingvistiko — artur @ 18:39

Korekta sintaksa analizo de Esperantilo estas tre grava por aliaj funkcioj. Do kvalito de analizo influas la taŭgecon de gramatika korektado kaj ankaŭ la kvalito de traduko. Ĉe uzado kaj kontrolado de programo mi iom post iom malkovras novajn strukturojn de esperanta lingvo. Ofte montriĝas, ke la primitiva dispartigo de specoj de vortoj inter: Substantivoj, Verboj, Adjektivoj, Adverboj kaj Numeraloj ne estas sufiĉe, se oni volas difini funkcioj de vortoj. Mi ofte devas pritrakti kelkajn vortojn tute speciale. Plej granda parto de tiuj specialaj vortoj apartenas al tiel nomataj primitivaj adverboj. Tiuj vortoj estas ekzemple: tro, ne, tre, eĉ, ankaŭ, ankoraŭ. La pritrakto de tiuj vortoj rezultas pli-malpli 50% de reguloj de sintaksa analizilo.

En la lasta tempo mia atento estas direktita sur la adverbo „eble“. Mi rimarkis, ke Esperantilo ne povas korekte analizi kelkajn frazojn kun tiu vorto. Tiu vorto ne nur rolas la kutimajn funkciojn de adverboj (priskribi verbojn, adjektivoj aŭ aliaj adverboj) sed povas priskribi preskaŭ ĉiujn vortojn. Mi donu kelkajn ekzemplojn.

Li eble estas en domo.
Li parolas pri eble granda libro.
Eble li parolas pri ŝi.
Li parolas eble pri ŝi.
Li parolas pri eble unu libro.
Li volas kiel eble plej grandan veturilon.
Estas eble fari tion.


La lasta ekzemplo de uzado de „eble“ en frazo: „Estas eble fari tion.“ ne estas tre ofta. Ĝi similas al germana: „Es ist möglich das zu machen“. Oni nun pli prefere uzas la varianton „Eblas fari tion.“. Interesaj estas kazoj, kiam „eble“ modifas la numeralon aŭ subjekton. La funkcioj de adverbo „eble“ similas tre al funkcioj de vorteto „ne“.

Li ne estas en domo.
Li parolas pri ne granda libro.
Ne li parolas pri ŝi.
Li parolas ne pri ŝi.
Li parolas pri ne unu libro.


Vorto „eble“ strukture havas tre fortan graviton sur la maldekstra pozicio. Nur prepozicioj estas pli fortaj: „Li parolas [eble [pri ŝi]]“. Adverbo „eble“ aperas ankaŭ kiel najbaro de aliaj primitivaj adverboj: „eble eĉ“, „eble ne“, „eble tro“.

Tradukado de vorto „eble“ al pola lingvo

Diferencaj funkcioj de vortoj ofte evidentiĝas, se oni provas traduki ilin al alia lingvo. Por pola lingvo ni devas diferenci 4 variantojn.

Li eble estas en domo. On może jest w domu.
Li parolas pri eble granda libro.
On mówi o przyposzczalnie wielkiej książce.
Estas eble fari tion. Jest możliwe to zrobić.
Li volas kiel eble plej grandan veturilon. On chce możliwie największe auto.

Aliaj similaj vortoj

Mi supozas, ke ankaŭ aliaj adverboj havas tiujn vastajn kapablojn. La kandidatoj estas vortoj: „verŝajne“, „certe“, „supozeble“, „ekzemple“, „ekzakte“. Ĉiuj tiuj vortoj esprimas certecon pri sekva esprimo. Tio kondukas al novaj strukturoj, kiuj ne bone kongruas kun tipaj frazpartoj. Mi traserĉos la tekstaron je tiuj vortoj.

26.2.2007

Uzado de vorteto „unu“ kiel tablovorto

Filed under: lingvistiko — artur @ 19:30

Vorteto „unu“ estas uzata en Esperanto en multaj funkcioj. Funkcioj de tiu vorteto ne limigas nur al tiuj de numeralo. Ni vidu la ekzemplojn:

  • Mi havas unu libron.
  • Ili venis unu post la alia.
  • Unu faras tion, la alia faras la alion.
  • Unuj ne konas tiun problemon.

En la tri lastaj ekzemploj ‚unu‘ estas uzata ne kiel numeralo sed kiel pronomo. Oni rapide tion povas konstati, se oni pripensu la ekzemplojn kun aliaj numeraloj. Ne ekzistas ja formoj: duj, dun, dujn. Tiu malkonsekvenco ofte ĝenis kelkajn Esperantistojn, do ili konstatis tiun uzadon kiel eraro. Iu Esperantistino, kiu konsilis min pri lingvo dum frua programado kaj kolektis la unuajn ekzemplojn de eraroj en lingvo esperanto, ankaŭ aldonis ‚unuj‘ kiel falsa uzado. Tiam mi jam asertis, ke ‚unuj‘ ŝajas esti kutima vorto en esperantaj tekstoj. La respondo estis tre rigida: „Ankaŭ se iu vorto estas ofte uzata, tio ne signifas, ke ĝi ne estas erara“. Poste la saman ekzemplon konstatis la alia Esperantisto (kreinto de fama PMEG) kiel tute korekta (vidu Diskutejo: „Komputila Lingvistiko“). Interesa en tiu diskutejo estas ankaŭ la mencio de analiza skolo: (citaĵo: „Mi konstatas, ke iu legis tro da libroj de la ‚Analiza Skolo'“). Verdire mi antaŭe nenion sciis pri ‚analiza skolo‘, kvankam mi mem delonge supozis multajn skolojn de esperantaj lingvistoj.

Dum kontaktoj kun multaj Esperantistoj mi ofte spertis, ke ili ofte proponas kaj asertas tute kontraŭajn konsilojn. Mi ne volas partopreni en la diskutoj de tiuj skoloj, sed mi sentas min kiel simpla uzanto de la lingvo kaptita inter multaj frontoj.

Mia tendenco de aliro al tiuj problemoj estas nuntempe statistika aŭ naturisma. La ĉefa (precipa) kazo de tio estas, ke mia programo devas analizi esperantajn tekstojn. Se mi ne akceptas kelkajn formojn, la programo malsukcesis korekte analizi (do traduki) la tekstojn. Ankaŭ se mia granda deziro estus, ke esperanta lingvo estus regula kaj logika, mi devas akcepti la realon de ekzistantaj esperantaj tekstoj. Tio estas ofte tre ĝena afero, ĉar kun ĉiu mallogika escepto la programado plimalfaciligas kaj la rezultoj de maŝina tradukado estas malpli bonaj.

Kvankam esperanto estas kreita lingvo, nun oni ne povas altrudi la regulojn de uzado al la uzantoj. Uzantoj de lingvo mem kreas ĝiajn regulojn. Evidente, post kiam la lingvo estis kreita kaj oni ĝin uzas, oni ne povus diri pri planita lingvo sed jam natura lingvo.

Reguloj de Esperanto

La plej gravaj reguloj de esperanto estas enskribitaj en unu dokumento, kion oni nomas „La Fundamento“. La Fundamento havas por esperantistoj preskaŭ sanktan signifon. Ĝi estas ofte prezentata kiel enkorpigo de reguleco, klareco kaj facileco de la lingvo. Sed se oni pensu ne pri tio, kion la fundamento diras, sed pri tio, kion la fundamento ne diras, la rezultoj de tiu dokumento estas magraj. Ĉu vere 16 reguloj povus esti sufiĉaj pro difini la lingvon aŭ eĉ ĝian fundamenton?

La fundamento diras nenion pri sintakso de lingvo. Oni vene serĉas informojn pri interpunkcio kaj aliaj gravaj reguloj. Mi pensas, ke ankaŭ Zamenhofo sciis pri tiu neebleco difini klarajn regulojn. Li do kreis longajn kelkspecajn tekstojn por doni ekzemplojn de ĝia uzado. En tiuj ekzemploj li uzis la vortetojn „unuj“. Kaj tie kuŝas la problemo. Tiu formo eble ne estas avantaĝa kaj ŝajne escepta, sed la majstro ĝin uzis. Ĉar la majstro ĝin uzis, ĝi estas la parto de lingvo.

Aliaj reguloj iom post iom kreiĝis de unuaj uzantoj de esperanto. Ili baziĝas sur heredaĵo de iliaj lingvoj, eŭropaj lingvoj. Multe pli tio, kio la Fundamento ne diras, oni hipotezas kiel kutima por aliaj lingvoj (lingvoj de kelkaj nacioj). Ĉu vere oni do povas nomi Esperanton la planita lingvo?

Malreguleco kiel ŝajna avantaĝo de Esperanto

Ne ekzistas neniu regulo pro tio, kiu suba frazo estas korekta:

  • Mi helpas al vi.
  • Mi helpas vin.
  • Mi dankas pro tio.
  • Mi helpas per tio.
  • Mi helpas je tio.

Ĉiu, kiu lernis iun fremdan lingvon, scias, ke oni lernu ankaŭ ne nur verbojn sed ankaŭ konvenajn prepoziciojn uzataj kun tiuj verboj.

Esperantaj lernolibroj diras, ke oni havas liberan elekton de iu formo. Ĉiuj estas korektaj. Tio estas tre kontentiga informo por lernantoj.

Esperanto estas tre juna lingvo. Kiel aspektos tiu kutimo en sekvaj jaroj? Se oni observis la evoluon de naturaj lingvoj, oni devas konstati, ke la naturaj lingvoj ne akceptas plurajn formojn, kaj finfine unu formo supervenkas la alian. Laŭ tiu principo kreiĝas dialektoj kaj poste tute aliaj lingvoj. Do tiu libereco estas nur portempa. Iam kelkaj nuntempaj frazoj sonas por venontaj Esperantistoj (se ili estos) tiel strange, kiel nun por Poloj sonas maljunaj polaj libroj.

Esperanto kiel venonta plej malfacila lingvo de mondo

La esperanta lingvo evoluas kaj ŝanĝiĝas (aliaj dirus, ke ĝi pliriĉiĝas). La nuna praktiko estas, ke ĉiu uzas la lingvon laŭ propraj manieroj de gepatra lingvo. Klareco kaj logiko ne estas gravaj. Tio nepre kondukos al la stato, ke Esperanto enhavos la strukturojn kaj lingvajn kutimojn de multaj tre diferencaj lingvoj. Ankaŭ la malfacileco de angla lingvo rezultas de multaj influoj de aliaj lingvoj. La angla lingvo estas miksaĵo de kelkaj lingvoj, kaj tiel ĝi estas malfacila.

Iu germano diris: Angla lingvo estas samtempe facila kaj malfacila. Ĝi estas facila, ĉar ĝi konsistigas nur de fremdvortoj. Samtempe ĝi estas malfacila, ĉar ĉiuj tiuj vortoj estas malkorekte elparolataj.

Mi ofte trovas en Esperanto strukturojn de pola, germana kaj rusa lingvoj. Mi ofte miras pri lingvaĵo de azianaj Esperantistoj. Mi komprenas ion, sed ĉio estas stranga. Ofte esperantaj tekstoj estas tiel malkaraj kaj malkompreneblaj, ke mi devas rezigni pri la legado. Esperantistoj estas ankaŭ kreemaj personoj, kaj elpensas ofte novajn strukturojn. Tial la legado de esperantaj tekstoj oni povus kompari al matematikaj ludoj aŭ ludaj enigmoj (simile kiel SUDOKU). Laŭ moto: Uzanto, deenigmu la signifon kaj admiru mian povon de kreado, scion de lingvo kaj lertecon de ĝia uzado!

Ĉar Esperanto estas tre juna (en tempomezuro de lingvoj), la influo de aliaj lingvoj sur Esperanto estas tre granda. Nur firmaj naciaj lingvoj havas ŝancon konservi ĝian eĉ pli malgrandan regulecon. Manko de reguloj kondukas nepre al venonta malreguleco.

Deveno de plurfunkcia uzado de ‚unu‘

Uzadon de ‚unu‘ en alia signifo ol numeralo mi konas de pola kaj germana lingvo. En germana lingvo ‚unu‘ rolas eĉ aldonan funkcion kiel nedifina determinilo (artikolo). Mi pensas, ke la uzado fontas ĉefe en pola lingvo.

  • Ili venis unu post alia.
  • Oni przychodzili jeden por drugim. (pole)
  • Sie sind nacheinander gekommen. (germane)
  • Они пришли друг за другам. (ruse)
  • Unu volas tion, la alia volas la alion.
  • Jeden chce to, a drugi tamto. (pole)
  • Einer will das, der andere will aber das. (germane)
  • Один хочеть … (ruse)
  • Unuj ne siac tion.
  • Jedni o tym nie wiedzą. (pole)
  • Einigen wissen das nicht. (germane)
  • Одни этово не знают. (ruse)
  • Unuj homoj …
  • Jedni ludzie … (pole)
  • Einige leute … (germane)
  • Одни люди … (ruse)

La germana lingvo havas apartan formon por „unuj“ – „einige“. Ial supriza estas la rusa formo por „unu post alia“, kiu direkte tradukita estas „amiko post amiko“. La germana formo „nacheinander“ astas de kunligo de „nach ein ander“ – do „post unu alia“. Tiu solvo estas tre interesa, ĉar tiun vorton tuj oni povas konsideri kiel adverbo. (mi pensas pri novesperantaj vortoj kiel: surkovrilpaĝe). Do aliaj lingvoj solvas parte tiun problemon sen uzo de „unu“. Nur pola lingvo uzas konsekvence „unu“ por ĉiuj tiuj kazoj.

Fina konstato

Mi iom post iom (novesperante: poiome) akceptas sendiskute ĉion, kion mi frontas en esperantaj tekstoj. Mi ne volas krei tiun lingvon, sed mi volas nur ĝin uzi. Se mi serĉas respondojn kaj regulojn, tiujn povas doni al mi nur statistiko. Decidoj de akademio de Esperanto estas tre maloftaj, kvazaŭ la lingvo tiujn decidoj (do regulojn) ne necesus kaj ĉio estus klara. La stato ne estas do alia ol ĉe naciaj lingvoj. Ĝi estas eĉ pli malbona, ĉar la lingvo estas juna kaj Esperantistoj estas tre diferencaj. Tio estas entute la normala afero. Sed, kiam la Esperantistoj ĉesos rakonti fabelojn pri tiu lingvo, ke ĝi estas io tute speciala?

13.2.2007

Analizo de ligiloj en Vikipedio

Filed under: lingvistiko,programado — artur @ 19:21

La tre grava avantaĝo de vikipedio super la paperaj enciklopedioj estas ligiloj inter artikoloj. La vikipedio oferas ankaŭ la eblon navigi en ambaŭ direktoj. Do trovi artiklojn, kiu havas ligilon al cetera artikolo.

Mi iomete ludis kun statistika analizo de tiuj legiloj. Kiel kutime mi programis etan programon, kiu legas ceteran artikolon kaj analizas rekursie ligilon kun difinita profundo. La plej komplika parto de programo estas la vida montro de rezultoj. La programo unue kolektas ĉiujn ligojn, poste la ligoj estas orditaj laŭ ofteco. La speciala algoritmo kalkulas la gravecon de speciala vorto rilate de cetera vorto (kerna vorto). Je pli malproksima la vorto al kerna vorto des pli grava la vorto. La graveco estas ankaŭ pli granda, se la vorto estas ofte ligita al aliaj artikoloj.

ligila reto por esperanto

La ideo de analizo de retaj ligiloj ne estas nova. Tio estas la ĉefa ideo de algoritmo de konata „Google“, kiu ordigas la TTT-paĝojn laŭ graveco. La hipotezo estas, ke gravaj paĝoj havas multajn elirajn ligilojn. Se ni transigas tiun ideo al vikipedio, tiukaze la kernaj vortoj devas esti pli ofte ligitaj ol flankaj vortoj. Miaj unuaj pruvoj konstatis tiun hipotezon. Ekzemple por vorto „vino“ ni povas tre rapide trovi flankaj vortojn: vinbero, barelo, tino, komunio, likvaĵo, oziriso, amforo, trinkaĵo, biero, egipto. Sed ofte la ligojn kondukas tre rapide al tre nova kampo. Ekzemple: viro -> afriko -> libio. La kazo estas, ke en artikolo pri homo troviĝas foto kun viro el afriko, kaj la lasta estas ligita al artikolo pri afriko. Ofte la ligilaj vojoj estas tre surprizaj kaj pensigaj. Laŭ tiu maniero oni povas ankaŭ bone ekkoni, ke aŭtoroj sekvas ne nur enciklopediaj devojn.

Mi pensas ke tiu analizo estas tre taŭga por trovi aŭtomate kernaj vortoj rilate al iu faka vorto. Sur tiu vojo oni povas tre rapide (kaj plene aŭtomate) konstati, ke vortoj : „programaro, linukso, programlingvo, dosierujo“ apartenas al kampo de „komputiko“. Tio laboras mirige fidele. Mia precipa intereso de tiu ekzerco rilatas kiel kutime al maŝina tradukado. Mi pensis pri aŭtomta kategorigo de vortoj kaj tekstoj por pli bone elekti tradukajn vortarojn (percipe sinonimoj). La bonan kolekton de vortaj kompoj donas al ni jam REVO. La analizo de ligiloj en vikipedio povus plivastigi la bazan provizon de REVO. Oni povus analizi ne nur ligilojn, sed ankaŭ la koncernajn artikolojn mem por atingi pli bonajn rezultojn.

Fine mi pensas ankaŭ pri semantikaj retoj, kiuj estas necesaj por bonkvalita maŝina tradukado. La elstara projekto en tiu kampo estas angla WordNet. Retoj de ligiloj kaj semantikaj retoj estas certe aliaj aferoj, sed eble retoj de ligiloj povus helpi ĉe konstruo de semantika reto. Por miaj celoj tiel preciza semantika reto laŭ modelo de „WordNet“ ne estas bezonata. La pli ĝenerala kategoriigo estus sufiĉa. Ofte la problemo estas, ke oni devas scii, ĉu iu substantivo estas: persono, vivaĵo, abraktaĵo aŭ objekto. Mi esperas, ke kun aliaj teknikoj kiel sintaksa analizo de vikipedio, tiu kategoriigo povus esti farita tute aŭtomate.

Ekzemple de frazo: „frato estas homo, kiu …“ oni povas derivi ke „frato“ estas „persono“. Aŭ de frazo: „patro pensis pri tiu“, oni povas derivi, ke nur inteligentaj vivaĵoj povas pensi, do „patro“ estas inteligenta vivaĵo. Ankaŭ adjektivaj atributoj povas diri ion pri la subjekto. Se io havas farbon kaj grandecon, tio signifas, ke tio ne estas abstrakta. Ekzistas ankaŭ trampaj figuraj frazoj, kiun oni devas statistike forfiltri.

7.2.2007

Fekundenco de vortoj ĉe tradukado

Filed under: lingvistiko,maŝina tradukado — artur @ 18:55

Fekundanco de vortoj (angle: fertility) ĉe tradukado estas grava indiko ĉe statistakaj metodoj de maŝina tradukado. Tiu indiko eldiras kiom da vortoj en cela lingvo oni bezonas por traduki unu vorto de fonta lingvo. Fekundencon oni povas kalkuli por tuta teksto, frazparto aŭ unu vorto. La interesa kalkulo estas nombri ĉiujn vortojn de sama teksto en originalo kaj en traduko. Ĉe lingvoj kun riĉaj rimedoj de vortfarado tiu indiko estas malgrada ol 1 kompara al lingvo sen tiuj ebloj.Por unuopaj vortoj tiu fekundeco povas esti malsimila kaj dependas ofte de gramatiko. Ofte rolmontriloj ne povas esti tradukitaj rekte, do ilia fekundeco estas 0 aŭ „senlimo“. Kelkaj ekzemploj por pola kaj esperanta lingvoj

  • libro = książka (Fekundeco 1:1 = 1)
  • radioelsendo = audycja radiowa (Fekundeco 1: 2 = 2)
  • perdi vojon = zabłądzić (Fekundeco 2 : 1 = 0.5)
  • Li donis al mi la libron = On dał mi książkę. (Fekundeco por „al“ estas 1 : 0 = 0)
  • Li atendas mi = On czeka na mnie. (Fekundeco por „na“ estas „senlimo“ 0 : 1 = ?)

Ĉe maŝina tradukado laŭ metodo de transormigo de sintaksa arbo la limaj fekundecoj („0“ kaj „senlimo“) ne faras tiom da problemoj, kiel oni tiun aspektis, ĉar la rolvortetojn oni povas facile derivi de sintaksaj funkcioj. Alie estas en la plene statistika maŝina tradukado, ĉar en tiu modelo vortoj ne aperas de nenio. Do tiu modelo devas kalkuli en longaj grupoj de vortoj.

Tradukoj kun fekundeco pli granda ol 2

Esperantilo rekonas en pola traduka vortaro la tradukoj laŭ kelkaj modeloj. Sed ĉe esperanta (fonta) flanko povas stari nur unu vorto. La enskriboj kun kelkaj vortoj ĉe esperanta flanko povas esti enskibitaj en tradukan vortaron de frazpartoj.

  • substantivo = substatnivo + substativo ; vidpunkto = punkt widzenia
  • substantivo = substantivo + adjektivo ; apendico = wyrostek robaczkowy
  • verbo = verbo + prepozicio + substantivo ; heredigi = przekazywać w spadku
  • verbo = verbo + adverbo ; manuzi = obsługiwać ręcznie
  • verbo = verbo + substantivo ; proponi = stawiać wniosek
  • adverbo = prepozicio + substantivo ; senproteste = bez protestowania
  • adjektivo = prepozicio + substantivo ; senlima = bez granic
  • adjektivo = adjektivo + substantivo ; homplena = pełen ludzi

La traduka vortaro por maŝina tradukado devas esti pli regite prilaborita ol tiu por normala uzado. Aliaj lingvoj uzas aliaj modeloj. Aparta ĉe germana lingvo, kiu bezonas reordigon de vortoj dum la tradukado la rekono de unuopaj vortoj en cela traduko estas tre grava.

  • vortaro : komprenigi = begreiflich machen
  • Mi ne komprenigis tion al li; Ich machte ihm das begreiflich

Tradukado de frazpartoj

Por multaj nocioj la traduka modelo, en kiu ĉe unu flanko de vortaro staras nur unu vorto, ne estas sufiĉa. Do ni havas modelon de vortaro laŭ formulo: n = m (n,m>1). Ekzemploj:

  • kompara lingvistiko = metoda porównawcza
  • iom post iom = krok po kroku

Mutaj tiaj ekzemploj apartenas al frazaĵoj, kiu estas tre malfacile tradukeblaj, ĉar la traduko bezonas pluajn transformigojn. Ofte ankaŭ la vortaro enskribo ne korespondas direkte kun fonta teksto.

  • paroli hake = jękać się (Li parolas ofte malrapide kaj hake)
  • Tio haveblas sur nia TTT-paĝo = Możecie to sciąnąć z naszej strony.

Tradukado de vortoj en Esperantilo

La tradukado de vortoj en Esperantilo estas nun plurŝtupa proceso. La unua kazo por tio esta la komputilo inversa vortfarado, due la tradukado de vortoj kun fekundeco, kiu estas malegala al 1.

Responda cxeno cxe tradukado

vortaro de frazparto

Tio estas la vortaro por grupaj tradukoj aŭ tradukoj kun fekundanco pli malgranda ol 1. Tiu vortaro povas ankaŭ traduki frazaĵojn. La vortaro uzas parte preskaŭ programajn priskribojn, por trovi korespondaj vortoj en sintaksa arbo. Tio estas necesa, ĉar la trovo de fontaj vortoj ne povas limiĝi al serĉado de signoĉenoj.

traduka vortaro

Tio estas la ĉefa vortaro de programo ĉar plej ofte la vortoj havas fekundancon 1 aŭ pli granda ol 1.

pola inversa vortfarado

Tiu modulo kreas polajn vortojn laŭ esperanta modelo. La reguloj estas faritaj laŭ musteroj.

  • ne(adjektivo) = nie(adjektivo) ; neblanka = niebiała
  • du(adjektivo) = dwu(adjektivo) ; duetaĝa = dwupiętrowa

La uzanto ne povas direkte difini novajn regulojn por tiu inversa vortfarado. Ili estas enprogramitaj en klaso „PolaVortFarado“

esperanta inversa vortfarado

Tiu modulo provas krei de kompleksa esperanta vorto kelkajn bazajn vortojn, kiuj pliverŝajne troviĝas en traduka vortaro. Ekzemplaj reguloj:

  • sen(adjektivo) = sen substantivo ; senlima = sen limo
  • tut(adjektivo) = tute adjektivo ; tutcerta = tute certa

Ili estas enprogramitaj en klaso „EspReVortfarado->remorfigu“

esperanto-esperanto vortaro

Tiu vortaro estas kolekto de sinonimoj esperimoj. Ĝi enhavas ankaŭ arĥaj kaj novaj formoj. La uzanto povas direkte enskribi novajn tradukojn per menuo: (Lingvistiko->Esperanto-Esperanto vortaro)

1.2.2007

Kreado de vortaro de artikoloj de vikipedio

Filed under: lingvistiko,maŝina tradukado — artur @ 19:49

Sen bona multlingva leksikono (aŭ glosaro) ne estas ebla bona maŝina tradukado. Tial la grandan parton de tempo mi prilaboras la vortaron de Esperantilo. (vidu ankaŭ blogojn 1 kaj 2). Nun mi koncentriĝas nur pri pola lingvo. Ĉar kiel ĉiu programisto mi estas laca, mi serĉas la eblon plifaciligi tiun leksikan laboron per iu programo. Due mi ne estas la plej kompetenta persono por kreado de vortaroj kaj tiu takso ne estas tiel facila, kiel oni povus pensi.

Mi delonge pensis, kiel utiligi la grandegan vortprovizon de Vikipedio. Oni povas libere kaj aŭtomate elŝuti ĉiujn artikolojn en XML-fonto per speciala adreso http://eo.wikipedia.org/wiki/Speciala:Export (ekzempla enhavo por: „Floro“). Estas ankaŭ eble elŝuti la tutan vikipedion kiel granda Xml-dosiero kun ĉiuj artikoloj (Wikimedia Downloads).

Ekzistas multaj ebloj aŭtomate krei vortarojn de paralelaj tekstoj, tio estas ofte priskribite teorie. Bedaŭrinde ne ekzistas multaj libere atingeblaj paralelaj tekstoj en esperanta kaj pola lingvoj. Kelkaj grandaj tekstoj ne estas ankaŭ tre bonaj por tiu takso, ĉar tiuj estas ofte nur tradukoj de polaj tekstoj faritaj de poloj. Tio rezultas, ke la tradukita esperanta teksto ofte havas la polan stilon. Plej bonaj estas originalaj esperantaj tekstoj, skribitaj de homoj de diferencaj nacioj, kiuj estis poste tradukitaj al pola lingvo.

Tamen ekzistas tekniko, kiu uzante statistikajn metodojn ne bezonas ekzakte la samajn tekstojn (paralelaj tekstoj) sed nur similajn tekstojn. La teorio priskribas la suba laboraĵo ( Translating collocations for bilingual lexicons: a statistical approach (Frank Smadja, Kathleen R. McKeown, Vasileios Hatzivassiloglou) Tiu ideo estas tre konforma al vikipedio, ĉar vikipedio oferas direkte la eblon kunligi artikolojn de diferencaj lingvoj. Do ni jam havas ligojn inter multaj polaj kaj esperantaj artikoloj.

Unue mi programis programeton, kiu legas unu artikolon de esperanta vikipedio kaj la korespondan artikolon de pola vikipedio. Ni hipotezas, ke en artikoloj estas uzataj la samajn aŭ tre similaj vortoj, ĉar la artikoloj priskribas la saman ideon. La ideo estas trovi vortojn, kiuj ankoraŭ ne ekzistas en vortaro. Ekzistas granda verŝajno, ke tiuj vortoj korespondas unu kun alia. La algoritmo funkcias kiel priskribite:

  • Elŝuto tekston de esperanta artikolo
  • Trovi kaj elŝuti la polan artikolon
  • Forigu ĉiujn vortetojn (pronomoj, interpunkcioj, konjunkcioj, partikloj)
  • Trovu por ĉiu vorto la radikan formon.
  • Serĉu ĉiujn formojn, kiuj ne havas tradukon en traduka vortaro
  • La restaj formoj estas tre verŝajne tradukoj

Por radikigi polajn vortojn mi uzas la programon Stempelator de projekto Morphologic. La programo estas skribita per Java, mi skribis simplan Tcp/Ip servilon por tiu programo kaj tiel mi konektis Esperantilon kun „Stempelator“.

Kreado de Vortaro per Vikipedio

Mi analizis rezultojn kaj povas konstati ke:

  • Por cetera artikolo la programo rezultas multaj nekonataj polaj vortoj kaj nur kelkaj nekonataj esperantaj vortoj
  • Esperantaj artikoloj estas ofte multe pli mallongaj kiel polaj
  • La enhavo de artikoloj estas ofte tre diferenca (Pies, Hundo)
  • Plej ofte mankas tradukoj por esperantaj adjektivoj
  • La trarigardo de paralelaj artikoloj estas bona fonto por fakaj vortoj.
  • La stilo kaj vortprovizo de esperantaj artikoloj tre varias.
  • La artikoloj ne estas tradukitaj (ebla de angla fonto), sed kreitaj de komenco

La kaŭzo por mankantaj tradukoj de adjektivoj havas multajn fontojn. Unue mia baza komenca vortaro (unua fonto estis REVO) estas farita por homoj. Tial la aŭtoroj ofte ne pritraktas adjektivojn, kiu devenas rekte do substantivoj, ĉar ĉiu polo povas derivi la adjektivon de substantivo preskaŭ aŭtomate (komputer – komputerowy). La dua kaŭzo estas, ke verŝajne la esperanta lingvo uzas pli da adjektivigoj ol la pola lingvo. Tio estis por mi iom surpriza, ĉar ankaŭ en pola lingvo adjektivigo estas kutima metodo por krei novajn nociojn. Ni komparu polan kaj germanan lingvojn,

  • system komputerowy – Komputersystem
  • książka telefoniczna – Telefonbuch

Sed la esperanta lingvo ŝajnas esti eĉ pli adjektivema ol la pola. Mi rimarkis sekvan ekzemplon. Esperanta frazparto (komunika problemo) povus esti tradukita al pola (problem komunikacyjny), sed tiu traduko ne estas tre bona kaj sonas strange por poloj. Aliaj eblaj tradukoj:

  • problem komunikacyjny – direkta traduko
  • problem z komunikacją – portempa problemo
  • problem w komunikacji – ĝenerala problemo

Flanke de tio la germana esperantisto eble diris „Komunikproblemo“ laŭ sia nacia kutimo. Mi konstatas, ke por kreado de vortaroj la metodo devas esti pli speciala. Tre ofte la tradukoj ne povas estas kovritaj per simpla modelo: (unu vorto = unu vorto), sed eble de traduko de tutaj frazpartoj

  • substantivo = substantivo + adjektivo
  • adjektivo substantivo = substantivo + prepozicio + substantivo
  • verbo = verbo + adverbo
  • adjektivo = adverbo + adjektivo

Tiu funkcias ankaŭ en dua direkto. Por programi tiun modelon mi bezonus la sintaksan analizilon por pola lingvo, sed nun tio estas nur revo. La plene aŭtomata kreado de vortaroj de vikipediaj artikoloj („Artukułów z Wikipedii“) ne estas facila, sed tamen tio povas esti granda helpilo por aŭtoroj de fakaj vortaroj. La plej avantaĝa afero estas, ke la vortoj aperas en sia natura medio, tio estas teksto. Do mi jam enskribis kelkdek novajn tradukojn en polan vortaron. Vorto sen kunteksto estas ofte nur senesprima ĉeno de signoj. Mi esperas, ke la kvalito de esperantaj artikoj plibonigos kaj artikoloj ne enhavos en venonto nur unu frazon.

Mi enmetos tiun malgrandajn programetojn en venontan eldonon de „Esperantilo“, sed ne direkte atingebla. La problemo estas la instalado kaj preparo de komuniko kun alia programo „Stemplator“. Tiu tasko ne estas solvebla por averaĝaj uzantoj de komputiloj. Se iu volas tamen ludi kun tiu programo, bonvolu skribu al mi. Mi aldonos tiam priskribon kiel tion fari.

27.1.2007

Tre similaj vortoj

Filed under: lingvistiko,programado — artur @ 11:31

En lasta tempo kelkaj Esperantistoj ekinteresiĝis pri aŭtomata korektado en Programo Esperantilo. La vigla korespondado finiĝis per nova mesaĝ-grupo Komputila lingvistiko. La unua frukto de tiu kunlaboro estas korektita bazo de erarekzemploj Ekzemploj de eraroj, kiun mi uzas por testado kaj kiel teoria fonto de programado de korektilo.

Ĉar mi denove pensis pri aŭtomata korektado, mi decidis analizi la vortprovizon de esperanto je tre similaj vortoj. La analizo trovis vortoj, kiuj estas:

  • same longaj
  • sama unua kaj lasta litero
  • diferencas nur je unu litero
  • sen participoj

Mi analizis ĉiujn vortojn ĝis frekventaca grupo 15 de mia frekventeca bazo de vortoj. Ĉar la vortoj devenas de analizo de tekstaro, estas eble, ke kelkajn vortojn nun estas oftaj skriberaroj. Mi dividis la listojn je 3 kategorioj:

  • similaj: ĉiuj vortoj – nombro 10446
  • similaj sone: vortoj, kiuj simile sonas, do ili diferencas je litergrupoj (dt rl pb sŝ cĉ hĥ) – nombro 679. Tiuj vortoj kutime estas problemaj por azianoj.
  • similaj vide: vortoj, kiuj simile aspektas , do ili diferencas je litergrupoj (nm rn ao bh) – nombro 420

Mi nun ne scias, kiel oni povas uzi tiujn listojn en praktiko. Mi supozas, ke tiuj vortoj estas ofte intermiksitaj.

9.1.2007

lingvistiko, esperanto, komputilaj projektoj

Filed under: ĝenerale,lingvistiko,maŝina tradukado — artur @ 21:01

Ideo de maŝina tradukado ekzistas ekde apero de komputiloj. Maŝina tradukado kaj arta penso estis la revo de unuaj programistoj, eble ĉar tiuj temoj estus bone komprenataj por vasta publiko. Tradukado estas malfacila tasko, kiun povas plenumi nur kelkaj homoj post longa lernado. Tial komputilo, kiu tradukas, estus la pruvo por taŭgeco de komputiloj.

Ĉiu nun scias, ke ne ekzistas komputiloj, kiuj povas pensi aŭ traduki en nivelo de homoj. Longe post multaj fiaskaj projektoj, en kiuj oni perdis grandan kvanton de mono, eĉ specialistoj pensis, ke programado de tiuj sistemoj ne estas ebla. Historio de komputika lingvistiko bone priskribas la konata dokumento Machine Translation: past, present, future. Ofte eĉ Esperantistoj varbas por Esperanto kun argumento, ke maŝina tradukado ne estas ebla kaj neniam estos ebla. En tiu kazo oni ofte prezentas tre bizarajn frazojn, kiuj nur tre malfacile estas tradukeblaj eĉ por profesiaj tradukistoj. Mi estas certa, ke per similaj argumentoj oni povus ankaŭ pruvi, ke tradukado ĝenerale ne estas ebla. Sed la temo de komputila lingvistiko ne mortis kaj eĉ lastatempe bone progresas. Kvankam ne ekzistas perfektaj tradukaj programoj, la unuopaj eroj de komputila lingvistiko aperas pli kaj pli ofte. Preskaŭ ĉiu uzas nun literumadon en redaktiloj kaj komputilajn vortarojn. Ankaŭ „google“ estas ja infano de komputila lingvistiko.

Kial fiaskis tiom da projektoj pri maŝina tradukado?

Oni povus ĝenerale diri, ke komputilaj projektoj tre ofte fiaskas. La duono de projektoj neniam finiĝas kaj 75% de projektoj ne atingas la celojn. Ili estas pli multekostaj aŭ ne havas la necesajn planitajn funkciojn. La temo de maŝina tradukado havas aldonojn specialajn trajtojn, kiuj eĉ faras tiujn projektojn eĉ pli malfacilajn kaj pli riskajn. Tio estas:

  • Oni havas tre altajn atendojn. Oni volas programojn, kiuj regas multajn lingvojn, tradukas en reala tempo en multaj direktoj kaj povas kompreni diritajn vortojn kaj mem paroli.
  • Oni bezonas multajn specialistojn de diversaj kampoj
  • La baza lingvistika teorio, kiu estas praktike taŭga, ne ekzistis. La historiaj teorioj ne estis taŭgaj por multaj kazoj.
  • Lingvistikaj programaj postulas grandajn necesojn al komputiloj. Ĝis 1980 komputiloj ne estas taŭgaj por lingvistiko, ĉar ili ne havis necesan rapidecon kaj memoron. La haveblaj komputiloj en frua tempo estis tro multekostaj. Oni pripensu, ke eĉ baza vortaro havas 50000 vortojn. Prilabori, traserĉi aŭ redakti tiun kvanton de informoj estas por tiamaj komputiloj tre malfacila tasko.
  • La projektoj preskaŭ ĉiam komencis de nulo. Lingvistoj nenion sciis pri komputiloj, programistoj nenion sciis pri lingvistiko. Oni devus skribi programojn kaj solvi bazajn teknikajn defiojn. Lingvistoj devis krei taŭgajn teoriojn.
  • Ĉiu profesia projekto havas nur limigitan kvanton da rimedoj. La unua limo estas tempo. Oni devas havi rezultojn post unu aŭ du jaroj. Post tiu tempo la membroj de projekto komencas iom komprenis pri la temo de projekto.
  • Tiuj projektoj estis tro grandaj. Organizado de grandaj projektoj estas eĉ pli komplika ol la temo de projektoj. La respondeculoj ofte pensas, ke ĉiu problemo estas solvebla per aldonaj partoprenantoj de projekto. Konata programista anekdoto diras, ke laŭ tiu pensmaniero oni povus konstati: Por havi unu novan homon oni necesus unu virinon kaj 9 monatojn da tempo. Oni povus duonigi la tempon havante du virinojn.
  • Ne ekzistis komputilaj materialoj, kiujn oni povis uzi de komenco.

Mi pensas, ke la unua problemo estas, ke la projektoj volis sole atingi ĉion. Oni ne provis dividi la taskon en multaj kampoj. Kvankam projektoj fiaskas, ili ofte lasas multajn rezultojn aŭ eĉ solvojn de unuopaj problemoj. Sed por monaj kaŭzoj estas ofte maleble transdoni tiujn rezultojn al sekvaj projektoj. Do multaj rezultoj malaperas en arkivoj por ĉiam. La projektoj malaperas, kvazaŭ ili neniam estis. En plej bona kazo restas de tiuj projektoj malgranda raporto aŭ scienca laboraĵo, sed vortaroj aŭ programa kodo, ĉio ĉi malaperas por ĉiam.

La unuaj projektoj estis pagitaj de militaj fortoj, ĉar ili bezonis maŝinan tradukadon por spionado de aliaj landoj. Tial la rezultoj de tiuj projektoj estis ŝtataj sekretoj. En universitatoj, kiuj ankaŭ havis lingvistikajn projektojn, oni uzis por projektoj studentojn, kiuj ne estas bonaj spertaj programistoj kaj ofte forlasis la projekton post unu aŭ du jaroj. Tio estas tro mallonga periodo por efike produkti uzeblajn rezultojn. Komercaj projektoj fiaskis miaopinie precipe por kazo de mallonga tempo. Komercistoj pensas precipe nur en unujaraj periodoj de librotenado. Ĝis nun preskaŭ ne ekzistas merkato por partoj de solvoj de komputiko. Tiu kampo de komerca programado laboras laŭ maniero ĉio aŭ nenio. Ĉu iu memoras pri sistemoj kiel Amiga OS, OS/2 aŭ diversaj aliaj programoj, kiuj por ĉiam malaperis, kvankam ĝi rulis bone kaj estis uzeblaj. Ĝis antaŭ mallonga tempo ŝajnis, ke en tiu komerca kampo povas esti nur unu gajninto. Tio estas aŭ IBM aŭ MS. Sed nun ekzistas alia komputila mondo de liberaj programoj. Do estas eble ruli la tutan sistemon nur per libera programaro.

Lingvistikaj projektoj. Ĉu problemo de interkomunikado?

Programistoj kaj lingvistoj devenas el tute aliaj kampoj de scienco. Ili havis alian manieron solvi la problemojn. Mi pensas, ke malbona kunlaboro inter lingvistoj kaj programistoj estas ankaŭ granda kaŭzo de malsukcesoj. Programistoj devenas de scienca kampo de matematiko. Ili serĉis laŭ matematika maniero la mallongan precizan formulon, kiu estas vera por ĉiu kazo. La akademia teorio de lingvistiko estas plena da logikaj formuloj, kiuj preskaŭ malestas en praktika uzo. La naturajn lingvojn oni ne povas priskribi per simplaj formuloj.

En komputilaj projektoj oni kutime havas du grupojn de homoj. La unua grupo estas tiel nomataj teknikaj fakuloj. Tio estas programistoj. Alia grupo estas fakaj specialistoj, kiuj scias iom pri temo de projekto. La sukceso de projekto dependas ofte de ebleco de lernado de du grupoj unu de alia. Programistoj devas lerni de fakuloj kaj fakuloj devas lerni de programistoj.

Lingvistoj devenas de humanecaj sciencoj, simile al filozofio aŭ literaturo. Por ili lingvo estis historie io sakra, io magia, io, kion oni ne nepre devas logike kompreni. Lingvistoj pritraktas lingvojn kun preskaŭ religia maniero. Ili akceptas misterojn kaj nelogikajn esprimojn. Ili ne pruvas. Ili ŝategas debati pri kuriozaĵoj. La argumento de aŭtoritato estas pli grava ol logika pruvo. Lingvistikaj teorioj estis do frue tute maltaŭgaj por programistoj, kiuj devas ja liveri pragmatikajn kaj praktikajn rezultojn. Mi pensas, ke nova generacio de lingvistoj iom post iom lernas uzi sciencajn metodojn en lingvistiko. Ili uzas statistikon, pruvas la rezultojn sur grandaj tekstaroj. Ili lernis ordigi la teorion laŭ ofteco de uzebleco. Kuriozaĵoj ne plu rolas gravan rolon en teorioj. Ili eĉ lernis uzi la komputilon kaj permesas al la aliaj tuŝi ilian sakran lingvon.

Sed ankaŭ la sinteno de programistoj kun rigida matematika fundo estas malutila por lingvistikaj projektoj. Bonan priskribon de takso de programado donas al ni Kulturaj aspektoj de komputil-programado. Programistoj atendis de natura lingvo similajn trajtojn, kiel ili tion konas de programaj lingvoj. Pritrakti naturajn lingvojn estas unue la arto administri esceptojn. Tial oni ne povas atenti iun formulon, kiu priskribas ĉiujn fenomenojn de lingvo.

La kutimaj problemoj, kiujn frontas programistoj, estas ankaŭ aliaj ol tiuj de lingvistiko. Kutime rezultoj de programoj devas esti tre certaj. Oni pripensu komputilaj sistemoj, kiuj de multaj jaroj laboras en bankoj aŭ en komerco. Komputiloj regulas multajn sistemojn. Ili konservas grandajn datumojn. Ili devas esti sekuraj kaj certaj. En lingvistiko, la problemoj estas ofte ne certaj. La problemoj havas statistikan naturon. En komputiko, ĉiu esprimo estas aŭ vera aŭ malvera. Naturaj lingvoj ne havas tiujn trajtojn. Tial lingvistikaj programoj devas prilabori datojn, kiuj enhavas erarojn, kiuj ne estas tute analizeblaj. Rezultojn de maŝina tradukado oni nur malfacile povas pritaksi, ĉar eĉ tradukoj de homoj estas diskuteblaj. Ne ekzistas objektiva mezuro de kvalito de tradukado.

Natura lingvo sekvas la statistikajn principojn de naturaj fenomenoj. Ekzemple oni povas kun 10 simplaj reguloj bone priskribi 80% de tekstojn, por restajn 10% oni bezonus 20 regulojn, kaj por lastaj 10% de tekstoj oni bezonus tute alian teorion kaj por multaj homoj tiuj frazoj estus diskutindaj rilate al ilia korekteco. Tiu fenomeno estas konata sur la nomo principo de Pareto

Komputila lingvistiko en nuna Stato

Lingvistoj kaj programistoj multe lernis de fruaj malsukcesoj. La nunaj sciencaj laboraĵoj havas altan praktikan taŭgecon. Ekzistas sukcesaj projektoj, kiuj pritraktas nur unu limigitan kampon de lingvistiko. Aliaj projektoj povas uzi la rezulton de aliaj projektoj. Por tio pli grava estas ankaŭ la libera programado, kiu sen monaj komplikaĵoj permesas uzi fruajn rezultojn de aliaj projektoj. La GPL permesilo garantias, ke la laboro de homoj iĝas parto de homa heredaĵo kaj ne malaperas en iu tirkesto. Tiu laboro ne povas esti ankaŭ misuzata de komercaj firmaoj. Sed ĉiam ekzistas danĝero, ke grandaj komercaj fortoj, kiuj por iĝi pli granda uzas iliajn plej danĝeraj armilojn, tio estas advokatoj, por malpermesi al aliaj ian aktivadon kaj pensadon. La plej malnobla kaj malverplena ilo en monoj de advokatoj estas softvaraj patentoj.

Malkontentiga estas ankaŭ komercigo de universitataj projektoj. Kvankam multaj universitataj projektoj estas financitaj de publika mono, kiu devenas ja de niaj impostoj, la rezultoj de tiuj esploroj ne estas libere atingeblaj. Do por angla lingvo ekzistas la libera semantika mapo de vortoj WordNet, sed la simila projekto por eŭropaj lingvoj EuroNet estas atingebla nur je granda prezo. Multaj universitatoj kunlaboras en tiu kampo kaj interŝanĝas la rezultojn de iliaj esploroj senpage, sed tio ja signifus, ke nur universitatoj rajtas esplori science laŭ sciencaj principoj, laŭ kiuj ja la scienca kono estas publika bono. Fine tiu komercigita scienco helpus al neniu kaj rezultoj, kiuj ne estas atingeblaj en vero ne ekzistas.

Kompreno de aŭtoraj rajtoj ĉe lingvistikaj fontoj povus esti malfacila problemo por komputila lingvistiko. Ĝenerale lingvo ne apartenas al iu speciala ulo. Zamenhofo ankaŭ igis Esperanton publika bono kaj li rezignis pri aŭtoraj rajtoj de Esperanto. Sed tio ne estas certa afero ĉe vortaroj. Vortaro estas unue la propraĵo de eldonejo. Ĉu vorto, kiu aperas en vortaro iĝas aŭtomate propraĵo de eldonejo. Ĉu iu frazo, aŭ iu speciala uzo de vorto estas propraĵo de aŭtoro de tiu frazo. Por eviti tiujn problemojn mi nur uzas liberajn fontojn kiel REVO ĉe mia programado. Povus esti, ke aliaj fontoj estas pli bonaj, sed uzo de tiuj fontoj estas malrekomendinda. Ni pripensu do la situacion. Mi korektis la internan vortaron en programo laŭ priskribo de profesia vortaro en tradicia libra formo, kiun mi aĉetis je normala prezo. Ĉe unu vorto tio ja ne estas problemo, sed se mi tion faris ĉe 100 aŭ 1000 vortoj, mi povas havi problemojn, ĉar iu povas akuzi min, ke mi ŝtelis la parton de vortaro. Tiu povos esti tre granda problemo ĉe Esperanto, ĉar tiu lingvo estas nova kaj konstruita, kontraŭe al naciaj lingvoj oni povus trovi la kreinto de iu vorto, frazo kaj speciala gramatika uzo. Mi esperas, ke mi ne havos tiun problemon, ĉar nek la programo nek Esperanto iĝos tiel popularaj, ke iuj komercistoj havos interesojn financi advokatojn por malkonstrui tiun projekton. Eble pro normalaj uloj tio ĝenerale ŝajnas tre malebla afero, sed tio bedaŭrinde ofte okazas ĉe programado.

Ekestis tamen pozitivaj aferoj. Multaj komercaj firmaoj publikigas la rezultojn de ilia laboro laŭ GPL permesilo. Ekzemple tre konata programlingvo JAVA iĝis lastatempe la parto de libera programaro. Memkompreneble, la firmaoj faras tion en situacio, kiam ili ne povas venki la komercan konkuranton kaj per tiu paŝo, ili volas minimume malfortigi la konkuranton. Sed firmaoj ankaŭ rimarkis, ke malfermo de projektoj pozitive influas la projektojn kaj tamen lasas al ili la eblojn perlabori monon per aldonaj servoj. Ankaŭ granda lingvistika projekto Open Logos iĝis malferma. Tio estas tre kontentiga afero, ĉar fontoj, kiuj unue iĝas parto de libera programado ne povas esti enproprigitaj de iu, do ili fariĝas la parto de homeca heredo.

Nun ekzistas multaj fontoj en interreto, de kiu oni povas elĉerpi la scion pri lingvistiko. Okulfrape estas, ke precipe nur pro angla lingvo ekzistas kompleta oferto de solvoj. Malfeliĉe angla lingvo estas la lingvo, kiu apartenas de komputila vidpunkto al la plej malfacila lingvo por komputila pritraktado. Tial la progreso estas tre malrapida. Tre kontentiga por mi estas la fakto, ke ankaŭ por pola kaj germana lingvo aperas bonaj fontoj. (pola gramatiko, Germana vortaro de sinonimoj) Ili estas ofte publikigaj de hobiuloj, sed kun bona kvalito.

Por grandaj lingvoj oni nun povus konstrui fortan sistemon de partoj, kiuj nun ekzistas. Programistoj scias, ke intergluo de moduloj, kiuj uzas diferencajn komputilajn teknikojn estas ofte tre malfacila tasko. Tial oni ne atendu rapidan progreson.
En komerca kampo ekzistas firmaoj, kiuj sukcesas vendi lingvistajn programojn al profesiaj tradukistoj je granda prezo. Kvankam profesiaj tradukistoj estas ofte plej grandaj kritikistoj de ideo de maŝina tradukado, ili mem ofte uzas tiujn programojn. Mi miras, ke ĝis nun oni pagas por tradukoj je tradukita vorto, kvankam ofte por kutimaj dokumentoj, la tradukistoj havas ja ŝablonojn kun preta tradukado sur iliaj komputiloj kaj ĉe „tradukado“ ili devas enskribi nur kelkajn nomojn kaj datojn. La profesia tradukado de oficialaj dokumentoj estas fabriko de mono, kaj tiuj homoj faros ĉion por longe havi tiun fonton de facila mono.

Oni ne esperu, ke profesiaj programoj aperas iam por Esperanto. Ne ekzistas oficialaj dokumentoj en Esperanto, kiujn oni devus traduki, do la neceso de tiuj programoj preskaŭ ne ekzistas. Nun nur kelkaj grandaj lingvoj estas entute pritraktataj de tiuj programoj.

Esperanto en komputila lingvistiko

Oni ofte parolas en Esperantujo pri taŭgeco de Esperanto por lingvistika komputiko. Tamen la rezultoj estas mizeraj. La principa kaŭzo de tio estas, ke projektoj, kiuj estas pagitaj de naciaj fontoj, ne volas subteni ne nacian lingvon. Esperanto povis ja ŝteliri en tiujn projektojn kiel interlingvo, sed verdire Esperanto ne estas el teknika vidpunkto bona interlingvo (legu). Mi ne pensas, ke tio ofte reokazos en la venonta tempo. Sed ekzistas projektoj en alia direkto, kiuj estas subtenataj de esperantista medio. Por mi la gravaj projektoj estas REVO, Tekstaro kaj PMEG. Esperanta vikipedio estas ankaŭ grava. Oni devas konstati, ke Esperanto konkurencas kun aliaj lingvoj en tiu kampo. Se oni komencas lingvistikan projekton, oni pritraktas, kiuj fontoj kaj solvoj estas nun uzeblaj kaj pretaj. En la unua flanko Esperanto promesas esti pli facila, en la dua flanko aliaj lingvoj (principe angla lingvo) havas pli da pretaj solvoj kaj fontoj. Mi pensas, ke ankaŭ en tiu kampo Esperanto jam malvenkis kun angla lingvo. Unue nun ĉiu programisto konas jam anglan lingvon, ĉar sen angla lingvo si ne sukcesis iĝi programisto. Due, kiu volas lerni novan kaj malofte uzatan lingvon de malgranda grupo por eksperimenti kun ĝi? Oni faras tion nur pro hobia intereso aŭ por lernado. La facileco de Esperanto ne povas konkeri la vastan aperon de angla lingvo en komputila lingvistiko. Mi pensas, ke nun la unua ŝanco per ia estado de Esperanto en komputila lingvistiko estas hobiaj projektoj kaj libera programado. En tiu situacio estas grave, ke ĉiuj fontoj estas publikigitaj laŭ libera permesilo.

Libera programado kaj komputila lingvistiko

Libera programado havis kelkajn sukcesojn en sia historio. La plej granda sukceso estas la libera mastruma sistemo linukso. Nun estas eble uzi komputilon, kiu rulas nur liberajn programojn. Tiuj programoj estas eĉ tiel grande sukcesaj, ke komercaj firmaoj, interesiĝas pri tiuj projektoj, kaj ne programistoj uzas tiujn programojn. Ĝis nun liberaj programoj estas skribitaj plejofte de programistoj por programistoj. Ili programis mastrumajn sistemojn, redaktilojn, programajn ilojn por sia ĉiutaga laboro. La natura lingvo estas por programistoj ne tre interesa. Tamen restas iama revo de fruaj programistoj programi komputilon, kiu pensas kaj kiu tradukas.

La defio de maŝina tradukado estas do interesa kaj konata por programistoj. Ĝis nun aperis jam kelkaj projektoj, kiuj aŭ rapide mortis aŭ ne estas aktive pluevoluigita (Traduki, Linguaphile, Translato). Tio estas normala afero. Plej ofte programistoj ne estas pretaj sole kaj por longa tempo prilabori unu temon. Ĉar ekestas tre multa kvanto de liberaj projektoj, oni nur tre malfacile povas trovi uzantojn kaj helpantojn. Ŝanco, ke iu projekto travivos la tempon de intereso de la unua aŭtoro estas tre malgranda. Komputilaj projektoj bezonas kutime kelkajn jarojn de maturiĝo. Tiu longa tempo estas necesa ĵus por lingvistikaj projektoj, ĉar en tiu tempo oni devas lerni vastan teorion. La maturiĝoestas ankaŭ necesa post reagoj de uzantoj. Estas tre malfacila afero programi programon, kiu estas facile uzebla. Por programistoj, iliaj propraj programoj estas ĉiam facilaj, tial ili nur malfacile rimarkas malfacilaĵojn pri uzebleco de programoj.

Projekto „Esperantilo“

Kiam mi komencis programi la unuajn liniojn de kodo por Esperantilo, mi neniam pensis, ke post du jaroj mi programos maŝinan tradukadon kaj pensos pri sintaksa analizo. Mi volis nur havi simplan redaktilon por vindozo kaj linukso, per kiu sen peniga instalado oni povas skribi tiujn strangajn esperantajn literojn. Poste mi pensis pri literumado kaj gramatika korektado, ĉar mi ĉiam forgesis la akuzativon. Mi skribis la programon unue por mi mem. Poste mi legis multe pri maŝina tradukado kaj ĝenerale pri komputila lingvistiko. Mi rimarkis, ke aŭtoroj ne estis bonaj programistoj, kaj ke ili tute ne konas novajn teknikojn de programado. En tiama tempo mi okupiĝis pri nova programa lingvo XOTcl kaj programada medio XOTclIDE, kiun mi antaŭe mem programis. Mi serĉis temon por pruvi la taŭgecon de tiu lingvo kaj programa medio. En miaj fruaj spertoj mi rimarkis, ke tiu programa lingvo permesas al mi pli efikan programadon. Mi ankaŭ trovis en interreto kelkajn materialojn pri Esperanto. Esperanton mi lernis frue tute hazarde de mia kolego kaj mi eĉ partoprenis la lokan kurson en urbo Essen. Mi ne iĝis membro de iu esperanta asocio. Mi trovis tre viglan REVO, MPEG kaj Tekstaron. Do mi ne devis komenci de nulo. Mi havis fontojn, kiujn mi povis uzi. Mi ankaŭ informis min pri similaj projektoj kaj ofte traserĉis la reton. Mi ne havas grandajn celojn kaj planojn, sed mi provis aldoni novajn funkciojn, kaj se ili funkcias, mi programas plu. Ĉar mi sciis, ke la risko, ke mi ne sukcesos, estas tre granda, mi de komenco elektis kelkajn strategiojn por malaltigi tiun riskon.

Mia programa metodo estas grande influata de tiel nomata Extrame Programming, kiun mi konis de programlingvo Smalltalk. La programa medio ebligas tiel nomatan interaktivan programadon. Laŭ tiu metodo oni povas ŝanĝi programon, kiu samtempe rulas. Tio estas tre helpema ĉe lingvistikaj programoj kaj tio instigas al eksperimentoj. Unue mi limigis la plej forajn celojn al tiuj, kiuj mi mem povas iam atingi. Do mi volis elpensi novan lingvon aŭ konstrui tute novan teknikon. Due mi difinis por mi kelkajn strategiojn:

  • La programo celas nur traduki de Esperanto kaj prilabori nur Esperantan lingvon.
  • La celaj lingvoj estas lingvoj, kiujn mi mem konas.
  • Mi ne kalkulas je helpo de aliaj je moto: „mi komencis ion kaj la aliaj tion finigis“.
  • Mi uzas jam konatajn teknikojn kaj teoriojn. Ĉar mi ne estas lingvisto mi ne volas eklabori novan sciencajn teoriojn.
  • Se tio estas ebla, mi uzas pretajn liberajn solvojn. Mi koncentriĝis pri specialaj esperantaj temoj, ĉar estas ne verŝajne, ke aliaj tiun faris.
  • La programo ĉiam devus esti uzebla por iu takso kaj liveri rezultojn. Poste la celo estas plibonigi la rezultojn. Mi celas evoluan progreson. Mi ne volis, ke la programo estas uzebla nur post kelkaj jaroj.
  • Mi publikiĝas samtempe ĉiujn rezultojn: vortarojn, fontan kodon, testajn frazojn.
  • Mi unue faras taskojn, kiujn nur mi mem povas fari. Do mi programas, sed mi uzas pretajn vortarojn. Mi mem ne kompletiĝas la vortarojn, ĉar tio povas fari poste aliaj. Mi plibonigas la vortarojn nur ĉe evidentaj eraroj.
  • Mi serĉas la dialogon kun uzantoj laŭ la maniero de libera programado.
  • Mi ne kunligas kun la programo iujn komercajn planojn kaj mi evitas ligojn kun komercaj medioj.

Esperantilo estas eksperimento, la programado povus ĉiam finiĝi, ekzemple ĉar mi ne vidus ŝancojn por plua evoluo aŭ mi ne plu ĝojus la programadon. Tial mi volas sekurigi la rezultojn de tiu projekto. Mi publikigas ĉiujn fontojn kaj vortarojn. Sekvaj projektoj povus tiujn fontojn uzi. Mi ankaŭ skribas tiun blogon por dokumenti la laboron. Ankaŭ, se la projekto estas hobia kaj malperfekta, ĝi povas esti fonto por kritiko kaj por komparo kun sekvaj projektoj.

Homoj sugestis al mi, ke tiu projekto estas tro ambicia, por hobia projekto de unu homo. Jes, mi certe tute same pritraktis tiun projekton frue, se iu donis al mi la planon programi ĝin. Sed nun mi jam pruvis por mi mem, ke estas eble pli ol mi tion pensis frue. Certe tio ne estas pruvo, ke la projekto progresas en simila tempo poste. En tiu projekto oni do ne pritaksu planojn sed faktojn. Kaj faktoj ne povas esti ambiciaj, ili estas veraj aŭ malveraj. Mi skribas tion, ĉar mi spertas, ke ofte eĉ uzantoj, kiuj iomete uzis la programon, ne raportas erarojn, ĉar ili pensas, ke la projekto ne havas ŝancon de pluevoluo.

Mi ankaŭ ne estas naiva programisto pri libera programado, ĉar mi havas longan sperton en tiu medio. Fakto estas, ke plej granda parto de projektoj vivas de unu persono, do mi devas fari ĉion sole. Programistoj, kiuj ĵus skribis kelkajn liniojn kaj poste varbas por aliaj programistojn devas seniluziigi, se ili esperas je granda helpo. La motivoj de programistoj de libera programado estas diferencaj, pura helpemo estas tre malofta. Oni certe ne povas kalkuli je helpemo de profesiuloj, ĉar ili vivtenas sin per ilia profesieco. Ankaŭ oni ne kalkulu je preciza kritiko, tio ankaŭ estus ja ia helpo.

En tiu tempo mi ankaŭ lernis multon kaj devis adapti miajn fruajn atendojn. Unue mi devis konstati, ke Esperanto estas natura lingvo kaj ne tre diferenca de aliaj naturaj lingvoj. Ekzistas kampoj en Esperanto, kiuj estas same komplikaj kiel en aliaj lingvoj. Do la facileco de Esperanto estas nur limigita en ceteraj kampoj.
Due mi rimarkis, ke la teorio de Esperanto ne estas fiksa. Ekzistas multaj diferencaj teorioj pri tiu lingvo kaj estas malfacile trovi klarajn respondojn pri detaloj. Ankaŭ la fontoj, kiuj estas atingeblaj en TTT, ne estas kompletaj.
Mi devis do ofte prilabori bazajn fontojn kiel vortaroj. Ĉar Esperanto estas tre nova lingvo kaj forte evoluas, ne ekzistas fiksa maniero de ĝia uzo. Esperantistoj ofte imitas sian gepatran lingvon. Tial la sintaksa analizo estas granda defio. La tre efika vortfarado en Esperanto malfaciligas samgrade la maŝinan tradukadon. Multaj statistikaj teknikoj de maŝina tradukado ne aplikebla por Esperanto, ĉar en tiu lingvo mankas sufiĉe grandaj paralelaj tekstoj (Tekstoj en du aŭ pluraj lingvoj). Sed tio estas ja normala prezo de naiva kaj hobia komenco.

La reagoj de uzantoj kaŭzas ofte pli da labore ol helpo. Sed ili estas necesaj kaj mi ĉiam respondas je leteroj de uzantoj kaj interesantoj. Mi ĝojas ĉiam pri la reagoj kaj mi povas diri, ke ĉiu, kiu skribas al mi, partoprenas en la projekto. Tiu blogo estas ankaŭ por mi la ilo por malplialtigi la laboron kun reagoj de uzantoj. Mi povos ja nun ofte respondi: Bonvolu legi la blogon kun numero tiu kaj tiu. Mia espero estas ankaŭ, ke aliaj programistoj malkaŝas por si mem, ke komputila lingvistiko ne estas tial senespere komplika kampo, kiel oni tion edukas.

1.1.2007

Stila kaj gramatika korektado per prototipoj en programo „LanguageTool“

Filed under: lingvistiko,programado — artur @ 20:59

Mi lastatempe detale rigardis la projekton LanguageTool de Daniel Naber. Tiu interesa projekto de germana programisto estas nun en relative matura stato. La projekto celas oferi gramatikan kaj stilan korektadon por diversaj lingvoj. La temo por mi tre interesa, ĉar ankaŭ Esperantilo oferas similajn funkciojn.

Teknika Ideo

La aŭtoro elektis tre pragmatikan metodon de gramatika korektado. Ili baziĝas sur prototipoj. La programo komparas ĉiun frazon kun la prototipo. Kiam la prototipo konformas kun la frazo, difinita mesaĝo kaj propono de plibonigo estas oferata al uzanto.

Ekzempla prototipo: "The is". Mesaĝo: „Vi eble volis skribi There is“.

Pli kompleksaj prototipoj bazas sur markitaj tekstoj (angle: tagged text). Por ĉiu vorto estas trovita la gramatika kategorio (markilo), kiu povas signifi la vortkategorion (ekz. substantivo), kazon aŭ nombron.

Ekzempla prototipo: „give PPR advise“. PPR esta markilo por pronomoj. La regulo trovas la intermikson de vortoj „advice“ kaj „advise“.

Do la programo ne trovas ĉiujn erarojn sed nur erarojn, kiujn oni difinis en reguloj. Evidente tiuj eraroj ne estas trovitaj per literumado, ĉar la vortoj estas ja konataj. La reguloj estas projektitaj por trovi plej oftajn erarojn, aŭ tajperaroj aŭ eraroj kutime faritaj de ne anglalingvanoj, kiuj devas skribi angle. Por la projekto estas tre grave, havi la statistikajn informojn pri oftaj eraroj. La projekto enhavas do bazon kun plej oftaj eraroj, faritaj de uzantoj. La projekto trovis kunhelpantojn, kiuj difinis aldonaj reguloj por kelkaj aliaj lingvoj.

Diplomlaboraĵo

La projekto kreiĝis kiel diplomlaboraĵo ĉe germana universitato. Interese, ke kvankam la aŭtoro estas germano, li skribis la laboraĵon en angla lingvo, kaj la unua lingvo, kiu povas esti korektita, estas la angla lingvo. En la laboraĵo li tre detale enkondukas en la temo de gramatika korektado. La laboraĵo diferencas tri eblajn metodojn:

  • sintaksa analizo
  • prototipoj de eraroj
  • statistike bazitaj sistemoj

Mi elektis en esperantilo, kiu ankaŭ povas trovi gramatikajn erarojn la metodon de sintaksa analizo. Poste mi uzis tiun analizon ankaŭ por maŝina tradukado. La aŭtoro de LanguageTool elektis por pragmatikaj kialoj la metodon de prototipoj (rule based checking). La unua kialo por tio estas, ke nun ne ekzistas bonaj liberaj sintaksaj analiziloj. En tiu laboraĵo aŭtoro priskribas ankaŭ tre interesan koncepton de regulitaj lingvoj. Regulitaj lingvoj estas lingvoj kun pli rigidaj kaj strikte difinitaj reguloj. Tiuj lingvoj, baziĝas sur naturaj lingvoj, sed ofte uzas nur parton da vortoj. La celo estas unue krei dokumentojn, kiuj estas pli legeblaj ekzemple por fremdlingvanoj. Tiu ideo ne estas nova ankaŭ en Esperantujo, ĉar ekzistas ankaŭ streboj krei tekstojn, kiuj estas facile legeblaj por komencantoj. Mi pensas nur per lernolibroj kiel „Gerda malaperis“ (Elŝutebla de Lernu.net), en kiu oni trovas nur limigitan (regulitan) esperantan lingvon, kies nivelo kreskas en ĉiu sekva ĉapitro.

Kunlaboro kun OpenOffice

La tre bona trajto de projekto estas kunlaboro kun OpenOffice. Oni povas tre simple instali (plivastigi) redaktilon OpenOffice per LanguageTool. Do la uzanto ne devas forlasi ĝian kutiman medion por skribi tekstojn. En la dua flanko, LanguageTool uzas pretajn funkciojn de OpenOffice, kaj la aŭtoro de devis programi ilin mem. Ekzistas tamen la eblo uzi la programon sen OppenOffice. Sed tio estas utila afero eble nur por testado.

Uzado de programo

En la uzado de programo plaĉis al mi kelkaj trajtoj. Uzanto povas mem ŝalti kaj malŝalti la regulojn. Tio estas grava, ĉar kelkaj reguloj donas mesaĝon ĉiam, kiam aperas certa vorto, kiu estas ofte misuzata. Due la reguloj estas difinitaj ekstere de programo en speciala dokumento (grammar.xml) en XML-formato. Ĉiu uzanto povas, post kiam li lernis la programan lingvon de tiuj reguloj, krei proprajn regulojn. Ekzistas nun aliaj aŭtoroj, kiuj nur kreas regulojn por iu lingvo. Tio rezultigas bonan partigon de laboro.

Libera programado

Tiu projekto estas ankaŭ bona ekzemplo por sukcesa kunlaboro de kelkaj liberaj projektoj (Open Source). La bazan teknikon por trovi markilojn por vorto liveras la projekto de Finite state utilities de Jan Daciuk. La reguloj por pola lingvo estas programita en alia devena projekto de Morfologik. Mi skribis en mia blogo, ke tiu tasko de markado (pos tagging) estas por esperanta lingvo tre simpla. Sed por aliaj lingvoj la tasko estas tre komplika. Mi supozas, ke la aŭtoro de projekto ne havis ŝancojn realigi la projekton sen helpo de aliaj liberaj fontoj.

Mi povas nur esperi, ke ankaŭ en Esperantujo kreiĝos tiaj liberaj lingvistikaj iloj kaj lingvistikaj fontoj, kiuj helpas al sekvaj projektoj. Ekzemple estus grandege havi bazon de plej oftaj eraroj en Esperantaj tekstoj. Tre interesa estas la ideo de Aŭtoro de projekto morfologik en blogo (pola lingvo), kiu sugestas analizi la ŝanĝojn en vikipedio, ĉar ofte la ŝanĝoj estas korektoj de gramatiko kaj stilo. Mi jam antaŭe penis pri analizo de mesaĝoj en grupo soc.culture.esperanto, ĉar oni ofte trovas tie leterojn nur kun korektoj de antaŭaj leteroj. Sed programo, kiu aŭtomate povas trovi tiujn korektojn, ne estus tre simpla.

Interesa historio de projekto

La kreinto de projekto ŝajne ofte ŝanĝis la strategion kaj eksperimentis kun diversaj ebloj. Li tri foje ŝanĝis la programan lingvon kaj tute reprogramis la projekton. Unue li uzis Perl, poste Python kaj nun Java. Mi trovis nur la klarigon, kial li ŝanĝis la lingvon de Perl al Python. Python estas pli klara kaj pli bone objektema. La kialon por ŝanĝo de Python al Java mi ne trovis. La elekto de programa lingvo povus esti tre grava por projekto. Java-programoj bone kunlaboras kun OppenOffice sed kutime programado ne estas tiel efika kiel per Python. La programa lingvo estas ofte la unua kazo por trovi aliajn programistojn. En libera programado oni programas senpage, la programado devas ĝoji la programiston. Kaj multaj projektoj kreiĝas nur por tasko lerni aŭ uzi ian teknikon.

Kion mi lernis de tiu projekto

Unue mi povas pririgardi la sukcesan projekton kaj pripensi ĝian historion. Ĝi povus esti la imitmodelo ankaŭ por Esperantilo. Mi jam antaŭe pensis pri stilaj korektoj en Esperantilo, kaj eĉ mi kolektis kelkajn proponojn, sed fine mi koncentriĝis pri maŝina tradukado. Bona ideo estas evidente la ekstera difino de reguloj, kiuj povas esti redaktata de uzanto, kaj eblo malŝalti kelkajn regulojn. Tio estas eĉ pli grava, ĉar en Esperantujo ekzistas kelkaj formoj, kiuj ne estas komune akceptitaj kaj diskutindaj. La dua leciono estas bona kunlaboro kun OpenOffice. Tiu estas eble la ĉefa kazo por multaj kunhelpantoj kaj uzantoj. Esperantilo nun estas ĉefe la traduka sistemo, kaj eble estus bone havi bonan kunlaboradon kun OpenOffice. Programi tion estas tre peniga kaj teknike komplika laboro. Mi esperas, ke eble iam kreas iu libera traduka sistemo por OpenOffice kaj mi devos nur enprogrami Esperantilon en tiun programon.

31.12.2006

Pola kaj esperanta vortfarado

Filed under: lingvistiko,pola lingvo — artur @ 13:51

En la kristnaska periodo mi legis la gramatikan libron, kiun mi iam aĉetis en polando „Zarys Gramatyki Polskiej“ de Alicka Nagórko. Tre interesa estis por mi la ĉapitro pri pola vortvarado. Mi esperis, ke mi povus kompletigi la polan-esperantan vortaron aŭtomate. La baza ideo estus konstrui la derivon de pola radiko por konata esperanta vorto laŭ pola vortfarado. Fine la programo testas, ĉu tiu arte farita vorto vere ekzistas en pola lingvo per simpla literumado. Mi tion jam faris por derivi adverbojn de adjektivoj, kiuj normale ne aperas en polaj vortaroj.

  • rapida – rapide
  • szybki – szybko

En pli ampleksaj kazoj mi povus eĉ simuli en maŝina tradukado spontanan vortvaradon. Tie temas pri vortoj, kiu normale ne ekzistas en vortaro, ofte emocia vortfarado: „domaĉo, fiprogrami, monaĉo“. Mi suspektas, ke aŭtomata vortfarado por sufiksoj: „adi, isto, ejo, ino, ero, ulo“ aŭ adjektivigo aŭ substantivigo estas principe ebla. Per tiu libro mi ankaŭ lernis iomete pri interesaj principoj de pola vortfarado, kiu eble ankaŭ validas por esperanta vortfarado. Kelkaj interesaj principoj:

  • La unua fonto de vortfarado estas enpropriĝo (pole: „Asymilation“ ) de fremdaj vortoj.
  • Ofta konstuoprincipo estas mensa asociacio.
  • Per unuigo (pole: „Unifikacja“). Partoj de vortgrupo estas forigitaj
  • Konstruo per vortoripedado

Tiu principoj kondukas ofte al nelogikaj aŭ tempaj vortfaradoj, kiuj ne povas esti logike komprenataj. Mi trovis tiujn vortfaradojn en Esperanto lingvo.

  • Enpropiĝo: vorto „partopreni“ estas enpropiĝo de germana „teilnehmen“ aŭ pola „brać udział“. La vorto ne estas logika, ĉar kiun parton oni prenas ĉe tiu ago.
  • Per unuigo. Forigo de vortoj. En pola lingvo la ĉeno „telefon komurkowy“ – „komurkowiec“ – „komórka“. En esperanta lingvo: „komputila muŝo“ – „muŝo“.
  • Asociacio: krokodili, kabei
  • Ripetado: finfine (schlussendlich), treege, unusola

Tiu vortfarado estas ofte tre kritikita de esperantaj puristoj, ĉar la lingvo iĝas per tio pli natura ol neŭtrala.Interesa en pola lingvo estas vortfarado por socia dialekto aŭ emocia vortfarado. Ofte oni uzas la eblojn de pola lingvo ŝanĝi certajn literojn en radiko. (ekz: s-ch)

  • cigaredaĉoj – papierochy; cigaredoj – popierosy
  • monaĉo – pieniąchy, mono – pieniądze

Poloj tre volonte uzas vortfaradon por esprimi emociojn, humoron aŭ ceteran asociacion

  • poseł – poślica
  • kundel – kundlyzm
  • bicie mordy – mordobijnia
  • kolega – koleś – kolesiówa

Tre potenca estas ankaŭ la pola sufikso „owy“, kiu signifas nur „havas rilaton kun“. Tio sufikso estas uzate ofte samtempe ĉe la proceso de unuigo („Unifikacja“).

  • szkoła podstawowa – podstawówka
  • karta obiegowa – obiegówka
  • klasa przedszkolna – zerówka

Tiu vortoj povas havi aliajn signifojn por aliaj grupoj kaj fakoj. Mi tion observis en esperanto, ke vortoj kiel:

  • reto – TTT (enpropriĝo de angla asociacio „net“)
  • retejo – TTT-ejo
  • retumi – traserĉi la TTT-aron

Kiam oni iam komencis la vortfaradan lavangon, la proceso iĝas for de logika kontrolo. Estas interese, ke la (Sonja’s English-Esperanto Dictionary) vortaro malsugestas la uzadon ne vorto „retejo“.

En Esperanto la similan rolon de pola „owy“ havas la sufikso „um“. Kaj tiu sufikso estas tre volonte uzate de esperanta junularo por krei propra socia dialekto:

  • bierumi
  • kongresumi

En pola lingvo sufiksoj, kvankam tre riĉaj, ne havas fiksan signifon. „arz“ povas signifi profesion, ilon aŭ eĉ aĵon. Mi supozas, ke la plej radika signifo de vorto (radiko) havas influon je eblaj derivoj.

Kion mi povas konstati post tiu legado.

  • Vortfarado tre malofte estas proceso de logika derivo. Kaj tio validas ankaŭ por Esperanto. Novaj vortoj ne devas esti logikaj sed devas esti allogaj por uzantoj (eble angle „sexy“)
  • Spontana vortfarado estos eble la plej granda problemo de maŝina tradukado.
  • Esperanton enfluas eble pluraj sentoj de vortfarado.
  • Ofte en la libro oni legas. Tiu aŭ tiu kampo bezonas pli vastan esploron. Kompletan sciencan bazon de pola vortfarado oni eble devas longe atendi.
  • Mi havas nun kelkajn ideojn de eksperimentoj kun pola vortfarado en Esperantilo

28.12.2006

konjunkcio kaj prepozicio: ĝis, dum, antaŭ ol, post kiam

Filed under: lingvistiko,programado — artur @ 12:21

Sintaksa analizo en Esperantilo funkcias sufiĉe bone por granda parto de frazoj. Restas nun pli komplikaj kazoj, kiuj ĝis nun ne funkcias. Ofte mi frue tute ne pritraktis tiujn kazojn, ĉar mi ne volis trokompliki la aferojn.

Vortetoj, kiuj povas havi en sintakso plurajn funkciojn, kaŭzas ĉiam problemojn. La plej problema estas evidente la vorteto: „kiel“. Sed ankaŭ vortetoj „ĝis“ kaj „dum“ rolas kiel aŭ prepozicioj aŭ konjunkcioj (aŭ pli precize frazenkondukiloj). En la lasta rolo ili estas similaj al vortetoj: „kvankam, apenaŭ, kvazaŭ“. Pli detale oni legu pri tio en PMEG.

  • Li legis multajn librojn, dum li studis.
  • Dum la mateno estas tre varme en tiu lando.

En pola lingvo oni uzas du diferencajn esprimojn por tiuj du kazoj

  • dum – gdy, w czasie gdy (kiel konjunkcio)
  • dum – w czasie (kiel prepozicio)

Vorteto ‚ĝis‘ havas ankaŭ tempan kaj lokan signifon.

  • Ĝis li laboris, li havis monon.
  • Li iras ĝis la bordo.
  • Ĝis mateno li atendis la amikon.
  • Li estis tre fama ĝis nun.

Oni atentu, ke „ĝis“ povas ankaŭ esti en unu strukturo kun primitivaj tempaj adverboj: „nun, morgaŭ, …“.Por sintaksa analizo malfacile estas diferenci en kiu rolo aperas la vorteto. Se la sintaksa analizo grupigas false la vorteton kun sekva substantiva frazparto, tiam en frazo mankas la subjekto.

  • Korekte – [Ĝis] [patro] laboris, li havis propran monon.
  • False – [Ĝis patro] laboris, li havis propran monon.

Interesaj estas fiksaj grupoj „antaŭ ol“ kaj „post kiam“, kiuj ankaŭ rolas kiel frazenkondukiloj. La grupo „antaŭ ol“ estas de tute alia speco ol iliaj eroj. „antaŭ ol“ estas nun frazenkondukiloj, kvankam nek „antaŭ“ nek „ol“ povas sole havi tiun rolon. Oni ne povas forigi unu elementon sen perdi la gramatikan korekton de tuta frazo. Tio estas en Esperanto tre malofta fenomeno, kiu tre helpas ĉe konstruo de sintaksa analizilo. Ĉe „post kiam“ oni povus konsideri „post“ kiel modifo de „kiam“. Tiuj grupoj similas ankaŭ al grupo „por ke“. Ankaŭ en Esperanto estas vera la statistika pareto regulo 20/80. 20% de kazoj rezultigas 80% de laboro. La sintaksan analizilon en Esperantilo mi programas jam 1 jaron, sed por korekte analizi la kromajn kazojn mi necesus aldonajn 5 jarojn. Eĉ pli malkontentiga esta la konstato, ke ofte la nunaj teknikaj solvoj en programo ne kapablas analizi tiujn restantajn kazojn, tial eble por ĉiam restas iuj frazoj, kiuj ne estas analizitaj korekte. Mi esperas tamen, ke programlingvo XOTcl, kiun mi uzas, estas sufiĉe fleksebla ankaŭ por tiuj kazoj.

« Newer PostsOlder Posts »

Powered by WordPress