Esperantilo Blogo en Esperanto pri projekto Esperantilo kaj komputila lingvistiko

23.4.2007

Nova eldono 0.92 de programo Esperantilo

Filed under: ĝenerale — artur @ 08:33

Esperantilo nun enhavas tezaŭron (aroj de sinonimaj vortoj), kiu povus esti uzate direkte kun redaktado per funkcio „Redaktu->Sinonimoj“ aŭ klavkombino Ctrl-j aŭ per speciala dialogo „Lingvistiko->Esperanta Tezaŭro“. Mi kompilis la tezaŭron aŭtomate de priskriboj de REVO-vortaro kaj plejparte de priskriboj de esperanta ĉeĥa vortaro de Jan Amos Komenský. Kvankam mi korektis kelkcent sinonimojn mane, la tezaŭro daŭre enhavas multe erarojn kaj estos certe la temo de venonta prilaboro. Esperantilo serĉas anakaŭ sinonimojn helpe de germana vortaro per retraduko (esperanta->germana->esperanta).

Sintaksa analizo

Tiu estas la ĉefa objekto de mia laboro. La plibonigoj havas direktan influon sur kvalito de maŝina tradukado kaj uzebleco de gramatika korektado. Tamen sintaksa analizo estas daŭre melferma tasko kaj ekzistas multaj kazoj, kiu bezonas plibonigoj en programo.

  • Esperantilo nun rekonas virajn kaj virinajn nomojn laŭ vikipedia paĝo.
  • Esperantilo strebas rekoni ankaŭ nekonatajn vortojn nur laŭ finaĵo.
  • Kelkaj kazoj de erara rekono de subfrazoj estis korigitaj.
  • Korekto de analizo de frazoj kun „kiel“, ekzemple: Li estas kiel granda domo.
  • Plivastigita analizo de vorteto „nur“.
  • Analizo de frazparto de tipo „10 ĝis 20“.
  • Rekono de personaj nomoj de tipo: Gustavo la Unua, Anna de Rulle, Barbara Górniak
  • Mi plivastigis mian bazon de ekzemplaj frazoj je kelkaj specialaj kazoj.
  • Rekono de subfrazo kun „se“ ankaŭ sen komo.
  • Korekta analizo de vortgrupo: „nur kiam“, „nur se“.

Pola tradukado

  • Reordigo de personaj pronomoj de lasta pozicio al antaŭlasta pozicio.
  • Korekta tradukado de frazpartoj: Kiom alta, tiom alta.
  • Tradukado de vortoj kun „adi“ kaj „ado“ al polaj durativaj (niedokonany) formoj.

20.4.2007

Vortaraj trezoroj en la TTT

Filed under: lingvistiko — artur @ 19:45

Mi lastatempe trovis ĉeĥan esperantan vortaron de Jan Amos Komenský sur tiu ttt-paĝo. La ĉefa paĝo estas nur en ĉeĥan lingvo kaj mi havis multajn problemojn retrovi la paĝon. Feliĉe mi povis ion kompreni la pagon kaj mi sukcesis elŝuti la vortaron.

Do mi pensas, ke tiu vortaro ne estas tre konata kaj vere kaŝita trezoro. La vortaro estas en kelkaj vidpunktoj tre interesa. Ĝi estas libera por nekomerca uzado. Ĝi estas tre abunda (170000 nocioj!). Ĝi estas preparita en formato de programo Exel. Tre agrable por komputila prilaboro estas la strukturo de vortaro. La vortaro definas por unu nocio: radiko, nocio, fako, ĉeha traduko, esperanta priskibo aŭ sinonimoj, ĉeĥa priskribo.

Mia unua penso pri tiu vortaro estis. Ho, ĉu mi ne sonĝas, ĉu tiu vortaro vere ekzistas. Por pola lingvo, do lingvo de lando, en kiu naskiĝis ja Zamenhofo, ne ekzistas komparebla vortaro kaj ĉeha nacio havas tiun grandan bonŝancon havi iun, kiu kreis kaj eldonis tiun vortaron laŭ moderna maniero kaj eĉ permesis al alian uzi ĝin. Se tia vortaro ekzistus por pola lingvo, miaj daŭraj obstakloj pri kolektado de polaj vortoj ne estus necesaj. Kvankam la vortaro pritraktas la ĉeĥan lingvon, ĝi montriĝis tre praktika por miaj celoj. Unue ĝi estas la granda provizio de vortoj. Ĝi povus servi kiel kompara matarialo por aliaj vortaroj. Feliĉe la kreinto de vortaro por ĉiu nocio difinis la radikon de vorto. Ĉeĥa kaj pola lingvo estas tre similaj. Mi povis derivi multajn tradukojn simple per anstatŭigo de kelkaj literoj.

Esperanta lingvo Ĉeha lingvo Pola lingvo
amuza zábavní zabawny
fiziologo fiziolog fiziolog

Post la antaŭigo, mi povis testi, ĉu tiu vorto ekzistas en pola lingvo, poste mi povis aŭtomate krei la liston kun eblaj tradukoj, kiujn mi povas mane tralabori.

Trazaŭro

Due mi pritraktis la esperantan priskribon de nocioj en tiu vortaro. Ofte ili estis sinonimoj de vortoj. Per tiuj informoj kun priskriboj de REVO-Vortaro mi kreis la liston de sinonimoj, kiu estas bazo por mia esperanto-esperanto vortaro. Tia vortaro estas ankaŭ konata kiel trezaŭro (vidu ankaŭ Trezaŭron de UEA). La tiel kreita listo estas tre abunda sed badaurinde enhavas multajn erarojn. Multaj de ili mi korektis, sed aliaj restos sen korekto. Mi esperas, ke kun helpo de tiu listo mi povos iam krei la sencan reton de vortoj, kiu estos necesa por sekva ŝtupo de maŝina tradukado. Nun la trezaŭro en Esperantilo estas la listo kun sinonimoj, unu sinonimo de linio. La linio enhavas vortoj separitaj per simbolo „:“, kiuj apartenas al unu sinonimo.

maldekstra : liva

granda : potenca : ega : kolosa

ĉiutage : en ĉiu tago

becikle : per beciklo : perbecikle

La trezaŭro povas esti uzita per 2 manieroj (En venonta eldono 0.92 de programo Esperantilo). Vi povas uzi la specialan dialogon „Trazaŭro“ per menuo „Lingvistiko->Trezaŭro“ aŭ direkte en teksto per loka menuo „Redaktu->Sinonimoj“ aŭ klavkombino „Ctrl-j“. Tiu listo estas uzata ankaŭ en proceso de maŝina tradukado. La alia valoro de tiu vortaro estas la fakaj priskriboj (Ekzemple: sport, geogr, bot) de ĉiu vorto.Tamen mi havas kelkajn problemojn kun tiu vortaro. Unue la kvanto da nocioj estas tre abunda, ĝi enhavas tre maloftajn vortojn. Multaj de ili mi ne povis trovi nek en aliaj vortaroj nek en la interreto. Do mi ne decidis importi tiujn vortojn al vortaro de Esperantilo.

11.4.2007

Roloj de vorto „eble“

Filed under: lingvistiko — artur @ 18:39

Korekta sintaksa analizo de Esperantilo estas tre grava por aliaj funkcioj. Do kvalito de analizo influas la taŭgecon de gramatika korektado kaj ankaŭ la kvalito de traduko. Ĉe uzado kaj kontrolado de programo mi iom post iom malkovras novajn strukturojn de esperanta lingvo. Ofte montriĝas, ke la primitiva dispartigo de specoj de vortoj inter: Substantivoj, Verboj, Adjektivoj, Adverboj kaj Numeraloj ne estas sufiĉe, se oni volas difini funkcioj de vortoj. Mi ofte devas pritrakti kelkajn vortojn tute speciale. Plej granda parto de tiuj specialaj vortoj apartenas al tiel nomataj primitivaj adverboj. Tiuj vortoj estas ekzemple: tro, ne, tre, eĉ, ankaŭ, ankoraŭ. La pritrakto de tiuj vortoj rezultas pli-malpli 50% de reguloj de sintaksa analizilo.

En la lasta tempo mia atento estas direktita sur la adverbo „eble“. Mi rimarkis, ke Esperantilo ne povas korekte analizi kelkajn frazojn kun tiu vorto. Tiu vorto ne nur rolas la kutimajn funkciojn de adverboj (priskribi verbojn, adjektivoj aŭ aliaj adverboj) sed povas priskribi preskaŭ ĉiujn vortojn. Mi donu kelkajn ekzemplojn.

Li eble estas en domo.
Li parolas pri eble granda libro.
Eble li parolas pri ŝi.
Li parolas eble pri ŝi.
Li parolas pri eble unu libro.
Li volas kiel eble plej grandan veturilon.
Estas eble fari tion.


La lasta ekzemplo de uzado de „eble“ en frazo: „Estas eble fari tion.“ ne estas tre ofta. Ĝi similas al germana: „Es ist möglich das zu machen“. Oni nun pli prefere uzas la varianton „Eblas fari tion.“. Interesaj estas kazoj, kiam „eble“ modifas la numeralon aŭ subjekton. La funkcioj de adverbo „eble“ similas tre al funkcioj de vorteto „ne“.

Li ne estas en domo.
Li parolas pri ne granda libro.
Ne li parolas pri ŝi.
Li parolas ne pri ŝi.
Li parolas pri ne unu libro.


Vorto „eble“ strukture havas tre fortan graviton sur la maldekstra pozicio. Nur prepozicioj estas pli fortaj: „Li parolas [eble [pri ŝi]]“. Adverbo „eble“ aperas ankaŭ kiel najbaro de aliaj primitivaj adverboj: „eble eĉ“, „eble ne“, „eble tro“.

Tradukado de vorto „eble“ al pola lingvo

Diferencaj funkcioj de vortoj ofte evidentiĝas, se oni provas traduki ilin al alia lingvo. Por pola lingvo ni devas diferenci 4 variantojn.

Li eble estas en domo. On może jest w domu.
Li parolas pri eble granda libro.
On mówi o przyposzczalnie wielkiej książce.
Estas eble fari tion. Jest możliwe to zrobić.
Li volas kiel eble plej grandan veturilon. On chce możliwie największe auto.

Aliaj similaj vortoj

Mi supozas, ke ankaŭ aliaj adverboj havas tiujn vastajn kapablojn. La kandidatoj estas vortoj: „verŝajne“, „certe“, „supozeble“, „ekzemple“, „ekzakte“. Ĉiuj tiuj vortoj esprimas certecon pri sekva esprimo. Tio kondukas al novaj strukturoj, kiuj ne bone kongruas kun tipaj frazpartoj. Mi traserĉos la tekstaron je tiuj vortoj.

Powered by WordPress