Esperantilo Blogo en Esperanto pri projekto Esperantilo kaj komputila lingvistiko

18.7.2011

Lingvaj rimedoj por rusa lingvo

Filed under: lingvistiko,maŝina tradukado — artur @ 20:45

Mi ofte vane provis trovi en la reto lingvistikaj rimedoj (provizoj) por rusa lingvo. Mi povas bone kompreni la parolan rusan lingvon, sed mi ne bone legas kaj skribas ĝin. La pola lingvo kaj rusa lingvo estas tre similaj pro kuna slava heredo. Mi pensas, ke oni povas facile krei la maŝinan tradukado al rusa lingvo uzante la maŝinan tradukadon al pola lingvo. La fleksia sistemo estas preskaŭ la sama. Temen oni devus havi sistemon, kiu povas generi de vortara formo la celan formon laŭ kazo kaj nombro (por substantivoj).
La kreado de tiu sistemo estas tre komplika kaj oni devus tre bone koni la lingvon, do tion mi ne povas fari. Nun mi trovis en la reto sur pagoj de Serge Sharoff la liston de bazaj formoj kun gramatikaj priskriboj kaj ĉiuj feksitaj formoj. De tiu listo oni facile povus krei tian fleksilon. Mi spertis, ke fleksio kaj bona traduka vortaro estas la plej laborintensa takso ĉe maŝina tradukado, kiu bazas sur reguloj.

Ekzistas kelkaj diferencoj inter pola kaj rusa lingvo, kiuj postulus ŝanĝoj en tradukilo.

  • verboj ‚esti‘ kaj ‚havi‘ preskaŭ malaperis en rusa lingvo.
  • en pola lingvo adjektivo povas stari post substantivo.
  • la rusa lingvo konas pli la kunmetitaj vortoj.
  • En la rusa lingvo ekzistas pli da tipoj de participoj.

Ĉiuj aliaj diferencoj oni povus kovri per traduka vortaro.

La rusa komputila lingvistiko havas onidire tre longan tradicion, tamen tiu tradicio ne rezultis abundon de liberaj iloj kaj fontoj kiel la angla lingvo. Aŭ eble tiuj iloj ekzistas sed ne estas por mi troveblaj.

Nun mi devas havi nur sufiĉe da tempo kaj deziron programi tion.

7.6.2011

Facila vento kaj Esperantilo

Filed under: lingvistiko,uzantoj — artur @ 22:29

Facila vento estas tre interesa nova reta projekto. La ideo estas prepari facilajn esperantajn tekstojn por komencantoj. Tiuj tekstoj devas uzi nur bazajn radikojn por esti facile legebla.

La iniciato de projekto Emilio Cid esperas je helpo de esperantistoj ĉe tradukado de tekstoj de kutima Esperanto al facila Esperanto.
La programo Esperantilo estas uzata kiel helpilo ĉe tiu tradukado. Sur la paĝoj de projekto estas atingebla speciala Esperantilo, kiu povas literumi kontraŭ tiu baza radikaro.

Interese, ke ĉe tiu okazo ekestis la unua filmeto pri Esperatnilo ĉe youtube kaj
ankaŭ la unua ido de Esperantilo. En tiu filmeto Emilio montras, kiel oni faciligas
tekstojn kun helpo de Esperantilo. La faciligado mem ne estas facila tasko. Oni devas multe konsulti la vortaron kaj la literumilo ne estas
plene fidinda.

La temo estas tre interesa. Estas vere farinda afero plibonigi la Esperantilon por faciligado de tekstoj.
Mi pensas pri

  • pli fidinda literumilo
  • tuja montro de grupo
  • vortaro de bazaj radikoj
  • simpla kreo de listo de dezirindaj vortoj

Ankaŭ pensebla estus maŝina tradukado de Esperanto al facila Esperanto. Precipe oni povas anstataŭigi la maldezirindajn vortojn je vortoj de baza radikaro. Ankaŭ la gramatika kontrolilo povas averti pri maldezirindaj gramatikaj strukturoj.

Ankaŭ nun Esperantilo enhavas kelkajn ilojn por krei facilajn tekstojn. Temas pri funkcioj en menuo „Lingvistiko“

  • Marku maloftajn vortojn
  • Marku maloftajn radikojn
  • Marku neoficialajn vortojn

Nun mi devas havi nur multe de tempo por tiuj taskoj. Mi esperas, ke ekestos multaj facilaj tekstoj, kiujn mi povas kompari kaj analizi. Mi ŝatas facilajn tekstojn kaj ofte jam koleris pri malfacilaj tekstoj.

28.5.2010

Esperantilo en Firefox (Fajrovulpo)

Filed under: lingvistiko,programado — artur @ 19:15

Unu de plej valoraj funkcioj de Esperantilo estas literumado kaj gramatika kontrolilo. Dezirinda afero estas, ke uzantoj povus uzi tiujn funkciojn direkte en siaj programoj. Esperantilo ne povas neniam iĝi dokumentoredaktilo aŭ ttt-montrilo, kiuj nun estas la plej
uzataj programoj. Ofte tiuj grandaj programoj ebligas tiel nomatajn kromprogramojn (extensions, plugins). De longa tempo ekzistas Esperantilo kiel kromprogramo por OpenOffice.
La dua grava programo, per kiu oni skribas tekstojn estas ttt-montrilo kiel Firefox. En tempo de Web2.0 la ttt-montrilo estas ofte la sola programo, kiun neprogresinta komputiluzanto konas.

La programado de kromprogramoj estas komplika afero. Ĉiu programo havas propran interfacon por kromprogramoj (API). Mi longe atendis, ĝis OpenOffice havis la bazan eblon por gramatika korektado. Mi ankaŭ longe pensis pri gramatika kontrolado por Firefox, sed ĝis nun ne ekzistas en Firefox la facila eblo por gramatika kontrolado. Mi regule traserĉis la reton je tiu afero.
Kaj subite nun mi malkovris la projekton After The Deadline, kiu ebligas gramatikan kontroladon por angla lingvo kaj kelkaj aliaj lingvoj.
Feliĉe tiu kromprogramo estas malfermfonta kaj publike uzebla. Do nun ĉiu povas reuzi partojn de tiu kromprogramo.

AfterTheDeadline kontrolilo uzas specialan teknikan dizajnon. La kromprogramo nur kolektas tekstojn kaj sendas tiun tekston per HTTP/post (nun HTTPS) al servilo de projekto, kiu fakte faras la gramatikan korektadon. La kromprogramo ricevas la rezulton de korektado kiel XML. La rezulto enhavas erarojn, sugestojn kaj erartipojn.

Rezulto kiel XML-dosiero.

<results>
  <error>
    <string>kato</string>
    <description>uzu akuzativon</description>
    <precontext>la</precontext>
    <suggestions>
         <option>katon</option>
    </suggestions>
    <type>grammar</type>
  </error>
  <error>
    <string>provramas</string>
    <description>Spelling</description>
    <precontext>Mi</precontext>
    <suggestions>
	<option>programas</option>
    </suggestions>
    <type>spelling</type>
  </error>
</results>

La ideo estas, ke Esperantilo povas agi kiel la servilo por AfterTheDeadline kromprogramo. Mi analizis la fontokondon de kormprogramo, kiu estas skribita en JavaScript. Mi skribis programaton, kiu faras de Esperantilo la servilon por AfterTheDeadline kromprogramo.

Kiel uzi Esperantilon direkte en Firefox?

Esperantilo sur Firefox

Unue instalu la kromprogramo AfterTheDeadline kromprogramo en eldono 1.2 kun aliaj dosieroj. Pro teknikaj kialoj mi devis paki la dosierom xpi (Firefox plugin) en zip. Por instalo malpaku la dosieron afterthedeadline.zip kaj malfermu la dosieron addon-58947-latest.xpi per Firefox.

La nova kromprogramo, kiun oni povas elŝuti direkte de pago de projekto firefox.afterthedeadline.com
, bedaŭrinde ne funkcias kun Esperantilo. La aktuala eldono 1.3 usas https protokolon, kiun nun ne komprenas Esperantilo.

La adreson de servilo, kiu faras la gramatikan korektadon, oni povas ŝanĝi en preferaĵoj de Firefox. Vi tajpu „about:config“ en adreskampo de programo. Post ignoro de kelkaj avertoj, vi povas elekti la preferaĵon „extensions.afterthedeadline.proofreadLanguage“ kaj entajpi la lokan adreson de esperantiloservilo „localhost:8888“.

Firefox about:config

Poste oni trovas malgrandan programeton „AfterTheDeadlineServilo.xotcl“ en supra zip-dosiero, kiu faras de Esperantilo servilon por AfterTheDeadline kromprogramo. Poste startigu la programeton „AfterTheDeadlineServilo.xotcl“ per menuo en Esperantilo „Lingvistiko->Aliaj ekspertaj funkcioj->Lanĉu Tcl-skripton“. Aperas malgranda fenestreto kun informo, ke la servilo kuras.

Esperantilo kiel servilo por AfterTheDeadline
Vi devas ripete startigi tiun programeton, kiam oni startigas Esperantilon. Post tio vi povas uzi la gramatikan korektadon de Esperantilo direkte de Firefox.

Limigoj de kromprogramo AferTheDeadline

Bedaŭrinde ne ĉiujn erarojn de Esperantilo oni povas vidi en Firefox. La problemo estas, ke la kromprogramo ne regas interpunkcion.
Do falsa interpunkcio ne povas esti reportata de servilo. Due ŝajnas, ke la kromprogramo havas problemojn kun specialaj signoj „kiel > <„. Do mi ne povis kontroli tiujn tekstojn direkte en Firefox. Ĉe longaj tekstoj (pli ol 10 frazoj) la kontrolado daŭras tre longe, ĉar la tuta teksto estas sendita al Esperantilo. En tiuj kazoj oni uzu programon OpenOffice aŭ Esperantilo direkte. La kromprogramo estas ankaŭ tre sentema je eraroj de servilo. Verdire la kromprogramo estas nova kaj eble enhavas multajn eraretojn.

Estas interesa afero, ke aŭtoroj de programo AfterTheDeadline uzas servilon por la gramatika korektado. Tio ja signifas, ke la tuta teksto estas sendata al servilo. Mi estas iom skepta pri tio, ĉar mi ne volus, ke iu povas kolekti ĉiujn tekstojn, kiujn mi skribas. Due la laboro de servilo kostas monon. Estas alia afero doni iun programon senkoste ol pagi por ĉiu uzo de la programo. Do se la projekto estos tre sukcesa, tiu kostoj estas pli altaj kaj oni devus havi pli da mono.

Esperantilo faras sian laboron sur komputilo de uzanto (loke). Do nenia teksto forlasas komputilon de uzanto.

Venonto de Esperantilo sur Firefox

Mi scias, ke nun la uzado de Esperantilo sur Firefox estas tro komplika por averaĝa uzanto. Oni devas instali kaj agordi eksteran programon. Poste oni devas fari taskojn en difinita ordo. La idealo estus la speciala kromprogramo, kiu en si mem enhavas Esperantilon kaj faras ĉiujn taskojn aŭtomate. Due mi povus aldoni la modifitan kromprogramon por firefox kun tuta Esperantilo.
Mi volas ankaŭ kontakti la aŭtorojn de AfterTheDeadline, por ke la kunlaboro de ilia kromprogramo estu pli
facila kun aliaj gramatikaj korektiloj.

AfterTheDeadline ne estas nur kromprogramo por Firefox, sed ankaŭ enhavas aliajn servilajn modulojn por gramatika korektado.
Ili povas estis uzataj direkte en blogoj sen iu instalado de uzanto. Ankaŭ por tiuj scenaroj Esperantilo povas esti nun uzata kiel gramatika servilo.

Dum programado mi uzis testajn html-paĝojn por rigardi la mesaĝojn de AfterTheDeadline servilo. Tiuj paĝoj povas krei direkte de html-form la HTMLL/Post mesaĝon, kiun analizas la gramatika servilo. Vi trovos tiun testajn paĝojn en supra zip-dosiero.

Mi penas, ke iom post iom la gramatika korektilo estos la kutima funkcio, kiun atendas uzantoj simile kiel hodiaŭ literumadon.
Do eble ankaŭ aliaj programoj subtenos la gramatikan korektadon de komenco.
Esperantilo povus servi kiel gramatika modulo por aliaj programoj.

19.2.2010

Nova literumilo en Esperantilo

Filed under: lingvistiko — artur @ 17:07

Nova literuma vortaro en Esperantilo

Fine mi decidis krei novan propran vortaron por literumilo Hunspell.
Pri la literumado mi jam skribis du foje en mi blogo (Literumado – ISpell, ASpell, MySpell, Hunspell kaj Projekto Lingvohelpilo kaj Literumado)

En malnovaj eldonoj ekzistis du literumiloj en esperantilo. La interna literumilo de Esperantilo, laboris kun vortaro de tn. radikaro. La dua literumilo baziĝis sur hunspell kaj estis uzata nur por sugestoj de korektoj. Tiu literumilo devenis de tiama OpenOffice kaj estis kompletita de Sergio Pokrovskij kaj Dmitri Gabinski. La kromprogramo Esperantilo por OpenOffice uzis nur la literumilon de Hunspell.

La kreinto de programo ĉapelilo Pejno Simono kontaktis min kaj plendis pri la literumado de esperantilo. La programo ĉapelilo ne plu funkcias sur nuna vindozo. Fakte, la esperanta literumilo ne konis kelkajn oftajn vortojn, kiuj estis jam en ĉapelilo. Li sendis al mi la liston de vortoj de ĉapelilo. Fakte, en tiu listo estas multaj vortoj, kiujn ne konas Esperantilo. Mi ne uzis la liston de ĉapelilo direkte, ĉar ĝi enhavis multajn vortojn, kiujn mi ne trovis en esperantaj tekstoj. Mi decidis plivastigi la radikaron de Esperantilo kaj krei de tiu listo la vortaron por Hunspell. Tamen el la diskuto kun Pejno Simono ekestis kelkaj ideoj por kreo de nova literumilo.

Tiuj ideoj estas:

  • Literumilo ne estas vortaro. Do ĝi unue devas trovi literumajn erarojn kaj ne enhavi ĉiujn vortojn de normala vortaro.
  • Esperanto estas lingvo tre favora por vortfarado. La literumilo devas konsideri tiun.
  • Se ekzistas iu vorta kunmetaĵo, do nepre ekzistas ankaŭ la aliaj devenaj vortoj.
  • Literuma vortaro devas enhavi nur la plej oftajn vortojn, ne ĉiujn eblajn vortojn.

Ekzemplo de dua punkto.

Se ekzistas transitiva verbo „legi“ ekzistas ankaŭ adjektivo „legebla“. Se ekzistas adjektivo „pura“ ekzistas ankaŭ „pure, malpura, pureco, purulo, plipurigi“. Oni povas konstrui multajn tiujn regulojn, kiuj oni povas enprogrami en priskribo de Hunspell literumilo.

Ekzemple on Hunspell oni povas difini adjektivan sufikson „A“ kaj poste eblajn devenaj vortojn.

SFX A Y 25
SFX A 0 0/XmNEV .
SFX A 0 eg/XmNEV .
SFX A 0 et/XmNEV .
SFX A 0 ul/XmNE .
SFX A 0 ulin/XmNE .
SFX A 0 egul/XmNE .
SFX A 0 egulin/XmNE .
SFX A 0 etul/XmNE .
SFX A 0 etulin/XmNE .
SFX A 0 ec/XmN .
SFX A 0 egec/XmN .
SFX A 0 aĵ/XmN .
SFX A 0 egaĵ/XmN .
SFX A 0 aĵeg/XmN .
SFX A 0 etaĵ/XmN .
SFX A 0 aĵet/XmN .
SFX A 0 ig/XpV .
SFX A 0 ig/XpnN .
SFX A 0 igat/XpnNE .
SFX A 0 igot/XpnNE .
SFX A 0 igit/XpnNE .
SFX A 0 igant/XpnNE .
SFX A 0 igont/XpnNE .
SFX A 0 igint/XpnNE .
SFX A 0 igil/XpN .

Mi opinias, ke ne ĝenas, ke iu derivo ne estus senca esperanta vorto. La literumilo devas unue trovi mistajpitajn vortojn, sed ne decidi ĉu iu vorto estas valida esperanta vorto. Por tiu tasko ekzistas ja vortaroj kiel REVO.

La kreito de programo ĉapelilo konstruis tiujn vortojn aŭtomate. La aŭtomata konstruo de vortoj havas la malavantaĵon, ke oni post ne scias, kiu vorto estas la origina kaj kiu la aŭtomate kreita. Tiam ne ekzistis tamen la kababla literumilo kiel Hunspell, kiu subtenas vortfaradon.

Mi kolektis ankaŭ grandan tekstaron por testi kaj kompari literumilojn kaj trovi novajn vortojn.

Mi decidis krei du vortarojn por la literumilo. La unua rekonas nur vortojn, kiuj estas en radikaro kaj direktaj derivoj. La dua (la morfologia vortaro) povas ankaŭ rekoni kunmetaĵoj aŭ kombinoj de bazaj vortoj. Mi decidis uzi du vortarojn por oferi al uzantoj du strategiojn, kiuj ankoraŭ ekzistis en malnova Esperantilo.

La unua vortaro ne rekonas vortojn, kiuj estas tre maloftaj kreaĵoj. La dua vortaro povas ne rekoni literuman eraron, ĉar la eraro povas esti valida kombino.

Ekzemple:

La vorto „kontrau“ estas evidente la misskribita vorto „kontraŭ“. Sed tiu eraro povas esti komprenata kiel allasebla vortfarado (kon+tra+u) (koni + trai – uzado de vorteto kiel radiko). Ĉar en Esperanto ekzistas multaj du- aŭ triliteraj radikoj, tiuj misinterpretoj povas ofte okazi.

Mi ankaŭ publikas la listojn por komparo de literumiloj. La bazo pro testado de literumilo estas la listo de vortoj, kiuj estas orditaj laŭ la ofteco de vortoj.

Plej oftaj vortoj en esperanta vikipedio

la 1335212 0
de 1182863 0
en 561205 1
kaj 495182 1
estas 327751 2
La 239306 2
al 170132 3
estis 148179 3
el 117040 3
NGC 112629 3
por 94307 4
En 87643 4
kun 84794 4
kiu 78509 4
li 78500 4
komunumo 72231 4

La esperanta vikipedio enhavas 21.265.680 vortojn. Mi ne sukcesis forigi specialajn formatajn vortojn de vikipedia tekstaro. Do la listo estas malpurigita per specialaj formataj vortoj de vikio.

La listo enhavas: vorton la ofteco de vorto en vikipedio kaj oftecan grupon (La vortoj de grupo n estas duoble oftaj kiel la vortoj de grupo n+1). La plej ofta estas la vorto „la“, kiu aperas 1335212 foje en la esperanta vikipedio. Do oni povas de tiu listo malfacile kaj rapide testi la literumilon.

Ĉiuj ekzemploj por unikso (aŭ cygwin medio).

Ekzemple
Trovi konatajn vortojn


hunspell -d eo_ilo -G <wiki_frek.txt

Trovi nekonatajn vortojn


hunspell -d eo_ilo -L <wiki_frek.txt

La bona flanke de tiu metodo estas, ke la listo estas ordigita laŭ la oftece de vortoj.

Oni povas per tio simile kompari literumiloj. Ekzemple kiel trovi vortojn kiuj estas konata en unu literumilo sed ne en la dua


hunspell -d eo_ilo -L <wiki_frek.txt | hunspell -d eo_morf -L -G

Oni povas ankaŭ kalkuli la nombroj de vortoj per komando „wc -l“.
Por trovi la nombron de vortoj por kiu la literumilo raportas la eraron en tuta esperanto vikipedio
oni uzu


hunspell -d eo_ilo -L <wiki_frek.txt | awk 'BEGIN{ i=0 } {i=i+\$2} END{print "nombro " i}'

Komparo de literumiloj

En la suba tabelo oni vidas, kiel ofte iu literumilo raportas erarojn kun specifa tekstaro. Ekzemple la nova literumilo de esperantilo raportas sur tekstaro de libera folio (553106 vortoj) 34715 foje la eraran vorton. Tio estas relative 6.28% de vortoj. Tio signifas, ke averaĝe la literumilo reportas de 100 vortoj pli-malpli 6 erarojn.



LiterumiloVikipedioLibera foliotekstaroGutenbergoPIVREVO
Vortnombro2126568055310642752687108074774623002
Esperantilo nova4183741347151737663693917034512
19,67%6,28%4,06%5,20%35,68%2,23%
Esperantilo-vortfarado3924472337861631533680511764442
18,45%6,11%3,82%5,18%24,64%1,92%
Malnova de OO47633414333623127439562190867101
22,40%7,84%5,41%5,57%39,97%30,87%
Listo de Ĉapelilo440500639773221277372628.6534291
20,71%7,19%5,18%5,24%18,12%18,65%
Malnova Esperantilo45606604284019146539635
21,45%7,75%4,48%5,58%
Literumilo de Marek Blahus423493580031191822
7,66%5,04%6,53%7,92%
PIV literumilo (47746)48368515475327089352055
22,74%9,90%6,34%7,32%
Revo literumilo (23002)53377936706937862440807
25,10%12,13%8,86%5,74%

Mi ankaŭ trovis la listojn de kapvortoj de PIV kaj Revo kaj ankaŭ uzis ilin por komparo. Oni tuj rimarkas, ke la malnova literumilo de OpenOffice estas la malplej abunda. Tre bona estas la listo de programo ĉapelilo. La malnova Esperantilo ne estis tiel malbona, kiel oni sugestis. Oni tuj vidas, ke la literumiloj de ĉapelilo kaj Marek Blahus enhavas preskaŭ ĉiujn vortojn de PIV. Mi ne decidis simple enigi kapvortojn de PIV, ĉar tio ne plibonigus la rezulton. PIV enhavas multajn vortojn, kiujn oni nenie aliloke trovas. Mi timis, ke tiuj maloftegaj vortoj de PIV povas negative influi la kapablon de literumilo trovi erarojn. Mi delonge uzis la esperantan tekstaron kaj REVO por kompili la malnovan literumilon, do la rezultoj sur tiu tekstaro (listo) estas ankaŭ por malnova Esperantilo bonaj.
Tiu literumilo havas por gutemberg-tekstaro la plej bonan rezulton. La literumilo de Marek Blahus prezentas bonajn rezultojn, sed praktike ĝi estas apenaŭ uzebla por granda tekstaro, ĉar la speciala kompilado de vortaro iĝas la literumilon tre ege malrapida.

Ekzemple jen la listo de gutenbeg-tekstaro de vortoj, kiuj ne konas Esperantilo, sed kiuj konas literumilo de Marek. Do temas ofte pri nomoj. Sed en tiu listo mi trovis ankaŭ dubindajn vortojn: trad, Praha (oficiale estas Prago).

PIV kaj REVO

Oni povas multe analizi, ĉu iu vorto estas en PIV aŭ REVO kaj kiel ofte en tekstaro. Laŭ tiu metodo oni povus ankaŭ analizi, kiu vortaro estas plej taŭga PIV aŭ REVO. La demando estas tre interesa, ĉar ŝajne PIV estas multe pli granda ol REVO. Mi kompilis literumilon direkte de vortoj de PIV kaj REVO. Tiujn literumilojn mi ankaŭ testis. Unue estas okulfrape, ke la listoj de REVO kaj PIV ne estas bonaj por direkta konstruo de literumilo.

Oni vidas, ke la diferencoj ne estas tiom grandaj malgraŭ tio, ke PIV enhavas duoble pli da vortoj ol REVO. La metodo de komparo de tiuj vortaroj ne estas perfekta, ĉar en Esperanto la leganto povas mem redukti vortojn al baza formo. Do en REVO oni ne trovas oftajn verbojn „necesas“ kaj „agado“, sed la uzanto de vortaro povus ja mem trovi la vortojn „necesa“ kaj „agi“, se li ion scias pri la esperanta vortfarado. Do la vera komparo de tiuj vortaroj devus esti pli detala kaj konsideri la regulojn de vortfarado.

Jen la listo de plej oftaj vortoj de libera folio, kiujn oni ne trovas en REVO.

UEA 2442 4
Zamenhof 382 7
agado 293 7
eblas 262 7
UK 253 8
Vikipedio 197 8
komitatanoj 184 8
Ĉinio 154 8
ktp 153 8
esperantlingva 152 8
estrarano 143 8
estraranoj 137 8
necesas 135 8
ILEI 132 8
Bjalistoko 126 9
s-ro 123 9
komitatano 118 9
IJK 114 9
multlingveco 114 9
EDE 105 9
aktivuloj 100 9
ekz 96 9
UN 89 9
paĝaro 88 9
vicprezidanto 85 9
esperantlingvaj 78 9
plurajn 76 9
unuafoje 75 9
prezidento 74 9
agadon 74 9
lernado 72 9
anglalingva 71 9
pasintjare 70 9
PEA 69 9
Jokohamo 69 9
TEĴA 59 10
pretas 59 10
diskutejo 58 10
SAT 57 10
jardekoj 57 10
iomete 55 10
kataluna 55 10

La simila listo por PIV

retejo 634 6
Zamenhof 382 7
eblas 262 7
UK 253 8
decembro 214 8
Vikipedio 197 8
aprilo 172 8
majo 168 8
julio 158 8
marto 157 8
novembro 149 8
ILEI 132 8
oktobro 127 9
aŭgusto 125 9
septembro 124 9
s-ro 123 9
januaro 119 9
IJK 114 9
multlingveco 114 9
februaro 112 9
eŭropaj 108 9
junio 107 9
eŭropa 107 9
EDE 105 9
ekz 96 9
UN 89 9
paĝaro 88 9
interreto 78 9
plurajn 76 9
Orban 73 9
retejon 73 9
kongresejo 72 9
anglalingva 71 9
PEA 69 9
usona 67 9
retejoj 64 10
nederlanda 62 10
TEĴA 59 10
emas 59 10
pretas 59 10
diskutejo 58 10
n-ro 55 10
Esperantio 52 10

Estas iom strange, ke en PIV-listo ne aperas nomoj de monatoj. Mi supozas, ke la vera PIV enhavas tiujn vortojn, sed mia listo estas fuŝa. En PIV ne ekzistas ankaŭ novaj vortoj kiel: interreto, paĝaro, diskutejo, vikipedio, retejo. Tiuj vortoj ekzistas en REVO.

Mi kolektis ĉiujn dosierojn por analizoj en unu elŝutebla arkivo, por ke ankaŭ la aliaj povas testi siajn listojn kaj vortarojn. La rezultoj ne estas tute konvinkaj, sed mi estas certa, ke la nova literumilo estas pli bona ol la malnova.

Nova literumilo sur OpenOffice

La aktuala kromprogramo Esperantilo por OpenOffice enhavas la novan literumilon. La problemo estas, ke OpenOffice ne subtenas du alternativajn vortarojn por unu lingvo. Tamen mi volis, ke la uzanto povas selekti, kiun vortaron li uzas: la normalan vortaron aŭ la morfologian vortaron. Tial mi difinis la morfologian vortaron, ke la vortaro por lingvo „zulu“. Do se iu volas uzi la vortaron, li elektu la lingvon „zulu“ kaj la morfologia esperanta vortaro estas uzata por literumado.

29.7.2009

Lingva ludo „vortaj amikoj“ en Esperantilo

Filed under: lingvistiko,uzantoj — artur @ 12:38

Esperantilo enhavas bazon de vortoj kun iliaj kuntekstoj (vidu menuo: Lingvistiko-Bazo de Frazpartoj).
La bazo estas kreita de granda esperanta tekstaro.
La kuntekstoj estas ordigitaj laŭ gramatika dependeco. Do oni povas trovi ekzemple, kiuj adjektivoj priskribas iun substantivon.

Ekzemplo por vorto „patro“:

np np-adj
cikonia (25), sankta (24), bona (8), kara (6), alia (5), malfeliĉa (5), malbona (4), maljuna (4), propra (4), adoptinta (3), cia (3), mortinta (3), prava (3), respektinda (3), sama (3), ĉiela (3), malsana (2), nuna (2), pia (2), senmorta (2), vera (2), dia (1), estinta (1), estonta (1), feliĉa (1), fiera (1), filiniginta (1), flama (1), forlasita (1), formortinta (1), gajninta (1), granda (1), ideala (1), ironta (1), juna (1), kontenta (1), kruela (1), laŭlega (1), laŭnatura (1), libera (1), malafabla (1), malnaturigita (1), natura (1), needziĝinta (1), proksima (1), ruĝhara (1), sana (1), saĝa (1), spirita (1), stulta (1), suna (1), vivanta (1), ĵusa (1)

obj vp-obj
havi (17), ami (8), demandi (4), simili (3), trovi (3), koni (2), rigardi (2), vidi (2), viziti (2), peti (2), timi (2), kovri (1), ekvidi (1), doni (1), respekti (1), kaŝrigardeti (1), nomi (1), rigardadi (1), ricevi (1), indulgi (1), anstataŭi (1), trompi (1), esperantigi (1), kontentigi (1), instigi (1), kuŝi (1), inciti (1), kisi (1), adiaŭi (1), povi (1), malobei (1), murdi (1), meti (1), impresi (1), eniri (1), transporti (1), postuli (1), rekoni (1), spiti (1)

subj vp-subj
esti (74), diri (59), veni (13), havi (11), povi (10), morti (10), fari (8), demandi (8), respondi (7), doni (5), voli (5), rigardi (5), rakonti (4), loĝi (4), dormi (4), ekkrii (4), nomi (3), komenci (3), devi (3), posedi (3), labori (3), reveni (3), scii (3), preni (3), akcepti (3), alporti (2), stari (2), ordoni (2), turni (2), aŭskulti (2), akompani (2), iri (2), aĉeti (2), fariĝi (2), promesi (2), paroli (2), ekvidi (2), ĵeti (2), kuŝi (2), kompreni (2), mencii (2), timi (2), plendi (1), ekplori (1), sidiĝi (1), aparteni (1), ekridi (1), forveturi (1), ekinstrui (1), konsili (1), demeti (1), aserti (1), ekzameni (1), rekomenci (1), donaci (1), agi (1), flugi (1), provi (1), ami (1), balanci (1), peti (1), rajdadi (1), konigi (1), etendi (1), trafi (1), diradi (1), ekloĝi (1), surprizi (1), montriĝi (1), iĝi (1), difini (1), fali (1), ŝerci (1), planti (1), observi (1), vivi (1), ekmiregi (1), humiliĝi (1), elekti (1), vendi (1), lasi (1), ektimi (1), preterpasi (1), plaĉi (1), legi (1), fidi (1), eksilenti (1), plenumi (1), ŝajni (1), levi (1), verki (1), prunti (1), enveni (1), certigi (1), ĉagreniĝi (1), ricevi (1), pentri (1), bruligi (1), ploraĉi (1), interparoli (1), malŝati (1)

sub vp-pp-sub
iri al (6), esti por (3), ricevi de (3), ĵuri al (2), veni al (2), fari por (2), fariĝi al (2), promesi al (2), esti de (2), esti kun (2), sendi al (2), heredi de (2), paroli pri (2), skribi al (2), eltrinki al (1), alporti al (1), stari apud (1), okazi al (1), fantazii pri (1), rapidi al (1), rapidi post (1), draŝi al (1), agi kun (1), veni je (1), veni kun (1), kortuŝi al (1), kvereli kun (1), stariĝi apud (1), fari de (1), iri kun (1), loĝi ĉe (1), lasi al (1), fariĝi de (1), elmezuri por (1), reveni al (1), levi al (1), prunti de (1), serĉi de (1), esti al (1), esti pri (1), regi de (1), persekuti de (1), interparoli kun (1), proksimiĝi al (1), havi kun (1), anonci al (1), ekpensi pri (1), akiri por (1), ludi de (1), ludi ĉe (1), diferenci de (1), pensi pri (1), verŝi al (1), ripeti al (1), renkontiĝi kun (1), kompreni al (1), bori kun (1), demandi al (1), ĉeesti kun (1)

sub sub-pp-sub2
de infano (9), de arne (3), de knabo (3), de maŭrico (3), de antono (2), de edzino (2), de fernando (2), de filo (2), de kristino (2), de amikino (1), de andreo (1), de anjo (1), de cindrulino (1), de familio (1), de georgo (1), de ido (1), de johano (1), de josefino (1), de junulo (1), de knabineto (1), de kristoforo (1), de lumo (1), de markizo (1), de matildo (1), de petro (1), de reĝido (1), de reĝino (1), de sfinkso (1), kun filo (1), kun voĉo (1)

sub2 sub-pp-sub2
palaco de (9), tombo de (6), domo de (4), volo de (3), alveno de (3), morto de (3), nomo de (2), ordono de (2), vizaĝo de (2), enterigo de (2), spirito de (2), kastelo de (2), kolo de (2), koro de (2), kolero de (2), bieno de (2), portreto de (2), amemo de (1), aspekto de (1), bildo de (1), forveturo de (1), amiko de (1), insistemo de (1), diro de (1), apudestado de (1), ago de (1), nombro da (1), laboro de (1), infano de (1), ĉapelo de (1), emo de (1), si de (1), edzino de (1), kadavro de (1), brandujo de (1), vorto de (1), kamarado de (1), rikoltisto de (1), voĉo de (1), vivo de (1), oficejo de (1), vizito de (1), ombro de (1), okulo de (1), vidpunkto de (1), brako de (1), renkonto kun (1), pereigo de (1), interparolo kun (1), lito de (1), mano de (1), gajno de (1), ĝi de (1), bato de (1), sledeto de (1), sinteno de (1), konduto de (1), letero de (1), korpo de (1), ĝojo de (1), restaĵo de (1), rolo de (1), edziniĝo kun (1), frenezaĵo de (1), seĝo de (1), heredaĵo de (1), trezorejo de (1), frato de (1), foriro de (1), tero de (1), kutimo de (1), virino de (1)

Mi trovis, ke oni povas diveni la vorton „patro“, nur de la kono de kuntekstoj. Tio estas la ideo de la ludo. Dum la ludo oni vidas nur la kuntekstajn vortojn (amikoj de vortoj) kaj devas elekti el la listo de 4 vortoj la konvenan vorton. La amikaj vortoj estas ordigitaj laŭ ofteco kaj estas montritaj nur plej facilaj gramatikaj dependecoj. La ludanto devas dum unu ludo diveni 10 vortojn (substativojn, adjektivojn aŭ verbojn). Vortoj estas elektitaj hazarde. Por ke la ludo ne estu tro malfacila, la ludanto devas diveni nur oftajn vortojn. La ludo estas nun la parto de programo esperantilo (de eldono 0.990) kaj estas atingebla per menuo (Lingvistiko/Ludo Vortaj Amikoj).

Ludo - Vortaj amikoj

La ludo ne estas facila kaj oni devas bone koni la lingvon. Tamen mi jam sukcesis diveni 10 ĝustajn respondojn. Iam okazas, ke la hazarde elektitaj vortoj por la elekto estas tre similaj, tiam la ludo enhavas hazardan elementon, ĉar oni ne estas eble elekti la ĝustan vorton nur de bona kono de lingvo.

Vortaj amikoj - perfekta rezulto

Mi pensas, ke la ludo estas interesa, ĉar oni ekkonas per tiu ludo la veran uzadon de vortoj, kiu devenas de granda esperanta tekstaro. Tiuj kuntekstoj estas ofte pensigaj kaj surprizaj.

Bonan Ludadon!

14.6.2009

Kolektado de ekzemploj de gramatikaj eraroj

Filed under: lingvistiko — artur @ 22:11

En la lasta tempo mi legis la diplomlaboron „Erarkolektado kaj Analizado“ de Sonja Petrović Lundberg. La diplomlaboro aperis kadre de projekto lingvohelpilo. Tio estas jam la dua diplomlaboro. Pri la alia mi skribis en mia alia blogo (Projekto Lingvohelpilo kaj Literumado).

La bona kolekto de gramatikaj eraroj estas grava bazo por programado de gramatika kontrolilo. De tiu kolekto oni vidas, kiuj tipoj de eraroj ekzistas. Oni programas laŭ tiuj tipoj kaj oni fine povas testi la programon kontraŭ tiuj ekzemploj. En la projekto „lingvohelpilo“ oni volis uzi la esperantan komunumon por kolektado de tiuj eraroj. Oni programis eĉ specialan kromprogramon por Firefox, kiu ebligas tre facilan raportadon de eraroj direkte de TTT-legilo. Oni uzis bonajn kontaktojn kaj konon de esperanta medio. Tamen la rezultoj de tia kolektado helpe de komunumo ne estis imponaj kaj raportoj bezonis ampleksan prilaboron. En la projekto Sonja kolektis la plej grandan parton de ekzemploj propramane. Ŝi uzis tekstojn de siaj studentoj, kiujn ŝi antaŭe korektis.

Por mi interesa kaj valora estas la klasifiko de eraroj. Mi bedaŭrinde malatingis tion dum programado de Esperantilo. Tio ne estas nur interesa informo por statistiko, sed ankaŭ oni povus helpe de tiuj tipoj doni al uzantoj de korektilo pluajn informojn kaj ligiloj al eksteraj fontoj kiel lernu.net aŭ PMEG.
Interesa fakto de tiu diplomlaboro estas kaj granda parto de eraroj estas la falsa uzado de vortoj.

La diplomlaboro ankaŭ pritraktis la dependecon de gramatikaj eraroj de nacieco de uzanto. Bedaŭrinde la bazo de eraroj ne estis sufiĉa por tiu demando.

Mi pensas, ke nuntempe nur spertaj esperantaj korektistoj povas doni la uzeblan materialon. Temas pri teksto antaŭ korektado kaj post korektado. Pro multaj kialoj la atingo de tiuj tekstoj ne estas facila. Kiu aŭtoro volas publikigi la unuan eraran version de sia teksto? Nun kelkaj korektistoj uzas la programon Esperantilo por ilia laboro. Ili raportas multajn erarojn (ĉefe nur falspozitivaj mesaĝoj). Tiu raportado nun estas tre facila de programo Esperantilo. Sufiĉas unu klako. Mi ne scias, kiel organizi la raportadon de erarojn, kiujn la programo nun ne povas trovi. Mi devos iam pensi pri tio.

Aŭtomata kolektado de eraroj.

Ekzistas ankaŭ alia ebla fonto de ekzemploj de gramatikaj eraroj. Tiu fonto estas vikipedio. En vikipedio oni povas trarigardi tre komforte la lastajn ŝanĝojn de ĉiu artikolo. La tezo estas: Kutime tiuj ŝanĝoj koncernas forigon de skriberaroj. Se la ŝanĝo okazis nur ĉe unu vorto en frazo kaj ne temas pri literuma eraro, tio tre verŝajne estas la gramatika eraro. Mi trarigardis la ŝanĝolistojn de kelkaj artikoloj. Bedaŭrinde la ŝanĝoj de tiu tipo ne estas tre oftaj. Pri tiuspeca kolektado mi legis sur la pago de projekto Morfologik, kiu pritraktis la kolektadon de eraroj por pola lingvo kaj projekto Language Tool. La aŭtoro skribis la programon, kiu mem de plena datumaro de vikipedio trovas gramatikajn erarojn. Tiu provo eble estas ankaŭ farinda por esperanta vikipedio.

Vortaraj eraroj

Por mi la novaĵo en tiu diplomlaboro estas, ke ĉe multaj eraroj temas pri falsa uzo de vortoj. Ĉe tiuj eraroj ne temas pri strikte gramatikaj eraroj. Ŝajne oni pensas, ke la komputilo ne povas trovi tiujn erarojn. La tasko povus esti pli facila ol oni tion unue pensas. Mi trovis liston de vortojn (la listo enhavas erarojn!), kiuj estas ofte miksitaj ĉe komencantoj. Se oni bone analizas la liston, estas okulfrape, ke ĉe kelkaj vortoj, oni povus bone trovi la eraron de kunteksto de vorto.
En Esperantilo ekzistas nun „vortaro de frazpartoj“ (Menuo Lingvistiko-Uzado de vortoj en frazparoj“). Mi pli bone nomigus tiun vortaron „kunteksta vortaro“. Ĉe kelkaj verboj oni povus trovi la eraron, ĉar la verboj havas alian transitivecon.

verbo „ŝerci“ estas ne transitiva.
verbo „serĉi“ estas transitiva.

Ebla solvo por trovo de misuzo de prepozicioj „por“ kaj „pro“ nur de analizo de ĉefa verbo.

pro:
esti (164), suferi (45), morti (41), devi (37), povi (36), danki (34), fari (28), ricevi (26), havi (26), ĝoji (26), senti (21), fariĝi (19), okazi (17), perdi (15), diri (14), peti (14), veni (14), honti (14), resti (10)

por:
esti (874), havi (152), fari (58), fariĝi (57), doni (55), taŭgi (53), bezoni (50), ekzisti (44), uzi (44), trovi (42), povi (38), sufiĉi (37), ricevi (36), devi (35), pagi (34), resti (34), veni (28), labori (26), prezenti (20), gravi (19), prepari (19), signifi (18), montri (17), aĉeti (17), voli (17), elspezi (16), preni (16), kolekti (15), necesi (15), alporti (14), troviĝi (14), senti (13), validi (12), iri (12), serĉi (11), valori (10)

De tiuj listoj oni vidas kaj verboj „suferi, morti, honti“ aperas en la tekstaro nur kun „pro“.

Verboj kunteksto de objekto

atendi:
momento (23), respondo (11), reveno (10), ordono (6), alveno (5), nokto (4), rezulto (3), vizito (3), daŭrigo (2), edzino (2), edzo (2), fariĝo (2), infano (2), kvietiĝo (2), ondo (2), plialtiĝo (2), proksimiĝo (2), propono (2)

atenti:
vorto (4), aserto (1), babilado (1), bezono (1)

De tiu statistiko oni povas konstrui regulojn, sed eble tiuj reguloj ne estas tute certaj. La problemo estas, ke ofte la kunteksto povas esti pli vasta kiel unu frazo kaj devas enhavi la ĝeneralan scion pri mondo. Tiu scio nuntempe estas ne atingebla de komputiloj.

Por tiaj eraroj oni povas tre facile konstrui frazojn por testado de programo. Oni prenas frazojn de granda tekstaro, en kiuj aperas tiuj vortoj kaj interŝanĝas tiuj vortoj je la falsaj vortoj. Poste oni testas, ĉu la programo trovas tiun interŝanĝon.

Nun mi ne povis trovi en la reto la plenan liston de ekzemploj de gramatikaj eraroj. La listo en vikio ne estas plena laŭ la teksto en la diplomlaboro.
La ekzemploj de diplomlaboro inspiris min plivastigi mian liston de gramatikaj eraroj.
Feliĉe unu ekzemplon de tiu laboro (frazo: „Lernis tie ĉirkaŭ 120 studentojn.“) la programo Esperantilo regas nun tute ĝuste.

Falspozitaj eraroj

La plej granda manko de gramatikaj korektiloj estas la falspozitivaj mesaĝoj. Kiel programisto oni tre ĝojas, ke la programo trovas iujn erarojn kaj unue ne zorgas pri falspozitivaj eraroj. Por la uzanto ĉiu falspozitiva eraro por „evidente“ ĝusta frazo estas la grava pruvo, ke la programo estas tre malperfekta. Ekzistas do la bezono testi la programon kontraŭ ĝustaj tekstoj. Sed la kolekto de ĝustaj teksoj ne estas facila afero. La problemo estas unue la kvalito de tekstoj kaj due la fakto, ke kelkaj konstruaĵoj aperas tre malofte. Oni bezonas do tre grandan amason da tekstoj. Feliĉe iu jam faris tiun grandegan laboron. En la PMEG oni trovas ekzemplojn por ĉiuj eblaj artoj de frazoj. Kaj ĉiu ekzemplo estas zorge tralegita de aŭtoro de libro. Mi ekstraktis tiuj ekzemplaj frazoj de PMEG kaj uzas ilin por testado. Mi devus diri, ke veraj tekstoj estas eĉ pli komplikaj. Ili enhavas multaj fremlingvajn nomojn, fremdlingvajn citaĵojn kaj estas tre komplikaj.

Mi pensis ankaŭ pri bona komparo de gramatikaj kontroliloj. Oni devus testi je du tekstoj. La unua enhavas erarojn. Kaj oni provas, kiujn erarojn kapablas trovi la programo. La dua teksto estas tute ĝusta, kaj enhavas tre diferencaj frazoj. De tia testo oni povus kalkuli la bonon de korektilo laŭ tiu formulo. Praktike la plej granda problemo estas konstati, ĉu temas pri gramatika eraro aŭ ne. Tion priskribis ankaŭ la diplomlaboro. Ofte ne ekzistas konsento pri ĝusteco de iu frazo en Esperanto. Oni povus diri, ke kiam renkontas 5 esperantistoj, ekzistas 6 opinioj pri la ĝusta esperanta lingvaĵo. La lingvohelpilo markas kiel eraro la lingvaĵon „kelke de …“ sed akceptas „multe de …“. La lingvaĵo „multe de“ estas vaste uzata, la analoga „kelke de …“ estas tamen ne akceptinda por multaj.

La projekto lingvohelpilo nun donas fruktojn. Mi ŝatus, ke tiuj fruktoj estas ankaŭ iom da lingvistika materialo kaj io, kion mi povus ruli sur mia komputilo. La dua konstato estas, ke reta komunumo vere ne taŭgas por prilaboro de komplikaj lingvistikaj taskoj.

Mi nun bedaŭrinde ne havas tempon por la programo Esperantilo. Mi esperas, ke post iom da tempo mi denove okupos pri la programo kaj povus realigi kelkajn ideojn.

8.10.2008

Projekto Lingvohelpilo kaj Literumado

Filed under: lingvistiko,programado — artur @ 19:20

Kolektado de ekzemploj de eraroj

Uzanto de programo Esperantilo sciigis al mi pri interesa mesaĝo de projekto „Lingvohelpilo“. Mi konas tiun projekton kaj renkontis ĝiajn membrojn, pri kio mi jam skribis en frua blogo. Mi esperas, ke nun kelkaj esperantaj instruistoj kolektos tiujn erarojn. Kutime tiaj vokoj ne rezultigis iujn rezultojn, sed nun ekzistas ilo por firefox, kiu plifaciligas la kolektadon de eraroj. Tio eble estas pro ia malfacileco de temo kaj manko de spertaj Esperantistoj, kiu interesiĝas pri komputila lingvistiko. Mi esperas, ke ĉi-foja agado estos fruktodona.

Nun ekzistas komenca listo kun ekzemploj sur vikio de ikso. Kelkaj ekzemploj estas al mi tre konataj kiel „Mi vidas la hundo“, sed mi rimarkis ankaŭ tre interesajn ekzemplojn, pri kiuj mi frue ne pensis. Mi ankaŭ testis Esperantilon kun tiuj frazoj. Entute Esperantilo ne povis trovi ĉirkaŭ 15 erarojn. Interesaj estas ekzemploj pri falsa transitiveco:

  • Kiel vi nomigas?
  • Mi mankas monon?
  • Ĉu vi plaĉas tiun filmon?

En la lasta eldono 0.986 mi jam laboris pri tiu temo, sed tiujn erarojn la programo ne povas trovi.
La temo estas iam malfacila, ĉar ne estas facile maŝine trovi, kio estas pripensita subjekto kaj kio objekto. (kiel en frazo: „Mi mankas monon“.)

Feliĉe pro granda parto de tiuj ekzemploj mi povas facile plivastigi la gramatikan kontrolilon en Esperantilo. Do tiu listo helpos ankaŭ por aliaj projektoj.

Interesa scienca laboraĵo pri literumado

Alia membro de projekto Marek Blahuš planis la laboraĵon pri literumado. La laboraĵo estas delonge preta, sed mi nur jam trovis ĝin. Ekzistas eĉ al eblo testi la novajn listojn per reta programo. Marek preparis novajn listojn por Hunspell, sed laŭ li la listoj ne estas pretaj. Estus bone, se tiuj listoj estus uzataj en projekto Firefox aŭ OpenOffice. La laboraĵo estas tre interesa. Ĝi temis ne nur pri elekto de literumilo, sed ankaŭ havas tre interesan parton pri konstruado de eblaj derivaĵojn depende de senco (tipo) de radiko. La plej taŭge literumilo por Esperanto estas laŭ tiu laboraĵo Hunspell. Mi ankaŭ supozis tion en mia blogo. Mi konas kaj uzas tiun literumilon en Esperantilo. Nun dezirindas nur bona libera vortaro por tiu literumilo.

Mi mem nuntempe opinias, ke la vortaro por literumilo ne havu ĉiujn eblajn vortojn, sed nur la plej ofte uzatajn vortojn. Ankaŭ la literumilo ne devas nepre trovi eblajn kunmentaĵojn (analizi morfemojn). Ofte la teoria ebla vorto estas la skriberaro de iu alia kutima vorto. Do oni devus analizi, ĉu malofta teorie ebla vorto ne estas tre simila al alia kutima vorto. Laŭ mia opinio praktika elveno al la problemo estus konsideri nur radikojn (morfemoj), kiuj estas tre produktemaj kiel: „*listo, *grupo, *ebla, …“.
La plej granda laboro estus trovi tiujn radikojn (aŭ skribi programon, kiu tion faras).

De laboraĵo de Marek mi eksciis pri ekzisto de programo ESPSOF de Toon Witkam. La programo estas la kontrolilo por esperantaj tekstoj, kiu funkcias por programo MS Word (Ĝi estas skribita en la programa lingvo Visual Basic). Mi mem preferus OpenOffice. Tamen MS Word estas tre vaste uzata programo kaj eble tre konata al multaj Esperantistoj. ESPSOF enhavas multajn interesajn lingvistikajn analizojn kaj kromajn ilojn. Bedaŭrinde mi ne havas la programon MS Word sur mia komputilo, do mi ne povis testi la programon. Laŭ la priskribo de aŭtoro la programo povas iom simile kiel Esperantilo mem trovi eblajn kunmetitajn vortojn. Tio ne estas facila tasko. Teorie ekzistas preskaŭ senlima nombro de ebloj. En praktiko oni devas tre limigi la nombron de radikoj kaj eblaj ligoj en unu vorto.

Ŝajnas, ke la fina perfekta ideo por literumilo por esperantaj tekstoj ankoraŭ ne ekzistas (kaj en teorio kaj en praktiko). Ĝi povas esti la mikso de statistika alveno kaj analiza alveno. La saman konstatas Marek en sia laboraĵo. Malfacila afero estas trovi la plej oportunan proporcion inter tiuj metodoj kaj pruvi tion praktike. Ankaŭ la pritakso de literumilo ne estas facila afero. La literumilo devas trovi ĉiujn erarojn, sed ne misaverti pri bone skribitaj vortoj. Por tio ekzistas matematikaj indikoj, sed fine oni devus pritaksi, kio estas pli grava: preterpasitaj eraroj aŭ ĝenado de uzanto pri ĝustaj vortoj. La bona statistiko pri esperanta morfologio estus la bona starto por la tasko.

Feliĉe la laboraĵo estas skribita en la lingvo, kiun mi iugrade komprenas. Tio estas la angla. Mi havus problemojn kun ĉeĥa laboraĵo, kvankam la ĉeĥa kaj pola lingvoj estas tre similaj. En la scienco la angla lingvo estas delonge memkomprenebla. Mi observis grandajn ŝanĝojn en lastaj 5 aŭ 10 jaroj. Antaŭ 10 jaroj, kiam mi studis informatikon la kono de angla lingvo estis jam tre oportuna sed ne necesa por studado. Nun eĉ studentoj skribas iliajn laboraĵojn en tiu lingvo.

Fina vorto

La komputila lingvistiko por Esperanto progresas kaj la projektoj feliĉe influas unu la alian. Mi dezirus pli da tiaj projektoj.

3.9.2007

Kunsido de Projekto „Gramatika Korektilo“

Filed under: ĝenerale,lingvistiko — artur @ 19:45

La 25 kaj 26 aŭguston mi partoprenis la unuan kunsidon
de kreiĝanta projekto GramatikKontrolilo. Mallonge dirite la projekto celas krei gramatikan kontrolilon helpe de subteno de organizo ESF. La organizo jam subtenas kelkajn tre gravajn kaj sukcesajn projektojn en Esperantujo. Tiuj estas interalie la konata retejo Lernu.net, la tekstaro de Esperanto kaj tradukado de programo OpenOffice. La iniciatinto kaj la organizanto de tiu projekto estis Hokan Lundberg, kiu tre trovis kaj kontaktis ĉiujn partoprenantojn.

Tio estas por mi la unua fojo, kiam mi povus uzi Esperanton kiel parolata lingvo. Tio estis tre interesa sperto por mi. Mi havis kelkajn problemojn kun prononcado, sed entute mi povus normale paroli kaj ĉion kompreni. Mi pensas, ke longa (4 jara) aŭskultado de pola radio kaŭzis tion.

Ĉe la kunsido mi povus konatiĝi kun tre interesaj homoj. Ĉiuj estis tre engaĝiĝitaj Esperantistoj kaj lingvistoj kun vastaj konoj de komputila lingvistiko. Nun mi povis direkte paroli kun Eckhard Bick, kiu estis por mi jam delonge konata de projekto VISL. Tiun projekton mi tre atende trarigardis antaŭ kelkaj jaroj, kiam mi komencis la okupon pri komputila lingvistiko. Mi renkontis Sonja Petrović Petrovic kaj Hokan Lundberg, laborantoj de projekto „Lernu“, Judith Meyer, kiu kreis la retejon „Amikumu“, Marek Blahuš kaj Henning von Rosen.

Ĉe tiu kunsido mi povis prezenti la programon Esperantilo, kiu jam enhavas gramatikan korektadon.

Mi dekomence signalis, ke mi ne povas aktive kaj plene partopreni en la projekto. Unue mi ne havas sufiĉe da tempo, due mi ne volas okupi pri tiu temo en alia maniero kiel ŝatokupo. Tamen estis tre agrable, ke mi ankaŭ kiel neprofesiulo povis partopreni en la kunsido. Feliĉe la gvidadon de projekto povus preni Eckhard Bick, kiu estas tre sperta lingvisto kaj delonga Esperantisto kaj jam faris gramatikan kontrolilon de dana lingvo kadre de programo „ordred“. Do oni ne bezonos fari ĉion de komenco. Eckhard Bick havas diversajn pretajn modulojn por esperanta lingvo kaj la testitaj metodoj por dana lingvo. Do oni bezonas adapti tiujn metodojn kaj modulojn por esperanta lingvo. Nur kelkaj elementoj de sistemo devus esti farita tute nove. Ĉe priskribo de taskoj de projekto evidentiĝis aldonaj subprojektoj. Tiuj estas

  • Literumado
  • Bazo de sintaksaj arboj
  • Bazo de eraroj

En la unua ŝtupo de projekto la gramatika kontrolado estas oferota nur kiel reta interfaco. Poste la gramatika kontrolado devos funkcii en la programo OpenOffice. Ĉar kelkaj elementoj de sistemo estas faritaj kedare de komercaj projektoj, tiu sistemo ne estos plene malferma. Tio ne estas por mi bona informo, ĉar mi kiel programisto normale havas la intereson rekonstrui la sistemon de fontoj kaj adaptigi ĝin por aliaj taskoj aŭ operaciemaj sistemoj. Mi ankaŭ pli volonte legas la programan fontan kodon ol sciencajn laboraĵojn. Tamen ĉiuj direktaj rezultoj de tiu projekto estos malfermaj por vasta publiko. Mi esperas, ke ankaŭ la projekto Esperantilo povus profiti de tiu projekto kaj mi oferis ankaŭ helpon al tiu projekto.

Por mi la plej interesa parto de la kunsido estis la prezento de Eckhard de metodoj de analizo de tekstoj laŭ la teorio de „Contraint Satisfaction“, tiu metodo estas tre simpla. CG ne havas fonton en teorio de generativa formalismo, sed estas rezulto de tre pragmatikaj pensoj. La fontaj datoj por GG-Analizilo estas etikeditaj vortoj.
Normale ĉiuj vortoj posedas diversajn ambiguajn etiketojn. La analizilo forigas aŭ aldonas etiketojn sur nivelo de vortoj laŭ priskribitaj reguloj.
La reguloj de CG estas simplaj proceduroj laŭ modelo: „Forigu/Aldonu la etiketon ĉe vorto kun etikedoj, se la kondiĉo estas prava.“ Kondiĉoj priskribas la najbarajn vortojn. Tiu estas do pure procedura priskribo kontraŭe al diskriptiva priskribo de generativaj metodoj. La ĉefaj avantaĝoj de CG estas ĝia stabileco, rapideco kaj simpleco. Mi pensas, ke tiu metodo estas ankaŭ ekzemplo por bona divido de taskoj inter programistoj kaj lingvistoj. Nun programistoj povus programi CG-Analizilon, kaj lingvistoj havas simplan proceduran lingvon por manipulado de etiketoj. Do CG-Formalismo estas la tiel nomata Domain Specific Language.
Antaŭ 4 jaroj mi multe pensis pri la metodo, mi tiam ankaŭ trovis la liberan analizilon de projekto VISL. La nova versio de tiu analizilo estas CG3. Tamen mi havis grandajn problemojn kompreni la signifon de multnombraj etiketoj. Kvankam mi trovis ekzemplajn regulojn por angla lingvo, mi ne povis uzi tiun analizilon. La forta flanko de CG estas forigo de ambigueco. Ĉar en Esperanto tiu problemo apenaŭ ekzistas, la uzeblecon de tiu metodo mi ne konsideris tiam kiel tre granda.

Kiel mi nun scias, tre interese estas, ke la CG-on oni povas ne nur uzi por disambigueco de vortklasoj, sed ankaŭ por sintaksa analizo kaj kreo de „functional dependency grammar“. Ankaŭ semantika analizo povas uzi CG-analizilojn. Per la sama metodo oni ankaŭ povas trovi gramatikajn erarojn. Do la gramatika korektado estas nur unu elemento en la ĉeno de CG-analizoj, kiuj laboras laŭ diferencaj reguloj. La plej kompleksaj reguloj ekzistas por sintaksa analizo. La komplekseco de tiuj reguloj estas eble la plej malavantaĝa aspekto de tiu metodo. Por averaĝa lingvo oni bezonas pli aŭ malpli 900 regulojn. La flegado de tiuj reguloj ne estas facila kaj oni bezonas longan sperton pri tio. La ordo de reguloj havas grandan influon sur la rezulto. Kutime oni unue difinas bazajn regulojn kaj poste aldonas aliaj kondiĉojn kaj aliajn regulojn. Do la legebleco de reguloj iĝas pli kaj pli malalta. La difino de ĉiuj necesaj reguloj estas laboro por jaroj. Estas malavantaĝe, ke tiun laboron oni ne povas dividi inter kelkaj homoj, ĉar la influo de reguloj inter si estas tre granda. Tamen la komplekseco de reguloj estas la problemo en ĉiuj ĝisdataj metodoj. De teknika vidpunkto la formalismo de reguloj havas kelkajn malavantaĝojn, kiuj rezultigis la neceson de multaj reguloj. Per reguloj oni ne povas difini rekursiajn strukturojn. Tiuj reguloj nur limigite ebligas la uzon de ĝeneraligo (nur per difino de listoj). Ankaŭ la uzado de metodo „backtracking“, kiu por kelkaj problemoj de sintaksa analizo estus tre konvena, ne estas ebla ĉe CG.

En Esperantilo mi ankaŭ uzas la metodon, kiu estas simila al CG. La metodo estas „button-up“ kaj ne enhavas „backtracking“. Tial ankaŭ la analizo en Esperantilo ĉiam ion rezultigas kaj estas sufiĉe rapida. En Esperantilo mi havas nur 100 bazajn regulojn, kvazaŭ ili kovras preskaŭ tutan gramatikon de Esperanto. Kelkaj aldonaj analizoj por subfrazoj, relativaj subfrazoj kaj infinitivaj frazpartoj estas programitaj speciale. La diferenco inter Esperantilo kaj CG estas, ke en Esperantilo dekomence ĉe sintaksa analizo vortoj estas grupigitaj kiel sintaksaj subarboj. Tial la reguloj por sekva ŝtupo povas esti difinitaj pli ĝenerale. Mi uzas la fakton, ke ofte la grupo de vortoj povas esti pritraktato nur kiel la kapo de tiu grupo. Ekzemple por ĉiuj substantivaj frazpartoj: „libro“, „bona libro“ „bona libro skribita de fama aŭtoro“ la plej grava estas la kapo „libro“. Do sekva analizo povus pritrakti nur tiun vorton. Tial okazas ĉe analizo redukto de komplekseco.

Mia nuntempa sento pri la problemo de sintaksa analizo estas, ke oni bezonus diferencajn metodojn por atingi bonajn rezultojn. La rekono de substantivaj frazpartoj postulas aliajn metodojn ol analizo de subfrazoj kaj konjunkcioj. Diskriptivaj reguloj estas ofte pli elegantaj kaj pli mallongaj ol procedurdeklaraj. Kelkajn problemojn oni povas nur bone solvi per „backtracking“.

La sukceso de CG eble plejparte baziĝas sur speciala programa lingvo, kiu estas farita nur por lingvistoj. Per tiu programa lingvo lingvistoj kapablas mem difini regulojn. Ekzistas ankaŭ kelkaj ideoj, kiel plibonigi la uzeblecon de CG. Miaopinie oni povus konsideri sekvajn punktojn:

  • Aŭtomata kreado de CG-reguloj de pli ĝeneralaj reguloj.
  • Aŭtomata kreado de CG-reguloj de statistika analizo de bazo de sintaksaj arboj.
  • Aldonaj iloj, kiuj helpos ĉe difino kaj testado de reguloj.
  • Plivastigo de CG je aldonaj metodoj.

Por pli bona pritakso de CG mi bezonus pli da informoj. La projekto VISL havas la analizilon por esperanta lingvo, sed la analizilo ankaŭ havas problemojn kun komplikaj frazoj simile al analizilo de Esperantilo. Tion mi povis konstati post kelkaj testoj per reta interfaco de projekto. Interesa estus la demando, ĉu estas eble plibonigi la analizon kaj kiom da energio tio postulus. Malbonŝanĉe reguloj por neniu lingvo estas libere atingeblaj, do oni povus nur iom havi la ideon pri la verko de reguloj post studado de kelkaj sciencaj laboraĵoj.

Se mi havos sufiĉe de libera tempo, mi volas pli detale okupiĝi pri CG-Analizilo. Mi eĉ povus uzi la liberan CG-Analizilon en Esperantilo, ĉar mi povas bone reuzi modulojn, kiuj estas skribitaj en programa lingvo C++, de programa lingvo XOTcl. La bona tasko por CG estus la analizo de pola lingvo.

Por Esperantilo estus bone klare disigi la regulojn de programado de analizilo. La programa lingvo, kiun mi uzas ĉe programado de Esperantilo, estas sufiĉe abstrakta kaj potenca por uzi meta-programadon. Do mi programas regulojn de analizo kaj la analizon en la sama programa lingvo. Aliflanke la klara diferenco inter lingvaj reguloj kaj programado de analizilo ne ekzistas tiel forte kiel en CG-metodo.

Resumo

Mi estas tre ĝoja, ke la projekto Esperantilo iel ankaŭ instigas kaj inspiras aliajn pli profesiajn projektojn. Tio estas por mi grava motivigo por plia okupo. Dum la renkontiĝo mi povis konatiĝi kun tre interesaj homoj kaj mi havis novojn ideojn. Nun mi estas tre scivola pri la sekva evoluo de tiu projekto.

30.7.2007

Pola projekto Denise-Myth pri artefarita inteligento

Filed under: lingvistiko,programado — artur @ 18:43

Mi regule traserĉas la interreton je projektoj en la kampo de komputila ligvistiko. Nun mi trovis la projekton Denise-Myth. La projekto estis kreita kiel fina laboraĵo de pola universitato de Szymon Jessa. La celo de projekto estis krei la programon, kiu povus per natura lingvo komuniki kun uzanto kaj
krei bazon de kono (bazo de faktoj). La programo kolektas per dialogo kun uzanto informojn. Ĝi povas mem demandi. Fine la programo povas respondi je demandoj. Kvankam ĝenerale la problemo estas tre malfacila, la programo en komenca stato plenigas bone siajn taskojn. Ĝi povas analizi kaj kompreni simplajn polajn frazojn. Se oni povas bone demandi, la programo povas ankaŭ bone respondi. La programo regas ankaŭ la bazan logikon kaj povas rezoni. La aŭtoro de projekto devis solvi multajn problemojn. Ĉiu de tiuj problemoj estas por si mem tre ambicia kaj ĝis nun ne
sufiĉe solvita.
Tiuj problemoj estas:

  • Kompreno de natura lingvo
  • Konservado de faktoj en programaj strukturoj
  • Traserĉado de bazo de faktoj
  • Rezonado kaj provado de faktoj
  • Genero de respondoj en natura lingvo

Interesa estas ankaŭ la teknika aspekto de projekto. La problemoj estus kutime la domeno de altnivelaj lingvoj kiel prolog kaj lisp. Pro rezonado kaj konservado de faktoj la programa lingvo „prolog“ havas specialajn funkciojn, kiuj estas normala parto de tiu programa lingvo. Tamen la aŭtoro decidis programi en simpla programa lingvo „C“. Li volis, ke la programo rulos sur ĉiu ebla sistemo. Nun tre ofte sistemoj de altnivelaj lingvoj kiel: calm, prolog, schema, haskel, tcl, python kuras sur multaj operaciumaj sistemoj. Tio estas ebla, ĉar ili ofte esta programite en C, do tiu argumento ne estas pro mi tre konvinka. Mi supozas, ke aŭtoro simple tre ŝatis tiun programan lingvon. En bona maniero de programistoj la aŭtoro enmetas kompleksan logikon kaj multajn regulojn en specialjn dosierojn laŭ propra teksta formato. Por mi la plej interesa parto en tiu projekto estis la analizo de pola lingvo. Tiu tasko estas multe pli komplika ol analizo de esperanta lingvo, kiun mi programis en la programo Esperantilo. Bedaŭrinde la plena priskribo de analizo ne ekzistas kiel iu dokumento, do la nura eblo estas legi la programan kodon. La programo enhavas tabelojn kun finiloj de pola lingvo kaj povas de tiuj informoj mem derivi la kazon, arton kaj bazan formoj de vorto.
Tiu estas alia maniero de prilaboro ol la projekto de morfologik, kiu enhavas la grandegan bazon de ĉiuj eblaj polaj vortoj kun gramatika priskribo kaj baza formo. La kompleta sintaksa analizo ne estas farata, ĉar la programo akceptas nur kutimajn frazojn en kutima ordo de pola lingvo. La faktoj estas konstruitaj helpe de tiel nomataj ŝlosilaj vortoj kiel: „esti“, „signifi“, „estas parto de“. La programo me povas rekoni ĉu la uzanto aldonas novan fakton aŭ ĉu ili demandas pri io. La programa teksto ne estas eĉ tro longa kaj tamen funkcias por siaj celoj.
Interesa fakto en tiu projekto estas, ke en bazo de faktoj la ĉefan rolon havas subjekto. Aŭtoro diras pri tn.
lineaj frazoj. Do la programo transformas la sintaksaj arboj de frazo al lineaj strukturoj. Laŭ tiu modelo la frazo: „Roberto iras rapide sur la vojo“ havas 2 lineaj frazojn: „Roberto iras rapide“ kaj „Roberto iras sur la vojo“.
La kutima semantika prezento de tiu frazo estas: iri(Roberto,sur(vojo),rapide). Do predikato havas la unuan pozicion. En la sistemo Denise tio estus Roberto -> iri -> rapide.
Kial la aŭtoro elektis alian metodon? Ĉu ekzistis la kultura kialo por tio? Mi pensas, ke por slavoj la substantivo estas pli grava elemento de frazo. En rusa lingvo kutime mallongaj frazoj tute ne havas verbon (ekzistas do nur latenta predikato).
La laboraĵo donas ankaŭ multajn ekzemplojn kiel ekstrakti logikaj faktoj de frazoj. La programo povas rezoni laŭ logikaj reguloj kaj regas la vortetojn: „iu, ĉiu, neniu“. Mi iom ludis kun la programo, kaj povas eĉ kelkfoje ricevi veraj informoj. Tio estas tre ĝoiga sperto.

Projekto Cyc

Dum la legado de laboraĵo mi ankaŭ eksciis pri pli fama projekto Cyc. La celo de tiu projekto estas la kolekto de ĉiuj faktoj de baza nivelo.
Ekzemple:

  • Homo, kiu studas, estas studanto.
  • Oni studas en universitato.
  • Studanto estas homo.

Tiu bazo povus servi por krei programon, kiu mem elektos informojn de tekstoj en natura lingvo. Poste la sistemo povos mem derivi novajn faktojn de konataj faktoj. Ĝi povos respondi je ĉiuj demandoj. La sistemo estas nun evoluita dum multaj jaroj kaj jam povas funkcii kaj plenumi planitajn taskojn. Do eĉ kompleksa rezonado funkcias.
La bazo de faktoj estas libere atingebla. Tiuj faktoj (precipe ontologio) estas tre similaj al projekto WordNet.
Ankaŭ en maŝina tradukado la aŭtomata kompreno de teksto estas tre grava por bona kvalito de traduko. Mi pensas, ke kun metodoj de similaj programoj kaj bazoj de sistemoj CycWordNet la kvalito de tradukado povos atingi la akcepteblan kvaliton. Tie la vorto „akceptebla“ signifas, ke la maŝina tradukado estas same bona kiel la homa tradukado.

Kvankam oni nun pensas, ke komputiloj neniam povus kompreni tekstojn en natura lingvo, tio tamen iom post iom okazas.
„Komprenado“ en tiu kazo ne estas egala al homa komprenado. Tamen maŝinoj povas kolekti faktojn de tekstoj kaj rezonadi sur bazo de tiuj faktoj. La laboraĵo de Szymon Jess enhavas kelkajn interesajn pensojn pri tiu temo. Se mi observas la serĉmaŝinon „Google“, mi pensas, ke nun ĝi estas la plej granda leganto de interreto. Tiu sistemo laboras nun laŭ tre primitivaj metodoj, tamen tiuj metodoj pliboniĝas konstante. La celo de google ne estas kompreno, sed komerca varbado, tamen iam tiu funkciado similos al komprenado.

Nun tekniko kaj interreto helpos al Esperanto ĉe ĝi evoluo kaj disvastigado. Sed la evoluo de tekniko povus signifi ankaŭ la morton de Esperanto. Tio okazos, kiam la komputiloj povus kompreni tekstojn, kaj estos mem la plej grandaj legantoj de tekstoj. Tiuj programoj plej verŝajne komprenus unue nur kelkajn lingvojn. Tiuj lingvoj certe estos: „angla, franca, japana, ĉina, germana, …“.

20.4.2007

Vortaraj trezoroj en la TTT

Filed under: lingvistiko — artur @ 19:45

Mi lastatempe trovis ĉeĥan esperantan vortaron de Jan Amos Komenský sur tiu ttt-paĝo. La ĉefa paĝo estas nur en ĉeĥan lingvo kaj mi havis multajn problemojn retrovi la paĝon. Feliĉe mi povis ion kompreni la pagon kaj mi sukcesis elŝuti la vortaron.

Do mi pensas, ke tiu vortaro ne estas tre konata kaj vere kaŝita trezoro. La vortaro estas en kelkaj vidpunktoj tre interesa. Ĝi estas libera por nekomerca uzado. Ĝi estas tre abunda (170000 nocioj!). Ĝi estas preparita en formato de programo Exel. Tre agrable por komputila prilaboro estas la strukturo de vortaro. La vortaro definas por unu nocio: radiko, nocio, fako, ĉeha traduko, esperanta priskibo aŭ sinonimoj, ĉeĥa priskribo.

Mia unua penso pri tiu vortaro estis. Ho, ĉu mi ne sonĝas, ĉu tiu vortaro vere ekzistas. Por pola lingvo, do lingvo de lando, en kiu naskiĝis ja Zamenhofo, ne ekzistas komparebla vortaro kaj ĉeha nacio havas tiun grandan bonŝancon havi iun, kiu kreis kaj eldonis tiun vortaron laŭ moderna maniero kaj eĉ permesis al alian uzi ĝin. Se tia vortaro ekzistus por pola lingvo, miaj daŭraj obstakloj pri kolektado de polaj vortoj ne estus necesaj. Kvankam la vortaro pritraktas la ĉeĥan lingvon, ĝi montriĝis tre praktika por miaj celoj. Unue ĝi estas la granda provizio de vortoj. Ĝi povus servi kiel kompara matarialo por aliaj vortaroj. Feliĉe la kreinto de vortaro por ĉiu nocio difinis la radikon de vorto. Ĉeĥa kaj pola lingvo estas tre similaj. Mi povis derivi multajn tradukojn simple per anstatŭigo de kelkaj literoj.

Esperanta lingvo Ĉeha lingvo Pola lingvo
amuza zábavní zabawny
fiziologo fiziolog fiziolog

Post la antaŭigo, mi povis testi, ĉu tiu vorto ekzistas en pola lingvo, poste mi povis aŭtomate krei la liston kun eblaj tradukoj, kiujn mi povas mane tralabori.

Trazaŭro

Due mi pritraktis la esperantan priskribon de nocioj en tiu vortaro. Ofte ili estis sinonimoj de vortoj. Per tiuj informoj kun priskriboj de REVO-Vortaro mi kreis la liston de sinonimoj, kiu estas bazo por mia esperanto-esperanto vortaro. Tia vortaro estas ankaŭ konata kiel trezaŭro (vidu ankaŭ Trezaŭron de UEA). La tiel kreita listo estas tre abunda sed badaurinde enhavas multajn erarojn. Multaj de ili mi korektis, sed aliaj restos sen korekto. Mi esperas, ke kun helpo de tiu listo mi povos iam krei la sencan reton de vortoj, kiu estos necesa por sekva ŝtupo de maŝina tradukado. Nun la trezaŭro en Esperantilo estas la listo kun sinonimoj, unu sinonimo de linio. La linio enhavas vortoj separitaj per simbolo „:“, kiuj apartenas al unu sinonimo.

maldekstra : liva

granda : potenca : ega : kolosa

ĉiutage : en ĉiu tago

becikle : per beciklo : perbecikle

La trezaŭro povas esti uzita per 2 manieroj (En venonta eldono 0.92 de programo Esperantilo). Vi povas uzi la specialan dialogon „Trazaŭro“ per menuo „Lingvistiko->Trezaŭro“ aŭ direkte en teksto per loka menuo „Redaktu->Sinonimoj“ aŭ klavkombino „Ctrl-j“. Tiu listo estas uzata ankaŭ en proceso de maŝina tradukado. La alia valoro de tiu vortaro estas la fakaj priskriboj (Ekzemple: sport, geogr, bot) de ĉiu vorto.Tamen mi havas kelkajn problemojn kun tiu vortaro. Unue la kvanto da nocioj estas tre abunda, ĝi enhavas tre maloftajn vortojn. Multaj de ili mi ne povis trovi nek en aliaj vortaroj nek en la interreto. Do mi ne decidis importi tiujn vortojn al vortaro de Esperantilo.

Older Posts »

Powered by WordPress