Esperantilo Blogo en Esperanto pri projekto Esperantilo kaj komputila lingvistiko

19.2.2010

Nova literumilo en Esperantilo

Filed under: lingvistiko — artur @ 17:07

Nova literuma vortaro en Esperantilo

Fine mi decidis krei novan propran vortaron por literumilo Hunspell.
Pri la literumado mi jam skribis du foje en mi blogo (Literumado – ISpell, ASpell, MySpell, Hunspell kaj Projekto Lingvohelpilo kaj Literumado)

En malnovaj eldonoj ekzistis du literumiloj en esperantilo. La interna literumilo de Esperantilo, laboris kun vortaro de tn. radikaro. La dua literumilo baziĝis sur hunspell kaj estis uzata nur por sugestoj de korektoj. Tiu literumilo devenis de tiama OpenOffice kaj estis kompletita de Sergio Pokrovskij kaj Dmitri Gabinski. La kromprogramo Esperantilo por OpenOffice uzis nur la literumilon de Hunspell.

La kreinto de programo ĉapelilo Pejno Simono kontaktis min kaj plendis pri la literumado de esperantilo. La programo ĉapelilo ne plu funkcias sur nuna vindozo. Fakte, la esperanta literumilo ne konis kelkajn oftajn vortojn, kiuj estis jam en ĉapelilo. Li sendis al mi la liston de vortoj de ĉapelilo. Fakte, en tiu listo estas multaj vortoj, kiujn ne konas Esperantilo. Mi ne uzis la liston de ĉapelilo direkte, ĉar ĝi enhavis multajn vortojn, kiujn mi ne trovis en esperantaj tekstoj. Mi decidis plivastigi la radikaron de Esperantilo kaj krei de tiu listo la vortaron por Hunspell. Tamen el la diskuto kun Pejno Simono ekestis kelkaj ideoj por kreo de nova literumilo.

Tiuj ideoj estas:

  • Literumilo ne estas vortaro. Do ĝi unue devas trovi literumajn erarojn kaj ne enhavi ĉiujn vortojn de normala vortaro.
  • Esperanto estas lingvo tre favora por vortfarado. La literumilo devas konsideri tiun.
  • Se ekzistas iu vorta kunmetaĵo, do nepre ekzistas ankaŭ la aliaj devenaj vortoj.
  • Literuma vortaro devas enhavi nur la plej oftajn vortojn, ne ĉiujn eblajn vortojn.

Ekzemplo de dua punkto.

Se ekzistas transitiva verbo „legi“ ekzistas ankaŭ adjektivo „legebla“. Se ekzistas adjektivo „pura“ ekzistas ankaŭ „pure, malpura, pureco, purulo, plipurigi“. Oni povas konstrui multajn tiujn regulojn, kiuj oni povas enprogrami en priskribo de Hunspell literumilo.

Ekzemple on Hunspell oni povas difini adjektivan sufikson „A“ kaj poste eblajn devenaj vortojn.

SFX A Y 25
SFX A 0 0/XmNEV .
SFX A 0 eg/XmNEV .
SFX A 0 et/XmNEV .
SFX A 0 ul/XmNE .
SFX A 0 ulin/XmNE .
SFX A 0 egul/XmNE .
SFX A 0 egulin/XmNE .
SFX A 0 etul/XmNE .
SFX A 0 etulin/XmNE .
SFX A 0 ec/XmN .
SFX A 0 egec/XmN .
SFX A 0 aĵ/XmN .
SFX A 0 egaĵ/XmN .
SFX A 0 aĵeg/XmN .
SFX A 0 etaĵ/XmN .
SFX A 0 aĵet/XmN .
SFX A 0 ig/XpV .
SFX A 0 ig/XpnN .
SFX A 0 igat/XpnNE .
SFX A 0 igot/XpnNE .
SFX A 0 igit/XpnNE .
SFX A 0 igant/XpnNE .
SFX A 0 igont/XpnNE .
SFX A 0 igint/XpnNE .
SFX A 0 igil/XpN .

Mi opinias, ke ne ĝenas, ke iu derivo ne estus senca esperanta vorto. La literumilo devas unue trovi mistajpitajn vortojn, sed ne decidi ĉu iu vorto estas valida esperanta vorto. Por tiu tasko ekzistas ja vortaroj kiel REVO.

La kreito de programo ĉapelilo konstruis tiujn vortojn aŭtomate. La aŭtomata konstruo de vortoj havas la malavantaĵon, ke oni post ne scias, kiu vorto estas la origina kaj kiu la aŭtomate kreita. Tiam ne ekzistis tamen la kababla literumilo kiel Hunspell, kiu subtenas vortfaradon.

Mi kolektis ankaŭ grandan tekstaron por testi kaj kompari literumilojn kaj trovi novajn vortojn.

Mi decidis krei du vortarojn por la literumilo. La unua rekonas nur vortojn, kiuj estas en radikaro kaj direktaj derivoj. La dua (la morfologia vortaro) povas ankaŭ rekoni kunmetaĵoj aŭ kombinoj de bazaj vortoj. Mi decidis uzi du vortarojn por oferi al uzantoj du strategiojn, kiuj ankoraŭ ekzistis en malnova Esperantilo.

La unua vortaro ne rekonas vortojn, kiuj estas tre maloftaj kreaĵoj. La dua vortaro povas ne rekoni literuman eraron, ĉar la eraro povas esti valida kombino.

Ekzemple:

La vorto „kontrau“ estas evidente la misskribita vorto „kontraŭ“. Sed tiu eraro povas esti komprenata kiel allasebla vortfarado (kon+tra+u) (koni + trai – uzado de vorteto kiel radiko). Ĉar en Esperanto ekzistas multaj du- aŭ triliteraj radikoj, tiuj misinterpretoj povas ofte okazi.

Mi ankaŭ publikas la listojn por komparo de literumiloj. La bazo pro testado de literumilo estas la listo de vortoj, kiuj estas orditaj laŭ la ofteco de vortoj.

Plej oftaj vortoj en esperanta vikipedio

la 1335212 0
de 1182863 0
en 561205 1
kaj 495182 1
estas 327751 2
La 239306 2
al 170132 3
estis 148179 3
el 117040 3
NGC 112629 3
por 94307 4
En 87643 4
kun 84794 4
kiu 78509 4
li 78500 4
komunumo 72231 4

La esperanta vikipedio enhavas 21.265.680 vortojn. Mi ne sukcesis forigi specialajn formatajn vortojn de vikipedia tekstaro. Do la listo estas malpurigita per specialaj formataj vortoj de vikio.

La listo enhavas: vorton la ofteco de vorto en vikipedio kaj oftecan grupon (La vortoj de grupo n estas duoble oftaj kiel la vortoj de grupo n+1). La plej ofta estas la vorto „la“, kiu aperas 1335212 foje en la esperanta vikipedio. Do oni povas de tiu listo malfacile kaj rapide testi la literumilon.

Ĉiuj ekzemploj por unikso (aŭ cygwin medio).

Ekzemple
Trovi konatajn vortojn


hunspell -d eo_ilo -G <wiki_frek.txt

Trovi nekonatajn vortojn


hunspell -d eo_ilo -L <wiki_frek.txt

La bona flanke de tiu metodo estas, ke la listo estas ordigita laŭ la oftece de vortoj.

Oni povas per tio simile kompari literumiloj. Ekzemple kiel trovi vortojn kiuj estas konata en unu literumilo sed ne en la dua


hunspell -d eo_ilo -L <wiki_frek.txt | hunspell -d eo_morf -L -G

Oni povas ankaŭ kalkuli la nombroj de vortoj per komando „wc -l“.
Por trovi la nombron de vortoj por kiu la literumilo raportas la eraron en tuta esperanto vikipedio
oni uzu


hunspell -d eo_ilo -L <wiki_frek.txt | awk 'BEGIN{ i=0 } {i=i+\$2} END{print "nombro " i}'

Komparo de literumiloj

En la suba tabelo oni vidas, kiel ofte iu literumilo raportas erarojn kun specifa tekstaro. Ekzemple la nova literumilo de esperantilo raportas sur tekstaro de libera folio (553106 vortoj) 34715 foje la eraran vorton. Tio estas relative 6.28% de vortoj. Tio signifas, ke averaĝe la literumilo reportas de 100 vortoj pli-malpli 6 erarojn.



LiterumiloVikipedioLibera foliotekstaroGutenbergoPIVREVO
Vortnombro2126568055310642752687108074774623002
Esperantilo nova4183741347151737663693917034512
19,67%6,28%4,06%5,20%35,68%2,23%
Esperantilo-vortfarado3924472337861631533680511764442
18,45%6,11%3,82%5,18%24,64%1,92%
Malnova de OO47633414333623127439562190867101
22,40%7,84%5,41%5,57%39,97%30,87%
Listo de Ĉapelilo440500639773221277372628.6534291
20,71%7,19%5,18%5,24%18,12%18,65%
Malnova Esperantilo45606604284019146539635
21,45%7,75%4,48%5,58%
Literumilo de Marek Blahus423493580031191822
7,66%5,04%6,53%7,92%
PIV literumilo (47746)48368515475327089352055
22,74%9,90%6,34%7,32%
Revo literumilo (23002)53377936706937862440807
25,10%12,13%8,86%5,74%

Mi ankaŭ trovis la listojn de kapvortoj de PIV kaj Revo kaj ankaŭ uzis ilin por komparo. Oni tuj rimarkas, ke la malnova literumilo de OpenOffice estas la malplej abunda. Tre bona estas la listo de programo ĉapelilo. La malnova Esperantilo ne estis tiel malbona, kiel oni sugestis. Oni tuj vidas, ke la literumiloj de ĉapelilo kaj Marek Blahus enhavas preskaŭ ĉiujn vortojn de PIV. Mi ne decidis simple enigi kapvortojn de PIV, ĉar tio ne plibonigus la rezulton. PIV enhavas multajn vortojn, kiujn oni nenie aliloke trovas. Mi timis, ke tiuj maloftegaj vortoj de PIV povas negative influi la kapablon de literumilo trovi erarojn. Mi delonge uzis la esperantan tekstaron kaj REVO por kompili la malnovan literumilon, do la rezultoj sur tiu tekstaro (listo) estas ankaŭ por malnova Esperantilo bonaj.
Tiu literumilo havas por gutemberg-tekstaro la plej bonan rezulton. La literumilo de Marek Blahus prezentas bonajn rezultojn, sed praktike ĝi estas apenaŭ uzebla por granda tekstaro, ĉar la speciala kompilado de vortaro iĝas la literumilon tre ege malrapida.

Ekzemple jen la listo de gutenbeg-tekstaro de vortoj, kiuj ne konas Esperantilo, sed kiuj konas literumilo de Marek. Do temas ofte pri nomoj. Sed en tiu listo mi trovis ankaŭ dubindajn vortojn: trad, Praha (oficiale estas Prago).

PIV kaj REVO

Oni povas multe analizi, ĉu iu vorto estas en PIV aŭ REVO kaj kiel ofte en tekstaro. Laŭ tiu metodo oni povus ankaŭ analizi, kiu vortaro estas plej taŭga PIV aŭ REVO. La demando estas tre interesa, ĉar ŝajne PIV estas multe pli granda ol REVO. Mi kompilis literumilon direkte de vortoj de PIV kaj REVO. Tiujn literumilojn mi ankaŭ testis. Unue estas okulfrape, ke la listoj de REVO kaj PIV ne estas bonaj por direkta konstruo de literumilo.

Oni vidas, ke la diferencoj ne estas tiom grandaj malgraŭ tio, ke PIV enhavas duoble pli da vortoj ol REVO. La metodo de komparo de tiuj vortaroj ne estas perfekta, ĉar en Esperanto la leganto povas mem redukti vortojn al baza formo. Do en REVO oni ne trovas oftajn verbojn „necesas“ kaj „agado“, sed la uzanto de vortaro povus ja mem trovi la vortojn „necesa“ kaj „agi“, se li ion scias pri la esperanta vortfarado. Do la vera komparo de tiuj vortaroj devus esti pli detala kaj konsideri la regulojn de vortfarado.

Jen la listo de plej oftaj vortoj de libera folio, kiujn oni ne trovas en REVO.

UEA 2442 4
Zamenhof 382 7
agado 293 7
eblas 262 7
UK 253 8
Vikipedio 197 8
komitatanoj 184 8
Ĉinio 154 8
ktp 153 8
esperantlingva 152 8
estrarano 143 8
estraranoj 137 8
necesas 135 8
ILEI 132 8
Bjalistoko 126 9
s-ro 123 9
komitatano 118 9
IJK 114 9
multlingveco 114 9
EDE 105 9
aktivuloj 100 9
ekz 96 9
UN 89 9
paĝaro 88 9
vicprezidanto 85 9
esperantlingvaj 78 9
plurajn 76 9
unuafoje 75 9
prezidento 74 9
agadon 74 9
lernado 72 9
anglalingva 71 9
pasintjare 70 9
PEA 69 9
Jokohamo 69 9
TEĴA 59 10
pretas 59 10
diskutejo 58 10
SAT 57 10
jardekoj 57 10
iomete 55 10
kataluna 55 10

La simila listo por PIV

retejo 634 6
Zamenhof 382 7
eblas 262 7
UK 253 8
decembro 214 8
Vikipedio 197 8
aprilo 172 8
majo 168 8
julio 158 8
marto 157 8
novembro 149 8
ILEI 132 8
oktobro 127 9
aŭgusto 125 9
septembro 124 9
s-ro 123 9
januaro 119 9
IJK 114 9
multlingveco 114 9
februaro 112 9
eŭropaj 108 9
junio 107 9
eŭropa 107 9
EDE 105 9
ekz 96 9
UN 89 9
paĝaro 88 9
interreto 78 9
plurajn 76 9
Orban 73 9
retejon 73 9
kongresejo 72 9
anglalingva 71 9
PEA 69 9
usona 67 9
retejoj 64 10
nederlanda 62 10
TEĴA 59 10
emas 59 10
pretas 59 10
diskutejo 58 10
n-ro 55 10
Esperantio 52 10

Estas iom strange, ke en PIV-listo ne aperas nomoj de monatoj. Mi supozas, ke la vera PIV enhavas tiujn vortojn, sed mia listo estas fuŝa. En PIV ne ekzistas ankaŭ novaj vortoj kiel: interreto, paĝaro, diskutejo, vikipedio, retejo. Tiuj vortoj ekzistas en REVO.

Mi kolektis ĉiujn dosierojn por analizoj en unu elŝutebla arkivo, por ke ankaŭ la aliaj povas testi siajn listojn kaj vortarojn. La rezultoj ne estas tute konvinkaj, sed mi estas certa, ke la nova literumilo estas pli bona ol la malnova.

Nova literumilo sur OpenOffice

La aktuala kromprogramo Esperantilo por OpenOffice enhavas la novan literumilon. La problemo estas, ke OpenOffice ne subtenas du alternativajn vortarojn por unu lingvo. Tamen mi volis, ke la uzanto povas selekti, kiun vortaron li uzas: la normalan vortaron aŭ la morfologian vortaron. Tial mi difinis la morfologian vortaron, ke la vortaro por lingvo „zulu“. Do se iu volas uzi la vortaron, li elektu la lingvon „zulu“ kaj la morfologia esperanta vortaro estas uzata por literumado.

Keine Kommentare »

No comments yet.

RSS feed for comments on this post. TrackBack URL

Leave a comment

Du musst angemeldet sein, um einen Kommentar abzugeben.

Powered by WordPress