Esperantilo Blogo en Esperanto pri projekto Esperantilo kaj komputila lingvistiko

8.10.2008

Projekto Lingvohelpilo kaj Literumado

Filed under: lingvistiko,programado — artur @ 19:20

Kolektado de ekzemploj de eraroj

Uzanto de programo Esperantilo sciigis al mi pri interesa mesaĝo de projekto „Lingvohelpilo“. Mi konas tiun projekton kaj renkontis ĝiajn membrojn, pri kio mi jam skribis en frua blogo. Mi esperas, ke nun kelkaj esperantaj instruistoj kolektos tiujn erarojn. Kutime tiaj vokoj ne rezultigis iujn rezultojn, sed nun ekzistas ilo por firefox, kiu plifaciligas la kolektadon de eraroj. Tio eble estas pro ia malfacileco de temo kaj manko de spertaj Esperantistoj, kiu interesiĝas pri komputila lingvistiko. Mi esperas, ke ĉi-foja agado estos fruktodona.

Nun ekzistas komenca listo kun ekzemploj sur vikio de ikso. Kelkaj ekzemploj estas al mi tre konataj kiel „Mi vidas la hundo“, sed mi rimarkis ankaŭ tre interesajn ekzemplojn, pri kiuj mi frue ne pensis. Mi ankaŭ testis Esperantilon kun tiuj frazoj. Entute Esperantilo ne povis trovi ĉirkaŭ 15 erarojn. Interesaj estas ekzemploj pri falsa transitiveco:

  • Kiel vi nomigas?
  • Mi mankas monon?
  • Ĉu vi plaĉas tiun filmon?

En la lasta eldono 0.986 mi jam laboris pri tiu temo, sed tiujn erarojn la programo ne povas trovi.
La temo estas iam malfacila, ĉar ne estas facile maŝine trovi, kio estas pripensita subjekto kaj kio objekto. (kiel en frazo: „Mi mankas monon“.)

Feliĉe pro granda parto de tiuj ekzemploj mi povas facile plivastigi la gramatikan kontrolilon en Esperantilo. Do tiu listo helpos ankaŭ por aliaj projektoj.

Interesa scienca laboraĵo pri literumado

Alia membro de projekto Marek Blahuš planis la laboraĵon pri literumado. La laboraĵo estas delonge preta, sed mi nur jam trovis ĝin. Ekzistas eĉ al eblo testi la novajn listojn per reta programo. Marek preparis novajn listojn por Hunspell, sed laŭ li la listoj ne estas pretaj. Estus bone, se tiuj listoj estus uzataj en projekto Firefox aŭ OpenOffice. La laboraĵo estas tre interesa. Ĝi temis ne nur pri elekto de literumilo, sed ankaŭ havas tre interesan parton pri konstruado de eblaj derivaĵojn depende de senco (tipo) de radiko. La plej taŭge literumilo por Esperanto estas laŭ tiu laboraĵo Hunspell. Mi ankaŭ supozis tion en mia blogo. Mi konas kaj uzas tiun literumilon en Esperantilo. Nun dezirindas nur bona libera vortaro por tiu literumilo.

Mi mem nuntempe opinias, ke la vortaro por literumilo ne havu ĉiujn eblajn vortojn, sed nur la plej ofte uzatajn vortojn. Ankaŭ la literumilo ne devas nepre trovi eblajn kunmentaĵojn (analizi morfemojn). Ofte la teoria ebla vorto estas la skriberaro de iu alia kutima vorto. Do oni devus analizi, ĉu malofta teorie ebla vorto ne estas tre simila al alia kutima vorto. Laŭ mia opinio praktika elveno al la problemo estus konsideri nur radikojn (morfemoj), kiuj estas tre produktemaj kiel: „*listo, *grupo, *ebla, …“.
La plej granda laboro estus trovi tiujn radikojn (aŭ skribi programon, kiu tion faras).

De laboraĵo de Marek mi eksciis pri ekzisto de programo ESPSOF de Toon Witkam. La programo estas la kontrolilo por esperantaj tekstoj, kiu funkcias por programo MS Word (Ĝi estas skribita en la programa lingvo Visual Basic). Mi mem preferus OpenOffice. Tamen MS Word estas tre vaste uzata programo kaj eble tre konata al multaj Esperantistoj. ESPSOF enhavas multajn interesajn lingvistikajn analizojn kaj kromajn ilojn. Bedaŭrinde mi ne havas la programon MS Word sur mia komputilo, do mi ne povis testi la programon. Laŭ la priskribo de aŭtoro la programo povas iom simile kiel Esperantilo mem trovi eblajn kunmetitajn vortojn. Tio ne estas facila tasko. Teorie ekzistas preskaŭ senlima nombro de ebloj. En praktiko oni devas tre limigi la nombron de radikoj kaj eblaj ligoj en unu vorto.

Ŝajnas, ke la fina perfekta ideo por literumilo por esperantaj tekstoj ankoraŭ ne ekzistas (kaj en teorio kaj en praktiko). Ĝi povas esti la mikso de statistika alveno kaj analiza alveno. La saman konstatas Marek en sia laboraĵo. Malfacila afero estas trovi la plej oportunan proporcion inter tiuj metodoj kaj pruvi tion praktike. Ankaŭ la pritakso de literumilo ne estas facila afero. La literumilo devas trovi ĉiujn erarojn, sed ne misaverti pri bone skribitaj vortoj. Por tio ekzistas matematikaj indikoj, sed fine oni devus pritaksi, kio estas pli grava: preterpasitaj eraroj aŭ ĝenado de uzanto pri ĝustaj vortoj. La bona statistiko pri esperanta morfologio estus la bona starto por la tasko.

Feliĉe la laboraĵo estas skribita en la lingvo, kiun mi iugrade komprenas. Tio estas la angla. Mi havus problemojn kun ĉeĥa laboraĵo, kvankam la ĉeĥa kaj pola lingvoj estas tre similaj. En la scienco la angla lingvo estas delonge memkomprenebla. Mi observis grandajn ŝanĝojn en lastaj 5 aŭ 10 jaroj. Antaŭ 10 jaroj, kiam mi studis informatikon la kono de angla lingvo estis jam tre oportuna sed ne necesa por studado. Nun eĉ studentoj skribas iliajn laboraĵojn en tiu lingvo.

Fina vorto

La komputila lingvistiko por Esperanto progresas kaj la projektoj feliĉe influas unu la alian. Mi dezirus pli da tiaj projektoj.

2 Comments »

  1. Artur, bonvolu korekti la adreson al la studlaboraĵa retpaĝo, ĉar ĝi ial aperas fuŝa en la blogaĵo. La ĝusta adreso estas:

    https://is.muni.cz/auth/th/172464/fi_b/?lang=en

    Aldone, ne funkciis pro teĥnikaj kialoj momente la interreta provversio, sed mi ĵus denove refunkciigis ĝin.

    Mi dankas al vi pro tre bona blogaĵo kaj scivolemas pri niaj estontaj atingoj!

    Kommentar von Marek Blahuš — 20.11.2008 @ 07:18

  2. Kaj ankoraŭ komento pri la lingvo de mia studlaboraĵo: Mi mem sentis min iom strange, ke mi elektis tion verki en la angla, ĉar tio en nia universitato ne estas deviga, kaj kaze de bakalaŭra studlaboraĵo kiel la mia eĉ tute ne kutima. Mia decido pri la angla efektive estis kompromiso inter du flankoj: Verki ĉeĥe kiel oni kutimas sed ke tiam la laboro ne havus rektan valoron al la cetero de la esperantista projekto Lingvohelpilo kies parto ĝi estas, aŭ verki esperante, sed tiam estus tre malfacile imagi ke mi tian studlaboraĵon povus defendi en la universitato (simple ĉar nek mia gvidanto nek la aliaj ĵurianoj komprenus la lingvon, kvankam laŭ mia informiĝo oficiale ne ekzistas ajna eksplicita limigo pri lingvo, ĉio dependas nur de la cirkonstancoj).

    Kommentar von Marek Blahuš — 20.11.2008 @ 07:25

RSS feed for comments on this post. TrackBack URL

Leave a comment

Du musst angemeldet sein, um einen Kommentar abzugeben.

Powered by WordPress