Lingva ludo “vortaj amikoj” en Esperantilo

Juli 29th, 2009

Esperantilo enhavas bazon de vortoj kun iliaj kuntekstoj (vidu menuo: Lingvistiko-Bazo de Frazpartoj).
La bazo estas kreita de granda esperanta tekstaro.
La kuntekstoj estas ordigitaj laŭ gramatika dependeco. Do oni povas trovi ekzemple, kiuj adjektivoj priskribas iun substantivon.

Ekzemplo por vorto “patro”:

np np-adj
cikonia (25), sankta (24), bona (8), kara (6), alia (5), malfeliĉa (5), malbona (4), maljuna (4), propra (4), adoptinta (3), cia (3), mortinta (3), prava (3), respektinda (3), sama (3), ĉiela (3), malsana (2), nuna (2), pia (2), senmorta (2), vera (2), dia (1), estinta (1), estonta (1), feliĉa (1), fiera (1), filiniginta (1), flama (1), forlasita (1), formortinta (1), gajninta (1), granda (1), ideala (1), ironta (1), juna (1), kontenta (1), kruela (1), laŭlega (1), laŭnatura (1), libera (1), malafabla (1), malnaturigita (1), natura (1), needziĝinta (1), proksima (1), ruĝhara (1), sana (1), saĝa (1), spirita (1), stulta (1), suna (1), vivanta (1), ĵusa (1)

obj vp-obj
havi (17), ami (8), demandi (4), simili (3), trovi (3), koni (2), rigardi (2), vidi (2), viziti (2), peti (2), timi (2), kovri (1), ekvidi (1), doni (1), respekti (1), kaŝrigardeti (1), nomi (1), rigardadi (1), ricevi (1), indulgi (1), anstataŭi (1), trompi (1), esperantigi (1), kontentigi (1), instigi (1), kuŝi (1), inciti (1), kisi (1), adiaŭi (1), povi (1), malobei (1), murdi (1), meti (1), impresi (1), eniri (1), transporti (1), postuli (1), rekoni (1), spiti (1)

subj vp-subj
esti (74), diri (59), veni (13), havi (11), povi (10), morti (10), fari (8), demandi (8), respondi (7), doni (5), voli (5), rigardi (5), rakonti (4), loĝi (4), dormi (4), ekkrii (4), nomi (3), komenci (3), devi (3), posedi (3), labori (3), reveni (3), scii (3), preni (3), akcepti (3), alporti (2), stari (2), ordoni (2), turni (2), aŭskulti (2), akompani (2), iri (2), aĉeti (2), fariĝi (2), promesi (2), paroli (2), ekvidi (2), ĵeti (2), kuŝi (2), kompreni (2), mencii (2), timi (2), plendi (1), ekplori (1), sidiĝi (1), aparteni (1), ekridi (1), forveturi (1), ekinstrui (1), konsili (1), demeti (1), aserti (1), ekzameni (1), rekomenci (1), donaci (1), agi (1), flugi (1), provi (1), ami (1), balanci (1), peti (1), rajdadi (1), konigi (1), etendi (1), trafi (1), diradi (1), ekloĝi (1), surprizi (1), montriĝi (1), iĝi (1), difini (1), fali (1), ŝerci (1), planti (1), observi (1), vivi (1), ekmiregi (1), humiliĝi (1), elekti (1), vendi (1), lasi (1), ektimi (1), preterpasi (1), plaĉi (1), legi (1), fidi (1), eksilenti (1), plenumi (1), ŝajni (1), levi (1), verki (1), prunti (1), enveni (1), certigi (1), ĉagreniĝi (1), ricevi (1), pentri (1), bruligi (1), ploraĉi (1), interparoli (1), malŝati (1)

sub vp-pp-sub
iri al (6), esti por (3), ricevi de (3), ĵuri al (2), veni al (2), fari por (2), fariĝi al (2), promesi al (2), esti de (2), esti kun (2), sendi al (2), heredi de (2), paroli pri (2), skribi al (2), eltrinki al (1), alporti al (1), stari apud (1), okazi al (1), fantazii pri (1), rapidi al (1), rapidi post (1), draŝi al (1), agi kun (1), veni je (1), veni kun (1), kortuŝi al (1), kvereli kun (1), stariĝi apud (1), fari de (1), iri kun (1), loĝi ĉe (1), lasi al (1), fariĝi de (1), elmezuri por (1), reveni al (1), levi al (1), prunti de (1), serĉi de (1), esti al (1), esti pri (1), regi de (1), persekuti de (1), interparoli kun (1), proksimiĝi al (1), havi kun (1), anonci al (1), ekpensi pri (1), akiri por (1), ludi de (1), ludi ĉe (1), diferenci de (1), pensi pri (1), verŝi al (1), ripeti al (1), renkontiĝi kun (1), kompreni al (1), bori kun (1), demandi al (1), ĉeesti kun (1)

sub sub-pp-sub2
de infano (9), de arne (3), de knabo (3), de maŭrico (3), de antono (2), de edzino (2), de fernando (2), de filo (2), de kristino (2), de amikino (1), de andreo (1), de anjo (1), de cindrulino (1), de familio (1), de georgo (1), de ido (1), de johano (1), de josefino (1), de junulo (1), de knabineto (1), de kristoforo (1), de lumo (1), de markizo (1), de matildo (1), de petro (1), de reĝido (1), de reĝino (1), de sfinkso (1), kun filo (1), kun voĉo (1)

sub2 sub-pp-sub2
palaco de (9), tombo de (6), domo de (4), volo de (3), alveno de (3), morto de (3), nomo de (2), ordono de (2), vizaĝo de (2), enterigo de (2), spirito de (2), kastelo de (2), kolo de (2), koro de (2), kolero de (2), bieno de (2), portreto de (2), amemo de (1), aspekto de (1), bildo de (1), forveturo de (1), amiko de (1), insistemo de (1), diro de (1), apudestado de (1), ago de (1), nombro da (1), laboro de (1), infano de (1), ĉapelo de (1), emo de (1), si de (1), edzino de (1), kadavro de (1), brandujo de (1), vorto de (1), kamarado de (1), rikoltisto de (1), voĉo de (1), vivo de (1), oficejo de (1), vizito de (1), ombro de (1), okulo de (1), vidpunkto de (1), brako de (1), renkonto kun (1), pereigo de (1), interparolo kun (1), lito de (1), mano de (1), gajno de (1), ĝi de (1), bato de (1), sledeto de (1), sinteno de (1), konduto de (1), letero de (1), korpo de (1), ĝojo de (1), restaĵo de (1), rolo de (1), edziniĝo kun (1), frenezaĵo de (1), seĝo de (1), heredaĵo de (1), trezorejo de (1), frato de (1), foriro de (1), tero de (1), kutimo de (1), virino de (1)

Mi trovis, ke oni povas diveni la vorton “patro”, nur de la kono de kuntekstoj. Tio estas la ideo de la ludo. Dum la ludo oni vidas nur la kuntekstajn vortojn (amikoj de vortoj) kaj devas elekti el la listo de 4 vortoj la konvenan vorton. La amikaj vortoj estas ordigitaj laŭ ofteco kaj estas montritaj nur plej facilaj gramatikaj dependecoj. La ludanto devas dum unu ludo diveni 10 vortojn (substativojn, adjektivojn aŭ verbojn). Vortoj estas elektitaj hazarde. Por ke la ludo ne estu tro malfacila, la ludanto devas diveni nur oftajn vortojn. La ludo estas nun la parto de programo esperantilo (de eldono 0.990) kaj estas atingebla per menuo (Lingvistiko/Ludo Vortaj Amikoj).

Ludo - Vortaj amikoj

La ludo ne estas facila kaj oni devas bone koni la lingvon. Tamen mi jam sukcesis diveni 10 ĝustajn respondojn. Iam okazas, ke la hazarde elektitaj vortoj por la elekto estas tre similaj, tiam la ludo enhavas hazardan elementon, ĉar oni ne estas eble elekti la ĝustan vorton nur de bona kono de lingvo.

Vortaj amikoj - perfekta rezulto

Mi pensas, ke la ludo estas interesa, ĉar oni ekkonas per tiu ludo la veran uzadon de vortoj, kiu devenas de granda esperanta tekstaro. Tiuj kuntekstoj estas ofte pensigaj kaj surprizaj.

Bonan Ludadon!

Kolektado de ekzemploj de gramatikaj eraroj

Juni 14th, 2009

En la lasta tempo mi legis la diplomlaboron “Erarkolektado kaj Analizado” de Sonja Petrović Lundberg. La diplomlaboro aperis kadre de projekto lingvohelpilo. Tio estas jam la dua diplomlaboro. Pri la alia mi skribis en mia alia blogo (Projekto Lingvohelpilo kaj Literumado).

La bona kolekto de gramatikaj eraroj estas grava bazo por programado de gramatika kontrolilo. De tiu kolekto oni vidas, kiuj tipoj de eraroj ekzistas. Oni programas laŭ tiuj tipoj kaj oni fine povas testi la programon kontraŭ tiuj ekzemploj. En la projekto “lingvohelpilo” oni volis uzi la esperantan komunumon por kolektado de tiuj eraroj. Oni programis eĉ specialan kromprogramon por Firefox, kiu ebligas tre facilan raportadon de eraroj direkte de TTT-legilo. Oni uzis bonajn kontaktojn kaj konon de esperanta medio. Tamen la rezultoj de tia kolektado helpe de komunumo ne estis imponaj kaj raportoj bezonis ampleksan prilaboron. En la projekto Sonja kolektis la plej grandan parton de ekzemploj propramane. Ŝi uzis tekstojn de siaj studentoj, kiujn ŝi antaŭe korektis.

Por mi interesa kaj valora estas la klasifiko de eraroj. Mi bedaŭrinde malatingis tion dum programado de Esperantilo. Tio ne estas nur interesa informo por statistiko, sed ankaŭ oni povus helpe de tiuj tipoj doni al uzantoj de korektilo pluajn informojn kaj ligiloj al eksteraj fontoj kiel lernu.net aŭ PMEG.
Interesa fakto de tiu diplomlaboro estas kaj granda parto de eraroj estas la falsa uzado de vortoj.

La diplomlaboro ankaŭ pritraktis la dependecon de gramatikaj eraroj de nacieco de uzanto. Bedaŭrinde la bazo de eraroj ne estis sufiĉa por tiu demando.

Mi pensas, ke nuntempe nur spertaj esperantaj korektistoj povas doni la uzeblan materialon. Temas pri teksto antaŭ korektado kaj post korektado. Pro multaj kialoj la atingo de tiuj tekstoj ne estas facila. Kiu aŭtoro volas publikigi la unuan eraran version de sia teksto? Nun kelkaj korektistoj uzas la programon Esperantilo por ilia laboro. Ili raportas multajn erarojn (ĉefe nur falspozitivaj mesaĝoj). Tiu raportado nun estas tre facila de programo Esperantilo. Sufiĉas unu klako. Mi ne scias, kiel organizi la raportadon de erarojn, kiujn la programo nun ne povas trovi. Mi devos iam pensi pri tio.

Aŭtomata kolektado de eraroj.

Ekzistas ankaŭ alia ebla fonto de ekzemploj de gramatikaj eraroj. Tiu fonto estas vikipedio. En vikipedio oni povas trarigardi tre komforte la lastajn ŝanĝojn de ĉiu artikolo. La tezo estas: Kutime tiuj ŝanĝoj koncernas forigon de skriberaroj. Se la ŝanĝo okazis nur ĉe unu vorto en frazo kaj ne temas pri literuma eraro, tio tre verŝajne estas la gramatika eraro. Mi trarigardis la ŝanĝolistojn de kelkaj artikoloj. Bedaŭrinde la ŝanĝoj de tiu tipo ne estas tre oftaj. Pri tiuspeca kolektado mi legis sur la pago de projekto Morfologik, kiu pritraktis la kolektadon de eraroj por pola lingvo kaj projekto Language Tool. La aŭtoro skribis la programon, kiu mem de plena datumaro de vikipedio trovas gramatikajn erarojn. Tiu provo eble estas ankaŭ farinda por esperanta vikipedio.

Vortaraj eraroj

Por mi la novaĵo en tiu diplomlaboro estas, ke ĉe multaj eraroj temas pri falsa uzo de vortoj. Ĉe tiuj eraroj ne temas pri strikte gramatikaj eraroj. Ŝajne oni pensas, ke la komputilo ne povas trovi tiujn erarojn. La tasko povus esti pli facila ol oni tion unue pensas. Mi trovis liston de vortojn (la listo enhavas erarojn!), kiuj estas ofte miksitaj ĉe komencantoj. Se oni bone analizas la liston, estas okulfrape, ke ĉe kelkaj vortoj, oni povus bone trovi la eraron de kunteksto de vorto.
En Esperantilo ekzistas nun “vortaro de frazpartoj” (Menuo Lingvistiko-Uzado de vortoj en frazparoj”). Mi pli bone nomigus tiun vortaron “kunteksta vortaro”. Ĉe kelkaj verboj oni povus trovi la eraron, ĉar la verboj havas alian transitivecon.

verbo “ŝerci” estas ne transitiva.
verbo “serĉi” estas transitiva.

Ebla solvo por trovo de misuzo de prepozicioj “por” kaj “pro” nur de analizo de ĉefa verbo.

pro:
esti (164), suferi (45), morti (41), devi (37), povi (36), danki (34), fari (28), ricevi (26), havi (26), ĝoji (26), senti (21), fariĝi (19), okazi (17), perdi (15), diri (14), peti (14), veni (14), honti (14), resti (10)

por:
esti (874), havi (152), fari (58), fariĝi (57), doni (55), taŭgi (53), bezoni (50), ekzisti (44), uzi (44), trovi (42), povi (38), sufiĉi (37), ricevi (36), devi (35), pagi (34), resti (34), veni (28), labori (26), prezenti (20), gravi (19), prepari (19), signifi (18), montri (17), aĉeti (17), voli (17), elspezi (16), preni (16), kolekti (15), necesi (15), alporti (14), troviĝi (14), senti (13), validi (12), iri (12), serĉi (11), valori (10)

De tiuj listoj oni vidas kaj verboj “suferi, morti, honti” aperas en la tekstaro nur kun “pro”.

Verboj kunteksto de objekto

atendi:
momento (23), respondo (11), reveno (10), ordono (6), alveno (5), nokto (4), rezulto (3), vizito (3), daŭrigo (2), edzino (2), edzo (2), fariĝo (2), infano (2), kvietiĝo (2), ondo (2), plialtiĝo (2), proksimiĝo (2), propono (2)

atenti:
vorto (4), aserto (1), babilado (1), bezono (1)

De tiu statistiko oni povas konstrui regulojn, sed eble tiuj reguloj ne estas tute certaj. La problemo estas, ke ofte la kunteksto povas esti pli vasta kiel unu frazo kaj devas enhavi la ĝeneralan scion pri mondo. Tiu scio nuntempe estas ne atingebla de komputiloj.

Por tiaj eraroj oni povas tre facile konstrui frazojn por testado de programo. Oni prenas frazojn de granda tekstaro, en kiuj aperas tiuj vortoj kaj interŝanĝas tiuj vortoj je la falsaj vortoj. Poste oni testas, ĉu la programo trovas tiun interŝanĝon.

Nun mi ne povis trovi en la reto la plenan liston de ekzemploj de gramatikaj eraroj. La listo en vikio ne estas plena laŭ la teksto en la diplomlaboro.
La ekzemploj de diplomlaboro inspiris min plivastigi mian liston de gramatikaj eraroj.
Feliĉe unu ekzemplon de tiu laboro (frazo: “Lernis tie ĉirkaŭ 120 studentojn.”) la programo Esperantilo regas nun tute ĝuste.

Falspozitaj eraroj

La plej granda manko de gramatikaj korektiloj estas la falspozitivaj mesaĝoj. Kiel programisto oni tre ĝojas, ke la programo trovas iujn erarojn kaj unue ne zorgas pri falspozitivaj eraroj. Por la uzanto ĉiu falspozitiva eraro por “evidente” ĝusta frazo estas la grava pruvo, ke la programo estas tre malperfekta. Ekzistas do la bezono testi la programon kontraŭ ĝustaj tekstoj. Sed la kolekto de ĝustaj teksoj ne estas facila afero. La problemo estas unue la kvalito de tekstoj kaj due la fakto, ke kelkaj konstruaĵoj aperas tre malofte. Oni bezonas do tre grandan amason da tekstoj. Feliĉe iu jam faris tiun grandegan laboron. En la PMEG oni trovas ekzemplojn por ĉiuj eblaj artoj de frazoj. Kaj ĉiu ekzemplo estas zorge tralegita de aŭtoro de libro. Mi ekstraktis tiuj ekzemplaj frazoj de PMEG kaj uzas ilin por testado. Mi devus diri, ke veraj tekstoj estas eĉ pli komplikaj. Ili enhavas multaj fremlingvajn nomojn, fremdlingvajn citaĵojn kaj estas tre komplikaj.

Mi pensis ankaŭ pri bona komparo de gramatikaj kontroliloj. Oni devus testi je du tekstoj. La unua enhavas erarojn. Kaj oni provas, kiujn erarojn kapablas trovi la programo. La dua teksto estas tute ĝusta, kaj enhavas tre diferencaj frazoj. De tia testo oni povus kalkuli la bonon de korektilo laŭ tiu formulo. Praktike la plej granda problemo estas konstati, ĉu temas pri gramatika eraro aŭ ne. Tion priskribis ankaŭ la diplomlaboro. Ofte ne ekzistas konsento pri ĝusteco de iu frazo en Esperanto. Oni povus diri, ke kiam renkontas 5 esperantistoj, ekzistas 6 opinioj pri la ĝusta esperanta lingvaĵo. La lingvohelpilo markas kiel eraro la lingvaĵon “kelke de …” sed akceptas “multe de …”. La lingvaĵo “multe de” estas vaste uzata, la analoga “kelke de …” estas tamen ne akceptinda por multaj.

La projekto lingvohelpilo nun donas fruktojn. Mi ŝatus, ke tiuj fruktoj estas ankaŭ iom da lingvistika materialo kaj io, kion mi povus ruli sur mia komputilo. La dua konstato estas, ke reta komunumo vere ne taŭgas por prilaboro de komplikaj lingvistikaj taskoj.

Mi nun bedaŭrinde ne havas tempon por la programo Esperantilo. Mi esperas, ke post iom da tempo mi denove okupos pri la programo kaj povus realigi kelkajn ideojn.

“ne jam” = “ankoraŭ ne”?

Mai 20th, 2009

Mi ofte estas surprizita de kelkaj tiaj kunligoj de vortetoj. Por mi la kunligo “ne jam” estas iam ŝtranga kaj mi
eĉ devas bone pripensi, kion tio signifas.

Ekzempla frazo: ” La problemo estas kompleksa kaj ne jam solvita”.

Ŝajnas, ke en tiu frazo oni povus uzi “ankoraŭ ne”.
Mi trovis en la esperanta korpuso, ke “ne jam” aperas 161 foje kaj “ankoraŭ ne” 659 foje kaj “ne ankoraŭ” 18 foje. Do ne eblas diri, ĉu iu formo estas malĝusta aŭ ne.
Ĉu la programo “Esperantilo” plendu pri “ne jam” aŭ “ne ankoraŭ”?

Ĉu temas pri iu nacia kutimo?

  • Germana: “noch nicht”
  • Pola: “jeszcze nie”
  • Angla: “not yet” (ni havas la kulpulon!)
  • Rusa: “ещё нет”

Interese estus pruvi, ĉu la ofteco de uzado de “ne jam” ŝanĝiĝis en lastaj 100 jaroj en esperantaj tekstoj. Poste oni povus diri, ĉu la influo de angla lingvo sur Esperanto kreskis.
Mi mem tute ne ŝatas la anglan uzadon de interpunkcio en esperantaj tekstoj kaj la rigidan ordon, kiu estas tute
superflua en esperanta lingvo.
Kion fari? La angla lingvo ŝajne vere regas la lingvan mondon.

Esperantilo denove laboras kun OpenOffice

Mai 17th, 2009

Fine mi sukcesis pretigi la novan eldonon de kromprogramo Esperantilo por OpenOffice.
Tiu programo laboras kun aktuala OpenOffice 3.1.
Do la uzantoj de OpenOffice povas nun uzi la gramatikan korektilon de Esperantilo rekte en OpenOffice.
Oni nur devas instali la kronprogramon de Esperantilo por OpenOffice.

Pluaj informoj pri uzado de kontrolilo oni trovas en dokumentaro de OpenOffice.

Kelkajn bildojn.

Fenestro

Korektilo

Preferajxoj de OpenOffice

La adaptigo de Esperantilo por nova eldono de OpenOffice estas pena laboro.
Mi frontis kelkajn teknikajn problemojn, sed helpe de aliaj programistoj mi sukcesis fari tion.
Nun ekzistas kelkaj liberaj gramatikaj korektiloj por OpenOffice.
Feliĉe mi povis trarigardi la kodaron de aliaj programoj kaj gajni valorajn informojn.

Decidajn informojn mi trovis en la kodo de Voikko.
Tio denove estas por mi la pruvo, ke la venonto de komputiko estas en liberaj programoj.

Signifo de koloroj ĉe korektado en programo Esperantilo

Mai 1st, 2009

La programo kontrolas tekston kaj markas vortojn depende de tipo de eraro. Ofte la programo avertas nur eblan eraron. La uzanto devas en tiu kazo mem decidi, ĉu la averto estas ĝusta. La avertoj pri eblaj falsaj amikoj povas ofte esti tre maltrafaj. Oni malŝaltu tiun korekton en preferaĵojn (Preferaĵoj-Kontrolado-Avertu pri ebla falsa amiko), se oni ne estas kontenta pri ties avertoj.

  • Ruĝa kaj roza koloroj signifas preskaŭ certan eraron.
  • Verda kaj blua koloro signifas nur sugeston (pripensindan lokon en teksto).

Ekzemplaj korektoj

Uzantoj de komputilaj programoj kutimigis al tio, ke rezultoj de rezultaj programoj estas certaj. Komputilaj programoj ofte helpas ĉe matematikoj problemoj, kiuj havas nur unu solvon. La rezulto de tiuj programoj povas esti nur ĝusta aŭ malĝusta. Kutima kalkulilo neniam rezultus, ke 2 plus 2 estas verŝajne 4. En kazo de lingvistikaj programoj la situacio estas alia. Oni ne povas kalkuli sur natura lingvo, kiel oni kalkulas en la matematiko. Temas ofte pri verŝajneco kaj eblo. Ankaŭ homaj korektistoj ofte malsamopinias pri korekteco de iu teksto. Do la programo estas nur ilo, kiu indikas iun pripensindan lokon en teksto, en kiu povas esti eraro.

Mi iom timas, ke la uzantoj de programo Esperantilo tro fidas al la indikoj de programo kaj laŭ la kutimo de uzado de kalkuliloj malŝaltas propran cerbon.
En la programo estas modelo de lingvo, kiu estas abstrakta kaj ne plene spegulas la lingvon. Ĝis nun ne ekzistas komputilo, kiu povas funkcii kiel homa cerbo kaj regi la naturan lingvon. Do la rezultoj de komputiloj pri natura lingvo devige ne estas certaj. Due en programo ekzistas eraretojn, kiuj ankaŭ kondukas al malĝustaj rezultoj. Se la programo indikas ion strangan, tio ne signifas, ke mi ankaŭ tiun farus. Nur tial, ke mi estas la programisto de tiu programo. Mi ofte mem miras pri la rezultoj de programo. Tio estas afero, kiun mi ne sentas min ebla komprenigi.

Projekto Lingvohelpilo kaj Literumado

Oktober 8th, 2008

Kolektado de ekzemploj de eraroj

Uzanto de programo Esperantilo sciigis al mi pri interesa mesaĝo de projekto “Lingvohelpilo”. Mi konas tiun projekton kaj renkontis ĝiajn membrojn, pri kio mi jam skribis en frua blogo. Mi esperas, ke nun kelkaj esperantaj instruistoj kolektos tiujn erarojn. Kutime tiaj vokoj ne rezultigis iujn rezultojn, sed nun ekzistas ilo por firefox, kiu plifaciligas la kolektadon de eraroj. Tio eble estas pro ia malfacileco de temo kaj manko de spertaj Esperantistoj, kiu interesiĝas pri komputila lingvistiko. Mi esperas, ke ĉi-foja agado estos fruktodona.

Nun ekzistas komenca listo kun ekzemploj sur vikio de ikso. Kelkaj ekzemploj estas al mi tre konataj kiel “Mi vidas la hundo”, sed mi rimarkis ankaŭ tre interesajn ekzemplojn, pri kiuj mi frue ne pensis. Mi ankaŭ testis Esperantilon kun tiuj frazoj. Entute Esperantilo ne povis trovi ĉirkaŭ 15 erarojn. Interesaj estas ekzemploj pri falsa transitiveco:

  • Kiel vi nomigas?
  • Mi mankas monon?
  • Ĉu vi plaĉas tiun filmon?

En la lasta eldono 0.986 mi jam laboris pri tiu temo, sed tiujn erarojn la programo ne povas trovi.
La temo estas iam malfacila, ĉar ne estas facile maŝine trovi, kio estas pripensita subjekto kaj kio objekto. (kiel en frazo: “Mi mankas monon”.)

Feliĉe pro granda parto de tiuj ekzemploj mi povas facile plivastigi la gramatikan kontrolilon en Esperantilo. Do tiu listo helpos ankaŭ por aliaj projektoj.

Interesa scienca laboraĵo pri literumado

Alia membro de projekto Marek Blahuš planis la laboraĵon pri literumado. La laboraĵo estas delonge preta, sed mi nur jam trovis ĝin. Ekzistas eĉ al eblo testi la novajn listojn per reta programo. Marek preparis novajn listojn por Hunspell, sed laŭ li la listoj ne estas pretaj. Estus bone, se tiuj listoj estus uzataj en projekto Firefox aŭ OpenOffice. La laboraĵo estas tre interesa. Ĝi temis ne nur pri elekto de literumilo, sed ankaŭ havas tre interesan parton pri konstruado de eblaj derivaĵojn depende de senco (tipo) de radiko. La plej taŭge literumilo por Esperanto estas laŭ tiu laboraĵo Hunspell. Mi ankaŭ supozis tion en mia blogo. Mi konas kaj uzas tiun literumilon en Esperantilo. Nun dezirindas nur bona libera vortaro por tiu literumilo.

Mi mem nuntempe opinias, ke la vortaro por literumilo ne havu ĉiujn eblajn vortojn, sed nur la plej ofte uzatajn vortojn. Ankaŭ la literumilo ne devas nepre trovi eblajn kunmentaĵojn (analizi morfemojn). Ofte la teoria ebla vorto estas la skriberaro de iu alia kutima vorto. Do oni devus analizi, ĉu malofta teorie ebla vorto ne estas tre simila al alia kutima vorto. Laŭ mia opinio praktika elveno al la problemo estus konsideri nur radikojn (morfemoj), kiuj estas tre produktemaj kiel: “*listo, *grupo, *ebla, …”.
La plej granda laboro estus trovi tiujn radikojn (aŭ skribi programon, kiu tion faras).

De laboraĵo de Marek mi eksciis pri ekzisto de programo ESPSOF de Toon Witkam. La programo estas la kontrolilo por esperantaj tekstoj, kiu funkcias por programo MS Word (Ĝi estas skribita en la programa lingvo Visual Basic). Mi mem preferus OpenOffice. Tamen MS Word estas tre vaste uzata programo kaj eble tre konata al multaj Esperantistoj. ESPSOF enhavas multajn interesajn lingvistikajn analizojn kaj kromajn ilojn. Bedaŭrinde mi ne havas la programon MS Word sur mia komputilo, do mi ne povis testi la programon. Laŭ la priskribo de aŭtoro la programo povas iom simile kiel Esperantilo mem trovi eblajn kunmetitajn vortojn. Tio ne estas facila tasko. Teorie ekzistas preskaŭ senlima nombro de ebloj. En praktiko oni devas tre limigi la nombron de radikoj kaj eblaj ligoj en unu vorto.

Ŝajnas, ke la fina perfekta ideo por literumilo por esperantaj tekstoj ankoraŭ ne ekzistas (kaj en teorio kaj en praktiko). Ĝi povas esti la mikso de statistika alveno kaj analiza alveno. La saman konstatas Marek en sia laboraĵo. Malfacila afero estas trovi la plej oportunan proporcion inter tiuj metodoj kaj pruvi tion praktike. Ankaŭ la pritakso de literumilo ne estas facila afero. La literumilo devas trovi ĉiujn erarojn, sed ne misaverti pri bone skribitaj vortoj. Por tio ekzistas matematikaj indikoj, sed fine oni devus pritaksi, kio estas pli grava: preterpasitaj eraroj aŭ ĝenado de uzanto pri ĝustaj vortoj. La bona statistiko pri esperanta morfologio estus la bona starto por la tasko.

Feliĉe la laboraĵo estas skribita en la lingvo, kiun mi iugrade komprenas. Tio estas la angla. Mi havus problemojn kun ĉeĥa laboraĵo, kvankam la ĉeĥa kaj pola lingvoj estas tre similaj. En la scienco la angla lingvo estas delonge memkomprenebla. Mi observis grandajn ŝanĝojn en lastaj 5 aŭ 10 jaroj. Antaŭ 10 jaroj, kiam mi studis informatikon la kono de angla lingvo estis jam tre oportuna sed ne necesa por studado. Nun eĉ studentoj skribas iliajn laboraĵojn en tiu lingvo.

Fina vorto

La komputila lingvistiko por Esperanto progresas kaj la projektoj feliĉe influas unu la alian. Mi dezirus pli da tiaj projektoj.

Esperantilo 0.986 sur OpenOffice

September 29th, 2008

Fine mi sukcesis kuri Esperantilon kiel kromprogramo de OpenOffice. Mi jam skribis pri tio en mia frua blogo.
Nun oni povas elŝuti la programo direkto de retejo de OpenOffice por kromprogramoj (angle: extensions). Nun la programo kuras nur kun nova eldono de OpenOffice 3.0, unue nur sur linukso.
Poste mi provos prepari la eldonon por vindozo. Nun oni povas uzi la gramatikan korektilon de Esperantilo direkte de OpenOffice. La nova interfaco (API) de OpenOffice en eldono 3.0 ebligis tion.
La programado de kunlaboro de OpenOffice kun Esperantilo ne estis simpla afero kaj mi bezonis kelkajn vesperojn pro realigi tion. Kvankam la gramatika kontrolilo por Esperanta lingvo ne ŝajnas esti interesa por plej granda parto de homoj, jam en unuaj tagoj tiu programo estas elŝutita de 30 personoj.

OpenOffice Esperantilo

Laŭ mia scio Esperantilo estas la dua programo, kiu laboras kun OpenOffice. Tio estas certe tre bona verbado por esperanta lingvo. Se OpenOffice havas gramatikan kontrolilon por tiu lingvo, tio por multaj homoj povas signifi, ke tiu lingvo estas vaste uzata. Nun mi atendas, ke aliaj programoj oferus la principan eblon de gramatika kontrolado. Mi esperas pri Firefox, KDE.

Eldono 0.986

Leo kaj Paul denove raportis multajn problemojn pri gramatika korektado.
Mi sukcesis korekti 62 raportitajn erarojn.
Aldone mi ankaŭ plibonigis la pruvadon de transitiveco de verboj.
Nun la programo povas indiki pri sekvaj eraroj.

  • La festo komencis. - La festo komenciĝis.
  • Mi startis la komputilon. - Mi startigis la komputilon.

En tiu eldono la kontrolilo indikas ankaŭ pri eblaj falsaj amikoj laŭ la listo de vikipedio.
La programo ankaŭ sugestas pri la uzo de pli oportunaj samsignifaj vortoj de la listo de retejo“bona lingvo”.

Eldono 0.985

August 24th, 2008

Tiu eldono enhavas precipe korektojn de raportitaj eraroj. Ĉe tiu okazo mi dankas al Paul kaj Leo, kiuj raportis tre multaj raportoj pri falsa indiko de gramatikaj eraroj. Entute estis raportitaj 62 eraroj. Mi sukcesis korekti 45 erarojn en la nuna eldono. Bedaŭrinde la sintaksa analizo en la programo ne estas tute fidinda por komplikaj frazoj. Do la programo havas ankoraŭ problemojn kun korekta analizo. Tio kaŭzas falsaj avertojn pri gramatikaj eraroj.
Kvankam mi plibonigis la sintaksan analizon, mi ne scias, ĉu tiuj plibonigoj estos rimarkeblaj.

Leo sciigis al mi la ekziston de tre interesa paĝo pri konvencioj de Monato. En tiu paĝo mi trovis tre interesaj regolojn de uzado de komoj. Mi samopinias kun tiuj reguloj kaj Esperantilo ankaŭ postulas tiujn regulojn. Kvankam eble kelkaj kazoj ne estas kovritaj de tiuj reguloj.

Mi plivastigis la kapablojn de programo trovi gramatikajn erarojn. Nun la programo povas ankaŭ testi la tekston laŭ kelkaj reguloj de gazeto “Monato”.

Mi korektis ankaŭ kelkajn gravajn erarojn en kampo de maŝina tradukado. Do mi esperas, ke la nuna eldono estos pli fidinda kaj la uzantoj plu raportos erarojn. Nun mi preskaŭ ne havas tempon por mia hobio, do la raportado de uzantoj estas preskaŭ sola motivo modifi la programon.

Esperantilo eldono 0.983

Juni 12th, 2008

La eldono 0.983 donas 2 grandajn teknikajn ŝanĝojn en la ena vivo de programo kaj multajn korektojn de eraroj.
Unue mi nun uzas la plej novan eldono de programa lingvo Tcl en versio 8.51. Due mi nun uzas por tradukaj projektoj la sqlite.
Pri la Tcl85 mi skribis ankoraŭ en blogo “Nova versio de programlingvo Tcl 8.5″.
Mi ankaŭ aktualigis enajn moduloj sqlite kaj XOTcl.
La konservado de tradukaj projektoj kiel bazoj de sqlite plirapidigis la programon.
La enlego kaj enskribo de datoj estas tre rapida. Ankaŭ la uzato de sqlite estas pli sekura pro datoj, ĉar ĉiuj modifoj estas tuj enskribitaj sur disko.

Por uzanto la plej videbla novaĵo estas literumado en tempo de skribado. Nun literumado funkcias simile al kutimaj programoj. Oni skribas kaj la programo tuj korektas skribitajn vortojn. Oni nur komence devas lanĉi la literumadon per butono “ABC”.
Oni povas ankaŭ en preferaĵoj aŭ en menuo “Korektado” malŝalti tiun dumskriban literumadon.
Jam en komenco de la projekto kelkaj uzantoj postulis tiun funkcion, sed mi longe pensis, ke tiu funkcio estas tro malfacila aŭ eĉ malebla en Tcl.
Poste mi ekhavis ideon, kiu ebligis al mi realigi tion.

Mi ankaŭ korektis multajn erarojn, kiuj estis aŭtomate reportataj de multaj uzantoj. La funkcio la aŭtomata raportado estas tre valora. Mi ricevas multajn valorajn raportojn kaj por uzantoj la raportado signifas nur unu klakon de komputila muso.

Mi ankaŭ preparis specialan version de programo kun nur tre bazaj funkcioj. Mi nomis tiun programon “Esperantileto”.
Esperantileto enhavas nur kelkajn funkciojn por skribado kaj korektado de esperanta lingvo.
Tiu programo celas komencantojn, kiuj ne bezonas aliajn funkciojn aŭ eĉ estas irititaj de multaj funkcioj.
Mi preparos poste specialan instalan programon “Setup” por Esperantileto, kiu estos nur 3,8MB granda kompare al 12MB granda instala programo de Esperantilo.
Por homoj kun malrapida reta korekto tiu programo estos eble plej alloga.
Nun ekzistas aldona lanĉa sistema menuo “Esperantileto”, kiu lanĉas la redaktilon kun pli facila baza modo.

Mi nuntempe testas kaj preparas la alian version de Esperantilo por tradukistoj kun nomo “EsperantiloTM”.
Tio eldono estas nur traduka programo por tradukitoj, kiuj laboras nur kun traduka memoro kaj ne estas dependa de iu lingvo.
Ekzistas grupo de tradukistoj, uzantoj de programoj kiel OmegaT kaj aliaj, kiuj ne interesiĝas pri Esperanto sed tradukas profesie kaj volas uzi eblojn de traduka memoro.
EsperantiloTM estus eldono nur por tiuj homoj.

La divido de programo en kelkaj versioj estas provo de adapto de programo al bezonoj de uzantoj. Due mi supozas, ke la intereso pri traduka memoro kaj tielspeca programaro estas pli granda ol intereso pri esperanta lingvo.

i18n per Esperantilo

März 8th, 2008

Esperantilo enhavas funkcion de traduka memoro kaj ankaŭ la specialan redaktilon por tradukado de teksto laŭ segmentoj (frazoj).
Esperantilo regas formatojn TMX kaj XLIFF. Ĝi povas legi formatojn HTML, XML kaj OpenOffice.
Ŝajnas tamen, ke preskaŭ neniu uzas tiujn funkciojn. Unue tiuj funkcioj estas por averaĝa uzanto tro progresinta, ke li ne bezonas ilin. Due la programo eble estas tro ŝarĝita per funkcioj, ke uzantoj estas malcertaj, por kio tiu programo taŭgas.
Eble kelkaj homoj pruvis tiun funkciojn, trovis erarojn kaj lasis tion. Mi nenion eksciis pri tio. Nun havis antaŭ kelka tempo kontakton kun uzanto de OmegaT. Tiu programo estas plej konata traduka programo en modo de libera programado. Esperantilo estas ankaŭ listigita en la listo de programoj, kiuj oferas tradukan memoron. Mi ne varbis por tiuj funkcioj kaj tiuj funkcioj ne estas tre fidindaj kaj ne vere finprogramitaj. En la dua flako tiuj funkcioj estas ankaŭ interesaj por Neesperantistoj. Tial oni povus varbi per tiuj funkcioj por esperanta lingvo. Almenaŭ kelkaj homoj, kiuj uzas tradukan memoron, ekscius pri tiu lingvo.
Lastajn semajnojn mi laboris pri plibonigo de tiuj funkcioj. Mi trovis kaj korektis multajn erarojn. Mi ŝanĝis ankaŭ la metodon de konservado de traduka memoro kaj vortaroj. Nun mi uzas sqlite datumbazon. Tio tre rapidigis la laboron de programo. La maŝina tradukado iĝis eĉ 6 foje pli rapida.

Tradukado de programoj

Esperanto enhavas potencan tradukan memoron kaj povas iel maŝine traduki de angla lingvo al esperanta lingvo. Do la programo povus esti interesa por tradukado de programaro. Mi rigardis kelkajn liberajn projektojn pri tradukado de programaro. Temas pri tradukado de angla lingvo al Esperanto.
Sekvaj projektoj estas plej grandaj kaj plej progresintaj:

Helpe de Translate toolkit mi kolektis ĉiujn tradukojn en unu grandega datumaro.
Mi aliformis la diferencajn formatojn por tradukado al XLIFF-formato. Poste mi importis ĉiujn XLIFF-dosieron al traduka memoro de Esperantilo. Tio daŭris kelkajn horojn.
Ne estis ankaŭ faĉile trovi ĉiujn fontojn de tradukadoj en la reto.
Fine mi havas 24MB grandan tradukan memoron kun 58.000 tradukitaj frazoj.
Estas interese, ke antaŭ 20 jaroj nur kelkaj registaroj de plej riĉaj landoj havis sufiĉe grandan komputilon por prilabori tiun amason da datumoj.
Tio estas bona fonto por sekvaj laboroj. Oni povas uzi tiun tekstaron tre diference.
Ĝi povus helpi ĉe traduko de aliaj programoj. Mi pensas ankaŭ pri aŭtomata kredo de vortaroj de tiu datumaro. Mi jam eksperimentis pri tio kun pola lingvo.

Antaŭ 4 jaroj, kiam mi komencis okupi pri komputila lingvistiko kaj Esperanto, tiu datumaro ne estis ebla. Estas tre ĝoige, ke Esperanto evoluas en libera programado. Tiu nuna bazo povus eĉ plirapidigi la disvastigon de Esperanto en tiu kampo.

Enkoduko - Kiel uzi Esperantilo por i18n

Unue instalu la plej novan eldonon de Esperantilo. Mi preskaŭ ĉiumonate pretigas novan plibonigitan eldonon.

Due ŝarĝu tm_en_eo.tmsql.gz la tradukan memoron por tradukado de angla al esperanta lingvo. Depaku tiun dosieron kaj kopiu ĝin al loko ~/Esperantilo aŭ sur Vindozo al dosierujo Esperantilo en dosierujo de uzanto (en angla eldono C:/Documents and Settings/uzanto/).

Lanĉu Esperantilon. Unue vi povas trarigardi la tradukan memoron. Tial vi ankaŭ provos, ke la importado de traduka memoro sukcesis. Agordu la fontan lingvon kiel angla lingvo kaj cela lingvo kiel Esperanto. Vi povas uzi por tiu menuon “Preferaĵoj->fonta lingvo” kaj “Preferaĵoj->cela lingvo” aŭ uzi la flagajn butonojn.


Flagoj en redaktilo


Lanĉu la redaktilon de traduka memoro per menuo: “tradukado->Traduka Memoro->redaktilo de traduka memoro”.


Redaktilo de Traduka Memero


Nun vi povas prepari la tradukadon de via ŝatata programo de angla lingvo al esperanta lingvo. Vi unue bezonas la fontan dosieron en formato XLIFF. Vi povas uzi la programon po2xliff de projekto Translate toolkit por transformi kutiman po-dosieron al xliff-dosiero.
Nun vi povas lanĉi la tradukan asitanton de Esperantilo.
Uzu por tio la menuon “Tradukado->Tradukado asistanto”.


asistanto de segmentilo


Vi povus ankaŭ lanĉi la redaktilon de xliff direkto de konsolo

./esperantilo.bin -segmentilo
./esperantilo.bin viadosiero.xliff

Vi elektu la fontan lingvon kiel angla lingvo (en) kaj celan lingvon kiel Esperanto (eo). Poste vi povas traduki la projekton per tn. traduka segmentilo.
Vi tradukas po unu elemento (segmento).
Kutime la programo pruvas traduki la frazon maŝine. Se ekzistas la traduko en traduka memoro, vi povas akcepti tiun tradukon.
Oni povas ankaŭ traduki la tutan dosieron aŭtomate per funkcio “Traduku al fino plenu aŭtomate” aŭ traserĉi la tekston laŭ traduka memoro per funkcio “Prenu tradukojn de traduka memoro”.


XLIFF redaktilo

Trarigardo de tradukado

Nun mi kolekti pli ol 50000 tradukoj kaj havis okazon iom trarigardi tiujn tradukojn.
Mi unue serĉis la tradukon de “close window” kaj trovis:

  • Fermu fenestron
  • Malfermu fenestron

Interesa eraro. Mi ankaŭ ĝin iam faris. Kaj poste nur “Close” mi trovis

  • Fermi
  • Fermu

Mi mem preferas la ordonan formon, ĉe ja temas pri komando do ordono. Kutime oni tradukas en naciaj lingvoj tiujn komandojn kiel ordonoj. En germana lingvo oni uzas infinitivon (”Schliessen”). Sed en germana lingvo oni ĝenerale ofte uzas tiun formon kiel ordono (senpersona ordono) “Arbeiten! Arbeiten!”, eble ankaŭ mallongigo de “Arbeiten Sie!”. Ankaŭ la angla lingvo uzas ordonon, la infinitivo estus “To close”.
Mi ŝatas la formon “u”, kiu ne nur estas ordono, sed ankaŭ povas esti sugesto.
Oni povus fari interesajn studojn sur tiu materialo.
Mi pensas pri aŭtomata kreado de vortaro.

Planoj (TODO)

Nun ekzistas multaj punktoj en programo, kiujn mi volas plibonigi. Mi rimarkis, ke mankas kelkaj funkcioj. Ekzemplo markilo por statuso de tradukado (”akceptita”).

Fina vorto

Mi esperas, ke kelkaj homoj uzos Esperantilon por tradukado de programaro.