En la lasta tempo mi legis la diplomlaboron „Erarkolektado kaj Analizado“ de Sonja Petrović Lundberg. La diplomlaboro aperis kadre de projekto lingvohelpilo. Tio estas jam la dua diplomlaboro. Pri la alia mi skribis en mia alia blogo (Projekto Lingvohelpilo kaj Literumado).
La bona kolekto de gramatikaj eraroj estas grava bazo por programado de gramatika kontrolilo. De tiu kolekto oni vidas, kiuj tipoj de eraroj ekzistas. Oni programas laŭ tiuj tipoj kaj oni fine povas testi la programon kontraŭ tiuj ekzemploj. En la projekto „lingvohelpilo“ oni volis uzi la esperantan komunumon por kolektado de tiuj eraroj. Oni programis eĉ specialan kromprogramon por Firefox, kiu ebligas tre facilan raportadon de eraroj direkte de TTT-legilo. Oni uzis bonajn kontaktojn kaj konon de esperanta medio. Tamen la rezultoj de tia kolektado helpe de komunumo ne estis imponaj kaj raportoj bezonis ampleksan prilaboron. En la projekto Sonja kolektis la plej grandan parton de ekzemploj propramane. Ŝi uzis tekstojn de siaj studentoj, kiujn ŝi antaŭe korektis.
Por mi interesa kaj valora estas la klasifiko de eraroj. Mi bedaŭrinde malatingis tion dum programado de Esperantilo. Tio ne estas nur interesa informo por statistiko, sed ankaŭ oni povus helpe de tiuj tipoj doni al uzantoj de korektilo pluajn informojn kaj ligiloj al eksteraj fontoj kiel lernu.net aŭ PMEG.
Interesa fakto de tiu diplomlaboro estas kaj granda parto de eraroj estas la falsa uzado de vortoj.
La diplomlaboro ankaŭ pritraktis la dependecon de gramatikaj eraroj de nacieco de uzanto. Bedaŭrinde la bazo de eraroj ne estis sufiĉa por tiu demando.
Mi pensas, ke nuntempe nur spertaj esperantaj korektistoj povas doni la uzeblan materialon. Temas pri teksto antaŭ korektado kaj post korektado. Pro multaj kialoj la atingo de tiuj tekstoj ne estas facila. Kiu aŭtoro volas publikigi la unuan eraran version de sia teksto? Nun kelkaj korektistoj uzas la programon Esperantilo por ilia laboro. Ili raportas multajn erarojn (ĉefe nur falspozitivaj mesaĝoj). Tiu raportado nun estas tre facila de programo Esperantilo. Sufiĉas unu klako. Mi ne scias, kiel organizi la raportadon de erarojn, kiujn la programo nun ne povas trovi. Mi devos iam pensi pri tio.
Aŭtomata kolektado de eraroj.
Ekzistas ankaŭ alia ebla fonto de ekzemploj de gramatikaj eraroj. Tiu fonto estas vikipedio. En vikipedio oni povas trarigardi tre komforte la lastajn ŝanĝojn de ĉiu artikolo. La tezo estas: Kutime tiuj ŝanĝoj koncernas forigon de skriberaroj. Se la ŝanĝo okazis nur ĉe unu vorto en frazo kaj ne temas pri literuma eraro, tio tre verŝajne estas la gramatika eraro. Mi trarigardis la ŝanĝolistojn de kelkaj artikoloj. Bedaŭrinde la ŝanĝoj de tiu tipo ne estas tre oftaj. Pri tiuspeca kolektado mi legis sur la pago de projekto Morfologik, kiu pritraktis la kolektadon de eraroj por pola lingvo kaj projekto Language Tool. La aŭtoro skribis la programon, kiu mem de plena datumaro de vikipedio trovas gramatikajn erarojn. Tiu provo eble estas ankaŭ farinda por esperanta vikipedio.
Vortaraj eraroj
Por mi la novaĵo en tiu diplomlaboro estas, ke ĉe multaj eraroj temas pri falsa uzo de vortoj. Ĉe tiuj eraroj ne temas pri strikte gramatikaj eraroj. Ŝajne oni pensas, ke la komputilo ne povas trovi tiujn erarojn. La tasko povus esti pli facila ol oni tion unue pensas. Mi trovis liston de vortojn (la listo enhavas erarojn!), kiuj estas ofte miksitaj ĉe komencantoj. Se oni bone analizas la liston, estas okulfrape, ke ĉe kelkaj vortoj, oni povus bone trovi la eraron de kunteksto de vorto.
En Esperantilo ekzistas nun „vortaro de frazpartoj“ (Menuo Lingvistiko-Uzado de vortoj en frazparoj“). Mi pli bone nomigus tiun vortaron „kunteksta vortaro“. Ĉe kelkaj verboj oni povus trovi la eraron, ĉar la verboj havas alian transitivecon.
verbo „ŝerci“ estas ne transitiva.
verbo „serĉi“ estas transitiva.
Ebla solvo por trovo de misuzo de prepozicioj „por“ kaj „pro“ nur de analizo de ĉefa verbo.
pro:
esti (164), suferi (45), morti (41), devi (37), povi (36), danki (34), fari (28), ricevi (26), havi (26), ĝoji (26), senti (21), fariĝi (19), okazi (17), perdi (15), diri (14), peti (14), veni (14), honti (14), resti (10)
por:
esti (874), havi (152), fari (58), fariĝi (57), doni (55), taŭgi (53), bezoni (50), ekzisti (44), uzi (44), trovi (42), povi (38), sufiĉi (37), ricevi (36), devi (35), pagi (34), resti (34), veni (28), labori (26), prezenti (20), gravi (19), prepari (19), signifi (18), montri (17), aĉeti (17), voli (17), elspezi (16), preni (16), kolekti (15), necesi (15), alporti (14), troviĝi (14), senti (13), validi (12), iri (12), serĉi (11), valori (10)
De tiuj listoj oni vidas kaj verboj „suferi, morti, honti“ aperas en la tekstaro nur kun „pro“.
Verboj kunteksto de objekto
atendi:
momento (23), respondo (11), reveno (10), ordono (6), alveno (5), nokto (4), rezulto (3), vizito (3), daŭrigo (2), edzino (2), edzo (2), fariĝo (2), infano (2), kvietiĝo (2), ondo (2), plialtiĝo (2), proksimiĝo (2), propono (2)
atenti:
vorto (4), aserto (1), babilado (1), bezono (1)
De tiu statistiko oni povas konstrui regulojn, sed eble tiuj reguloj ne estas tute certaj. La problemo estas, ke ofte la kunteksto povas esti pli vasta kiel unu frazo kaj devas enhavi la ĝeneralan scion pri mondo. Tiu scio nuntempe estas ne atingebla de komputiloj.
Por tiaj eraroj oni povas tre facile konstrui frazojn por testado de programo. Oni prenas frazojn de granda tekstaro, en kiuj aperas tiuj vortoj kaj interŝanĝas tiuj vortoj je la falsaj vortoj. Poste oni testas, ĉu la programo trovas tiun interŝanĝon.
Nun mi ne povis trovi en la reto la plenan liston de ekzemploj de gramatikaj eraroj. La listo en vikio ne estas plena laŭ la teksto en la diplomlaboro.
La ekzemploj de diplomlaboro inspiris min plivastigi mian liston de gramatikaj eraroj.
Feliĉe unu ekzemplon de tiu laboro (frazo: „Lernis tie ĉirkaŭ 120 studentojn.“) la programo Esperantilo regas nun tute ĝuste.
Falspozitaj eraroj
La plej granda manko de gramatikaj korektiloj estas la falspozitivaj mesaĝoj. Kiel programisto oni tre ĝojas, ke la programo trovas iujn erarojn kaj unue ne zorgas pri falspozitivaj eraroj. Por la uzanto ĉiu falspozitiva eraro por „evidente“ ĝusta frazo estas la grava pruvo, ke la programo estas tre malperfekta. Ekzistas do la bezono testi la programon kontraŭ ĝustaj tekstoj. Sed la kolekto de ĝustaj teksoj ne estas facila afero. La problemo estas unue la kvalito de tekstoj kaj due la fakto, ke kelkaj konstruaĵoj aperas tre malofte. Oni bezonas do tre grandan amason da tekstoj. Feliĉe iu jam faris tiun grandegan laboron. En la PMEG oni trovas ekzemplojn por ĉiuj eblaj artoj de frazoj. Kaj ĉiu ekzemplo estas zorge tralegita de aŭtoro de libro. Mi ekstraktis tiuj ekzemplaj frazoj de PMEG kaj uzas ilin por testado. Mi devus diri, ke veraj tekstoj estas eĉ pli komplikaj. Ili enhavas multaj fremlingvajn nomojn, fremdlingvajn citaĵojn kaj estas tre komplikaj.
Mi pensis ankaŭ pri bona komparo de gramatikaj kontroliloj. Oni devus testi je du tekstoj. La unua enhavas erarojn. Kaj oni provas, kiujn erarojn kapablas trovi la programo. La dua teksto estas tute ĝusta, kaj enhavas tre diferencaj frazoj. De tia testo oni povus kalkuli la bonon de korektilo laŭ tiu formulo. Praktike la plej granda problemo estas konstati, ĉu temas pri gramatika eraro aŭ ne. Tion priskribis ankaŭ la diplomlaboro. Ofte ne ekzistas konsento pri ĝusteco de iu frazo en Esperanto. Oni povus diri, ke kiam renkontas 5 esperantistoj, ekzistas 6 opinioj pri la ĝusta esperanta lingvaĵo. La lingvohelpilo markas kiel eraro la lingvaĵon „kelke de …“ sed akceptas „multe de …“. La lingvaĵo „multe de“ estas vaste uzata, la analoga „kelke de …“ estas tamen ne akceptinda por multaj.
La projekto lingvohelpilo nun donas fruktojn. Mi ŝatus, ke tiuj fruktoj estas ankaŭ iom da lingvistika materialo kaj io, kion mi povus ruli sur mia komputilo. La dua konstato estas, ke reta komunumo vere ne taŭgas por prilaboro de komplikaj lingvistikaj taskoj.
Mi nun bedaŭrinde ne havas tempon por la programo Esperantilo. Mi esperas, ke post iom da tempo mi denove okupos pri la programo kaj povus realigi kelkajn ideojn.