Mi jam longe okupas pri lingva statistiko. Por mi statistiko estas en lingvistiko ĉefe la metodo por diferenci malgravaj aĵoj de gravaj. Por Esperanto validas samaj statistikaj principoj kiel por naturaj lingvoj. La unua ekzerco estis la asemblo de frekventeca listo de vortoj. La listo estas tre utila, kiam ni volas racionale plivastigi tradukan vortaron. Memkompreneble oni aligas unue vortojn, kiuj estas plej ofte uzataj. Mi volis trovi esperantajn frazeologiojn, kiuj baziĝas sur frazpartoj. La ideo baziĝas sur tiel nomataj (germane: Kookurenz, Kollokation, engle: Collocation). Por atingi pli bonajn rezultojn mi ne uzis simplan modelon de najbara apero, sed analizis sintaksajn strukturojn. Por tiu mi programis programon, kiu povas ordoni vortojn laŭ kuna apero en cetera sintaksa strukturo. Mi asemblis datumbazon kun sekvaj rilatoj inter 2 aŭ 3 vortoj.
- np-adj: bona homo
- vp-subj: homo vivas
- vp-adv: vivi longe
- vp-obj: vidi homon
- vp-pp: kredi je
- adj-adv: maksimume rapida
- vp-pp-sub: kredi je dio
- sub-pp-sub2: ordono de patro
Mi analizis preskaŭ tutan korpuson de ESF Testaro. La rezulta datumbazo (1.3 MB) okazis tre multinforma. Unue mi volis uzi tiujn datojn por plibonigo de tradukaj vortaroj kaj konstruo de vortaro de frazpartoj, sed oni povus uzi tiujn informojn ankaŭ por aliaj celoj. Imagebla estis:
- Vortara helpo ĉe skribado de tekstoj. Oni povus ekzemple tre rapide trovi, kiujn adverbojn oni povus uzi kun verbo skribi „ofte (5), denove (3), simple (3), bele (2), reciproke (2), regule (2), ĉiusemajne (2), akurate (1), antaŭe (1), bone (1), dumaniere (1), dume (1), eble (1), efektive (1), eksterlande (1), ekzemple (1), fakte (1), favore (1), fine (1), frue (1), germane (1), hejme (1)“
- Asemblo de sugestoj ĉe literuma korektado.
- Serĉado de stilaj eraroj aŭ hazardaj interŝanĝoj de vortoj.
- Aŭtomata asemblo de tradukaj vortaroj. Oni povus asembli la similan datumbazon por nacia lingvo kaj kompari la rezultojn
- Asemblo de senta karto kiel konata Wordnet
- Derivo de gramatikaj reguloj. Ekzemple, kiujn prepoziciojn oni ofte uzas kun verbo „danki“ (pro (34), en (7), per (4), por (4), pri (4))
Ekzemploj por vorto: patro
np np-adj |
sankta (24), cikonia (23), kara (5), alia (4), malfeliĉa (4), propra (4), bona (3), cia (3), maljuna (3), pia (3), sama (3) |
obj vp-obj |
havi (11), ami (7), demandi (4), trovi (3), rigardi (2), simili (2), vidi (2), viziti (2), timi (2), koni (1), ekvidi (1) |
subj vp-subj |
esti (65), diri (29), veni (12), morti (9), fari (8), havi (8), povi (7), doni (5), rigardi (5), rakonti (4), dormi (4) |
sub vp-pp-sub |
iri al (4), esti por (3), ricevi de (3), ĵuri al (2), fari por (2), fariĝi al (2), promesi al (2), esti de (2), esti kun (2), heredi de (2), skribi al (2) |
sub sub-pp-sub2 |
de infano (6), de antono (2), de arne (2), de edzino (2), de maŭrico (2), de . (1), de amikino (1), de andreo (1), de anjo (1), de cindrulino (1), de fernando (1) |
sub2 sub-pp -sub2 |
morto de (6), palaco de (5), tombo de (5), domo de (4), volo de (3), alveno de (3), nomo de (2), ordono de (2), kastelo de (2), kolo de (2), koro de (2) |
Ekzemploj por vorto: patrino
np np-adj |
cikonia (25), malfeliĉa (9), juna (6), kara (6), pasera (6), propra (6), respektinda (6), alia (4), maljuna (4), malĝoja (3), mortanta (3) |
obj vp-obj |
nomi (2), rigardi (2), ŝati (2), perdi (2), demandi (2), havi (2), helpi (2), koni (1), ekvidi (1), imagi (1), forgesi (1) |
subj vp-subj |
esti (38), diri (32), rakonti (7), sidi (7), veni (6), fari (6), rigardi (6), ricevi (6), povi (5), komenci (4), devi (4) |
sub vp-pp-sub |
iri al (3), esti por (3), sendi al (3), kaŭzi al (2), proponi al (2), fari al (2), senti al (2), sidi ĉe (2), skribi al (2), aŭdigi dum (1), subskribi al (1) |
sub sub-pp-sub2 |
de arne (8), de filo (4), de johano (4), de vento (4), de valento (3), de gastono (2), de infano (2), de knabino (2), de matildo (2), de amikino (1), de emil (1) |
sub2 sub-pp-sub2 |
tombo de (4), brako de (3), vizaĝo de (2), enterigo de (2), koro de (2), tiu de (2), brusto de (2), morto de (2), ĝardeno de (1), provo de (1), amo de (1) |
Ekzemploj por vorto: lingvo
np np-adj |
angla (49), alia (43), fremda (30), germana (23), internacia (20), nacia (17) |
obj vp-obj |
lerni (24), paroli (10), uzadi (9), kompreni (8), uzi (7), regi (6) |
subj vp-subj |
esti (51), havi (7), povi (6), devi (5), nomi (3), resti (3) |
sub vp-pp-sub |
esti en (19), esti el (4), ekzisti en (4), havi en (4), paroli en (4), aperi en (3) |
sub sub-pp-sub2 |
de korniko (2), de unio (2), de amo (1), de armeo (1), de besto (1), de demando (1) |
sub2 sub-pp-sub2 |
influo de (6), enkonduko de (5), evoluo de (3), elekto de (3), plimulto de (3), nomo de (2) |
Ekzemploj por vorto: morti
vp vp-subj |
homo (9), patro (9), infano (7), birdo (3) |
vp vp-adv |
poste (7), miskomprene (4), multe (4), subite (4) |
vp vp-obj |
antimo (1), deziro (1), loko (1), sangocirkulado (1) |
vp vp-pp |
en (45), pro (32), de (22), antaŭ (6) |
vp vp-pp-sub |
de malsato (7), pro malsato (4), antaŭ jaro (3), da homo (3) |
Ekzemploj por vorto: stulta
adj np-adj |
demando (2), rakonto (1), infanaĵo (1), knabo (1) |
Frekventeca vortaro de frazpartoj iĝos parto de Esperantilo
Ĉar mi konstatis tiun ilon utila, tial la ilo iĝos parto de venonta eldono de programo. Kelkaj tre strangaj rezultoj estas certe kaŭzitaj de ne plene korekta sintaksa analizo.
kelkaj strangaj rezultoj ankaŭ estas sekvo de relative malgranda tekstaro. supozeble „patro cikonia“ kaj „patrino cikonia“ venas de iom longa fabelo far andersen, en kiu rolas familioj de tiuj birdoj. tiu fabelo enestas la „tekstaron“.
efektive esploro de verbodependaj prepozicioj estas interesa temo, pri kiu ekzistas apenaŭ io.
Kommentar by ĵeromo — 12.1.2007 @ 18:26
La rezultoj de tiu statistiko estas ankaŭ interesaj por psikologoj aŭ sociologoj. Ekzemple por vorto „homo“ kiel direkta objekto la plej ofta estas la verbo „mortigi“ (14-foje) vorto „ami“ aperas nur du foje.
Ĉu esperantistaj tekstoj estas tiel nigraj pensuloj? Interesa estus komparo kun aliaj nacilingvaj tekstaroj.
Mi jam vidis sciencaj laboraĵoj en tiu kampo de polaj psikolingvistoj.
Kompreneble la atingebla tekstaro en Esperanto ne estas tiel granda.
Mi esperas, ke http://bertilow.com/tekstaro/ ankoraŭ evoluos.
Mi mem esperis de tiu statistiko iun metodon por aŭtomata kreado de tradukaj vortaroj.
Sciencaj teorioj pri tio jam ekzistas.
Nun mankas al mi la paralelaj tekstoj, do mi nun ĉesis tiun kampon.
Kommentar by artur — 12.1.2007 @ 20:29