Esperantilo Blogo en Esperanto pri projekto Esperantilo kaj komputila lingvistiko

15.11.2006

Frekvenca statistiko de frazpartoj

Filed under: ĝenerale,lingvistiko — artur @ 21:51

Mi jam longe okupas pri lingva statistiko. Por mi statistiko estas en lingvistiko ĉefe la metodo por diferenci malgravaj aĵoj de gravaj. Por Esperanto validas samaj statistikaj principoj kiel por naturaj lingvoj. La unua ekzerco estis la asemblo de frekventeca listo de vortoj. La listo estas tre utila, kiam ni volas racionale plivastigi tradukan vortaron. Memkompreneble oni aligas unue vortojn, kiuj estas plej ofte uzataj. Mi volis trovi esperantajn frazeologiojn, kiuj baziĝas sur frazpartoj. La ideo baziĝas sur tiel nomataj (germane: Kookurenz, Kollokation, engle: Collocation). Por atingi pli bonajn rezultojn mi ne uzis simplan modelon de najbara apero, sed analizis sintaksajn strukturojn. Por tiu mi programis programon, kiu povas ordoni vortojn laŭ kuna apero en cetera sintaksa strukturo. Mi asemblis datumbazon kun sekvaj rilatoj inter 2 aŭ 3 vortoj.

  • np-adj: bona homo
  • vp-subj: homo vivas
  • vp-adv: vivi longe
  • vp-obj: vidi homon
  • vp-pp: kredi je
  • adj-adv: maksimume rapida
  • vp-pp-sub: kredi je dio
  • sub-pp-sub2: ordono de patro

Mi analizis preskaŭ tutan korpuson de ESF Testaro. La rezulta datumbazo (1.3 MB) okazis tre multinforma. Unue mi volis uzi tiujn datojn por plibonigo de tradukaj vortaroj kaj konstruo de vortaro de frazpartoj, sed oni povus uzi tiujn informojn ankaŭ por aliaj celoj. Imagebla estis:

  • Vortara helpo ĉe skribado de tekstoj. Oni povus ekzemple tre rapide trovi, kiujn adverbojn oni povus uzi kun verbo skribi „ofte (5), denove (3), simple (3), bele (2), reciproke (2), regule (2), ĉiusemajne (2), akurate (1), antaŭe (1), bone (1), dumaniere (1), dume (1), eble (1), efektive (1), eksterlande (1), ekzemple (1), fakte (1), favore (1), fine (1), frue (1), germane (1), hejme (1)“
  • Asemblo de sugestoj ĉe literuma korektado.
  • Serĉado de stilaj eraroj aŭ hazardaj interŝanĝoj de vortoj.
  • Aŭtomata asemblo de tradukaj vortaroj. Oni povus asembli la similan datumbazon por nacia lingvo kaj kompari la rezultojn
  • Asemblo de senta karto kiel konata Wordnet
  • Derivo de gramatikaj reguloj. Ekzemple, kiujn prepoziciojn oni ofte uzas kun verbo „danki“ (pro (34), en (7), per (4), por (4), pri (4))

Ekzemploj por vorto: patro

np np-adj sankta (24), cikonia (23), kara (5), alia (4), malfeliĉa (4), propra (4), bona (3), cia (3), maljuna (3), pia (3), sama (3)
obj vp-obj havi (11), ami (7), demandi (4), trovi (3), rigardi (2), simili (2), vidi (2), viziti (2), timi (2), koni (1), ekvidi (1)
subj vp-subj esti (65), diri (29), veni (12), morti (9), fari (8), havi (8), povi (7), doni (5), rigardi (5), rakonti (4), dormi (4)
sub vp-pp-sub iri al (4), esti por (3), ricevi de (3), ĵuri al (2), fari por (2), fariĝi al (2), promesi al (2), esti de (2), esti kun (2), heredi de (2), skribi al (2)
sub sub-pp-sub2 de infano (6), de antono (2), de arne (2), de edzino (2), de maŭrico (2), de . (1), de amikino (1), de andreo (1), de anjo (1), de cindrulino (1), de fernando (1)
sub2 sub-pp -sub2 morto de (6), palaco de (5), tombo de (5), domo de (4), volo de (3), alveno de (3), nomo de (2), ordono de (2), kastelo de (2), kolo de (2), koro de (2)

Ekzemploj por vorto: patrino

np np-adj cikonia (25), malfeliĉa (9), juna (6), kara (6), pasera (6), propra (6), respektinda (6), alia (4), maljuna (4), malĝoja (3), mortanta (3)
obj vp-obj nomi (2), rigardi (2), ŝati (2), perdi (2), demandi (2), havi (2), helpi (2), koni (1), ekvidi (1), imagi (1), forgesi (1)
subj vp-subj esti (38), diri (32), rakonti (7), sidi (7), veni (6), fari (6), rigardi (6), ricevi (6), povi (5), komenci (4), devi (4)
sub vp-pp-sub iri al (3), esti por (3), sendi al (3), kaŭzi al (2), proponi al (2), fari al (2), senti al (2), sidi ĉe (2), skribi al (2), aŭdigi dum (1), subskribi al (1)
sub sub-pp-sub2 de arne (8), de filo (4), de johano (4), de vento (4), de valento (3), de gastono (2), de infano (2), de knabino (2), de matildo (2), de amikino (1), de emil (1)
sub2 sub-pp-sub2 tombo de (4), brako de (3), vizaĝo de (2), enterigo de (2), koro de (2), tiu de (2), brusto de (2), morto de (2), ĝardeno de (1), provo de (1), amo de (1)

Ekzemploj por vorto: lingvo

np np-adj angla (49), alia (43), fremda (30), germana (23), internacia (20), nacia (17)
obj vp-obj lerni (24), paroli (10), uzadi (9), kompreni (8), uzi (7), regi (6)
subj vp-subj esti (51), havi (7), povi (6), devi (5), nomi (3), resti (3)
sub vp-pp-sub esti en (19), esti el (4), ekzisti en (4), havi en (4), paroli en (4), aperi en (3)
sub sub-pp-sub2 de korniko (2), de unio (2), de amo (1), de armeo (1), de besto (1), de demando (1)
sub2 sub-pp-sub2 influo de (6), enkonduko de (5), evoluo de (3), elekto de (3), plimulto de (3), nomo de (2)

Ekzemploj por vorto: morti

vp vp-subj homo (9), patro (9), infano (7), birdo (3)
vp vp-adv poste (7), miskomprene (4), multe (4), subite (4)
vp vp-obj antimo (1), deziro (1), loko (1), sangocirkulado (1)
vp vp-pp en (45), pro (32), de (22), antaŭ (6)
vp vp-pp-sub de malsato (7), pro malsato (4), antaŭ jaro (3), da homo (3)

Ekzemploj por vorto: stulta

adj np-adj demando (2), rakonto (1), infanaĵo (1), knabo (1)

Frekventeca vortaro de frazpartoj iĝos parto de Esperantilo

Ĉar mi konstatis tiun ilon utila, tial la ilo iĝos parto de venonta eldono de programo. Kelkaj tre strangaj rezultoj estas certe kaŭzitaj de ne plene korekta sintaksa analizo.

2 Comments »

  1. kelkaj strangaj rezultoj ankaŭ estas sekvo de relative malgranda tekstaro. supozeble „patro cikonia“ kaj „patrino cikonia“ venas de iom longa fabelo far andersen, en kiu rolas familioj de tiuj birdoj. tiu fabelo enestas la „tekstaron“.

    efektive esploro de verbodependaj prepozicioj estas interesa temo, pri kiu ekzistas apenaŭ io.

    Kommentar by ĵeromo — 12.1.2007 @ 18:26

  2. La rezultoj de tiu statistiko estas ankaŭ interesaj por psikologoj aŭ sociologoj. Ekzemple por vorto „homo“ kiel direkta objekto la plej ofta estas la verbo „mortigi“ (14-foje) vorto „ami“ aperas nur du foje.
    Ĉu esperantistaj tekstoj estas tiel nigraj pensuloj? Interesa estus komparo kun aliaj nacilingvaj tekstaroj.

    Mi jam vidis sciencaj laboraĵoj en tiu kampo de polaj psikolingvistoj.
    Kompreneble la atingebla tekstaro en Esperanto ne estas tiel granda.
    Mi esperas, ke http://bertilow.com/tekstaro/ ankoraŭ evoluos.
    Mi mem esperis de tiu statistiko iun metodon por aŭtomata kreado de tradukaj vortaroj.
    Sciencaj teorioj pri tio jam ekzistas.

    Nun mankas al mi la paralelaj tekstoj, do mi nun ĉesis tiun kampon.

    Kommentar by artur — 12.1.2007 @ 20:29

RSS feed for comments on this post. TrackBack URL

Leave a comment

Du musst angemeldet sein, um einen Kommentar abzugeben.

Powered by WordPress