{"id":15,"date":"2006-11-15T21:51:55","date_gmt":"2006-11-15T20:51:55","guid":{"rendered":"http:\/\/blog.esperantilo.org\/?p=15"},"modified":"2007-02-23T13:52:21","modified_gmt":"2007-02-23T12:52:21","slug":"frekvenca-statistiko-de-frazpartoj","status":"publish","type":"post","link":"http:\/\/blog.esperantilo.org\/?p=15","title":{"rendered":"Frekvenca statistiko de frazpartoj"},"content":{"rendered":"<p>Mi jam longe okupas pri lingva statistiko. Por mi statistiko estas en lingvistiko \u0109efe la metodo por diferenci malgravaj a\u0135oj de gravaj. Por Esperanto validas samaj statistikaj principoj kiel por naturaj lingvoj. La unua ekzerco estis la asemblo de frekventeca listo de vortoj. La listo estas tre utila, kiam ni volas racionale plivastigi tradukan vortaron. Memkompreneble oni aligas unue vortojn, kiuj estas plej ofte uzataj.  Mi volis trovi esperantajn frazeologiojn, kiuj bazi\u011das sur frazpartoj. La ideo bazi\u011das sur tiel nomataj (germane: Kookurenz, Kollokation, engle: Collocation). Por atingi pli bonajn rezultojn mi ne uzis simplan modelon de najbara apero, sed analizis sintaksajn strukturojn.  Por tiu mi programis programon, kiu povas ordoni vortojn la\u016d kuna apero en cetera sintaksa strukturo. Mi asemblis datumbazon kun sekvaj rilatoj inter 2 a\u016d 3 vortoj.<\/p>\n<ul>\n<li>np-adj: bona homo<\/li>\n<li>vp-subj: homo vivas<\/li>\n<li>vp-adv: vivi longe<\/li>\n<li>vp-obj: vidi homon<\/li>\n<li>vp-pp: kredi je<\/li>\n<li>adj-adv: maksimume rapida<\/li>\n<li>vp-pp-sub: kredi je dio<\/li>\n<li>sub-pp-sub2: ordono de patro<\/li>\n<\/ul>\n<p>Mi analizis preska\u016d tutan korpuson de <a href=\"http:\/\/bertilow.com\/tekstaro\">ESF Testaro<\/a>. La rezulta datumbazo (1.3 MB) okazis tre multinforma. Unue mi volis uzi tiujn datojn por plibonigo de tradukaj vortaroj kaj konstruo de vortaro de frazpartoj, sed oni povus uzi tiujn informojn anka\u016d por aliaj celoj. Imagebla estis:<\/p>\n<ul>\n<li>Vortara helpo \u0109e skribado de tekstoj. Oni povus ekzemple tre rapide trovi, kiujn adverbojn oni povus uzi kun verbo skribi &#8222;ofte (5), denove (3), simple (3), bele (2), reciproke (2), regule (2), \u0109iusemajne (2), akurate (1), anta\u016de (1), bone (1), dumaniere (1), dume (1), eble (1), efektive (1), eksterlande (1), ekzemple (1), fakte (1), favore (1), fine (1), frue (1), germane (1), hejme (1)&#8220;<\/li>\n<li>Asemblo de sugestoj \u0109e literuma korektado.<\/li>\n<li>Ser\u0109ado de stilaj eraroj a\u016d hazardaj inter\u015dan\u011doj de vortoj.<\/li>\n<li>A\u016dtomata asemblo de tradukaj vortaroj. Oni povus asembli la similan datumbazon por nacia lingvo kaj kompari la rezultojn<\/li>\n<li>Asemblo de senta karto kiel konata <a href=\"http:\/\/wordnet.princeton.edu\/\">Wordnet<\/a><\/li>\n<li>Derivo de gramatikaj reguloj. Ekzemple, kiujn prepoziciojn oni ofte uzas kun verbo &#8222;danki&#8220; (pro (34), en (7), per (4), por (4), pri (4))<\/li>\n<\/ul>\n<h4>Ekzemploj por vorto: patro<\/h4>\n<table>\n<tr>\n<td>np np-adj<\/td>\n<td>sankta (24), cikonia (23), kara (5), alia (4), malfeli\u0109a (4), propra (4), bona (3), cia (3), maljuna (3), pia (3), sama (3)<\/td>\n<\/tr>\n<tr>\n<td>obj vp-obj<\/td>\n<td>havi (11), ami (7), demandi (4), trovi (3), rigardi (2), simili (2), vidi (2), viziti (2), timi (2), koni (1), ekvidi (1)<\/td>\n<\/tr>\n<tr>\n<td>subj vp-subj<\/td>\n<td>esti (65), diri (29), veni (12), morti (9), fari (8), havi (8), povi (7), doni (5), rigardi (5), rakonti (4), dormi (4)<\/td>\n<\/tr>\n<tr>\n<td>sub vp-pp-sub<\/td>\n<td>iri al (4), esti por (3), ricevi de (3), \u0135uri al (2), fari por (2), fari\u011di al (2), promesi al (2), esti de (2), esti kun (2), heredi de (2), skribi al (2)<\/td>\n<\/tr>\n<tr>\n<td>sub sub-pp-sub2<\/td>\n<td>de infano (6), de antono (2), de arne (2), de edzino (2), de ma\u016drico (2), de . (1), de amikino (1), de andreo (1), de anjo (1), de cindrulino (1), de fernando (1)<\/td>\n<\/tr>\n<tr>\n<td>sub2 sub-pp -sub2<\/td>\n<td>morto de (6), palaco de (5), tombo de (5), domo de (4), volo de (3), alveno de (3), nomo de (2), ordono de (2), kastelo de (2), kolo de (2), koro de (2)<\/td>\n<\/tr>\n<\/table>\n<h4>Ekzemploj por vorto: patrino<\/h4>\n<table>\n<tr>\n<td>np np-adj<\/td>\n<td>cikonia (25), malfeli\u0109a (9), juna (6), kara (6), pasera (6), propra (6), respektinda (6), alia (4), maljuna (4), mal\u011doja (3), mortanta (3)<\/td>\n<\/tr>\n<tr>\n<td>obj vp-obj<\/td>\n<td>nomi (2), rigardi (2), \u015dati (2), perdi (2), demandi (2), havi (2), helpi (2), koni (1), ekvidi (1), imagi (1), forgesi (1)<\/td>\n<\/tr>\n<tr>\n<td>subj vp-subj<\/td>\n<td>esti (38), diri (32), rakonti (7), sidi (7), veni (6), fari (6), rigardi (6), ricevi (6), povi (5), komenci (4), devi (4)<\/td>\n<\/tr>\n<tr>\n<td>sub vp-pp-sub<\/td>\n<td>iri al (3), esti por (3), sendi al (3), ka\u016dzi al (2), proponi al (2), fari al (2), senti al (2), sidi \u0109e (2), skribi al (2), a\u016ddigi dum (1), subskribi al (1)<\/td>\n<\/tr>\n<tr>\n<td>sub sub-pp-sub2<\/td>\n<td>de arne (8), de filo (4), de johano (4), de vento (4), de valento (3), de gastono (2), de infano (2), de knabino (2), de matildo (2), de amikino (1), de emil (1)<\/td>\n<\/tr>\n<tr>\n<td>sub2 sub-pp-sub2<\/td>\n<td>tombo de (4), brako de (3), viza\u011do de (2), enterigo de (2), koro de (2), tiu de (2), brusto de (2), morto de (2), \u011dardeno de (1), provo de (1), amo de (1)<\/td>\n<\/tr>\n<\/table>\n<h4>Ekzemploj por vorto: lingvo<\/h4>\n<table>\n<tr>\n<td>np np-adj<\/td>\n<td>angla (49), alia (43), fremda (30), germana (23), internacia (20), nacia (17)<\/td>\n<\/tr>\n<tr>\n<td>obj vp-obj<\/td>\n<td>lerni (24), paroli (10), uzadi (9), kompreni (8), uzi (7), regi (6)<\/td>\n<\/tr>\n<tr>\n<td>subj vp-subj<\/td>\n<td>esti (51), havi (7), povi (6), devi (5), nomi (3), resti (3)<\/td>\n<\/tr>\n<tr>\n<td>sub vp-pp-sub<\/td>\n<td>esti en (19), esti el (4), ekzisti en (4), havi en (4), paroli en (4), aperi en (3)<\/td>\n<\/tr>\n<tr>\n<td>sub sub-pp-sub2<\/td>\n<td>de korniko (2), de unio (2), de amo (1), de armeo (1), de besto (1), de demando (1)<\/td>\n<\/tr>\n<tr>\n<td>sub2 sub-pp-sub2<\/td>\n<td>influo de (6), enkonduko de (5), evoluo de (3), elekto de (3), plimulto de (3), nomo de (2)<\/td>\n<\/tr>\n<\/table>\n<h4>Ekzemploj por vorto: morti<\/h4>\n<table>\n<tr>\n<td>vp vp-subj<\/td>\n<td>homo (9), patro (9), infano (7), birdo (3)<\/td>\n<\/tr>\n<tr>\n<td>vp vp-adv<\/td>\n<td>poste (7), miskomprene (4), multe (4), subite (4)<\/td>\n<\/tr>\n<tr>\n<td>vp vp-obj<\/td>\n<td>antimo (1), deziro (1), loko (1), sangocirkulado (1)<\/td>\n<\/tr>\n<tr>\n<td>vp vp-pp<\/td>\n<td>en (45), pro (32), de (22), anta\u016d (6)<\/td>\n<\/tr>\n<tr>\n<td>vp vp-pp-sub<\/td>\n<td>de malsato (7), pro malsato (4), anta\u016d jaro (3), da homo (3)<\/td>\n<\/tr>\n<\/table>\n<h4>Ekzemploj por vorto: stulta<\/h4>\n<table>\n<tr>\n<td>adj np-adj<\/td>\n<td>demando (2), rakonto (1), infana\u0135o (1), knabo (1)<\/td>\n<\/tr>\n<\/table>\n<h4>Frekventeca vortaro de frazpartoj i\u011dos parto de Esperantilo<\/h4>\n<p>\u0108ar mi konstatis tiun ilon utila, tial la ilo i\u011dos parto de venonta eldono de programo. Kelkaj tre strangaj rezultoj estas certe ka\u016dzitaj de ne plene korekta sintaksa analizo.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Mi jam longe okupas pri lingva statistiko. Por mi statistiko estas en lingvistiko \u0109efe la metodo por diferenci malgravaj a\u0135oj de gravaj. Por Esperanto validas samaj statistikaj principoj kiel por naturaj lingvoj. La unua ekzerco estis la asemblo de frekventeca listo de vortoj. La listo estas tre utila, kiam ni volas racionale plivastigi tradukan vortaron. [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[1,4],"tags":[],"class_list":["post-15","post","type-post","status-publish","format-standard","hentry","category-allgemein","category-lingvistiko"],"_links":{"self":[{"href":"http:\/\/blog.esperantilo.org\/index.php?rest_route=\/wp\/v2\/posts\/15","targetHints":{"allow":["GET"]}}],"collection":[{"href":"http:\/\/blog.esperantilo.org\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"http:\/\/blog.esperantilo.org\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"http:\/\/blog.esperantilo.org\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"http:\/\/blog.esperantilo.org\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=15"}],"version-history":[{"count":0,"href":"http:\/\/blog.esperantilo.org\/index.php?rest_route=\/wp\/v2\/posts\/15\/revisions"}],"wp:attachment":[{"href":"http:\/\/blog.esperantilo.org\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=15"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"http:\/\/blog.esperantilo.org\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=15"},{"taxonomy":"post_tag","embeddable":true,"href":"http:\/\/blog.esperantilo.org\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=15"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}