{"id":50,"date":"2007-02-13T19:21:44","date_gmt":"2007-02-13T18:21:44","guid":{"rendered":"http:\/\/blog.esperantilo.org\/?p=50"},"modified":"2007-02-13T19:56:55","modified_gmt":"2007-02-13T18:56:55","slug":"analizo-de-ligiloj-en-vikipedio","status":"publish","type":"post","link":"http:\/\/blog.esperantilo.org\/?p=50","title":{"rendered":"Analizo de ligiloj en Vikipedio"},"content":{"rendered":"<p>La tre grava avanta\u011do de vikipedio super la paperaj enciklopedioj estas ligiloj inter artikoloj. La vikipedio oferas anka\u016d la eblon navigi en amba\u016d direktoj. Do trovi artiklojn, kiu havas ligilon al cetera artikolo.<\/p>\n<p>Mi iomete ludis kun statistika analizo de tiuj legiloj. Kiel kutime mi programis etan programon, kiu legas ceteran artikolon kaj analizas rekursie ligilon kun difinita profundo. La plej komplika parto de programo estas la vida montro de rezultoj. La programo unue kolektas \u0109iujn ligojn, poste la ligoj estas orditaj la\u016d ofteco. La speciala algoritmo kalkulas la gravecon de speciala vorto rilate de cetera vorto (kerna vorto). Je pli malproksima la vorto al kerna vorto des pli grava la vorto. La graveco estas anka\u016d pli granda, se la vorto estas ofte ligita al aliaj artikoloj.<\/p>\n<p><a title=\"ligila reto por esperanto\" class=\"imagelink\" href=\"http:\/\/blog.esperantilo.org\/wp-content\/uploads\/2007\/02\/esperanto-reto.PNG\"><img decoding=\"async\" alt=\"ligila reto por esperanto\" id=\"image49\" src=\"http:\/\/blog.esperantilo.org\/wp-content\/uploads\/2007\/02\/esperanto-reto.thumbnail.PNG\" \/><\/a><\/p>\n<p>La ideo de analizo de retaj ligiloj ne estas nova. Tio estas la \u0109efa ideo de algoritmo de konata &#8222;Google&#8220;, kiu ordigas la TTT-pa\u011dojn la\u016d graveco. La hipotezo estas, ke gravaj pa\u011doj havas multajn elirajn ligilojn. Se ni transigas tiun ideo al vikipedio, tiukaze la kernaj vortoj devas esti pli ofte ligitaj ol flankaj vortoj. Miaj unuaj pruvoj konstatis tiun hipotezon. Ekzemple por vorto &#8222;vino&#8220; ni povas tre rapide trovi flankaj vortojn: vinbero, barelo, tino, komunio, likva\u0135o, oziriso, amforo, trinka\u0135o, biero, egipto. Sed ofte la ligojn kondukas tre rapide al tre nova kampo. Ekzemple: viro -> afriko -> libio. La kazo estas, ke en artikolo pri homo trovi\u011das foto kun viro el afriko, kaj la lasta estas ligita al artikolo pri afriko. Ofte la ligilaj vojoj estas tre surprizaj kaj pensigaj. La\u016d tiu maniero oni povas anka\u016d bone ekkoni, ke a\u016dtoroj sekvas ne nur enciklopediaj devojn.<\/p>\n<p>Mi pensas ke tiu analizo estas tre ta\u016dga por trovi a\u016dtomate kernaj vortoj rilate al iu faka vorto. Sur tiu vojo oni povas tre rapide (kaj plene a\u016dtomate) konstati, ke vortoj : &#8222;programaro, linukso, programlingvo, dosierujo&#8220; apartenas al kampo de &#8222;komputiko&#8220;. Tio laboras mirige fidele. Mia precipa intereso de tiu ekzerco rilatas kiel kutime al ma\u015dina tradukado. Mi pensis pri a\u016dtomta kategorigo de vortoj kaj tekstoj por pli bone elekti tradukajn vortarojn (percipe sinonimoj). La bonan kolekton de vortaj kompoj donas al ni jam <a href=\"http:\/\/reta-vortaro.de\/revo\/inx\/_fak.html\">REVO<\/a>. La analizo de ligiloj en vikipedio povus plivastigi la bazan provizon de REVO. Oni povus analizi ne nur ligilojn, sed anka\u016d la koncernajn artikolojn mem por atingi pli bonajn rezultojn.<\/p>\n<p>Fine mi pensas anka\u016d pri semantikaj retoj, kiuj estas necesaj por bonkvalita ma\u015dina tradukado. La elstara projekto en tiu kampo estas angla <a href=\"http:\/\/wordnet.princeton.edu\/\">WordNet<\/a>. Retoj de ligiloj kaj semantikaj retoj estas certe aliaj aferoj, sed eble retoj de ligiloj povus helpi \u0109e konstruo de semantika reto. Por miaj celoj tiel preciza semantika reto la\u016d modelo de &#8222;WordNet&#8220; ne estas bezonata. La pli \u011denerala kategoriigo estus sufi\u0109a. Ofte la problemo estas, ke oni devas scii, \u0109u iu substantivo estas: persono, viva\u0135o, abrakta\u0135o a\u016d objekto. Mi esperas, ke kun aliaj teknikoj kiel sintaksa analizo de vikipedio, tiu kategoriigo povus esti farita tute a\u016dtomate.<\/p>\n<p>Ekzemple de frazo: &#8222;frato estas homo, kiu &#8230;&#8220; oni povas derivi ke &#8222;frato&#8220; estas &#8222;persono&#8220;. A\u016d de frazo: &#8222;patro pensis pri tiu&#8220;, oni povas derivi, ke nur inteligentaj viva\u0135oj povas pensi, do &#8222;patro&#8220; estas inteligenta viva\u0135o. Anka\u016d adjektivaj atributoj povas diri ion pri la subjekto. Se io havas farbon kaj grandecon, tio signifas, ke tio ne estas abstrakta. Ekzistas anka\u016d trampaj figuraj frazoj, kiun oni devas statistike forfiltri.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>La tre grava avanta\u011do de vikipedio super la paperaj enciklopedioj estas ligiloj inter artikoloj. La vikipedio oferas anka\u016d la eblon navigi en amba\u016d direktoj. Do trovi artiklojn, kiu havas ligilon al cetera artikolo. Mi iomete ludis kun statistika analizo de tiuj legiloj. Kiel kutime mi programis etan programon, kiu legas ceteran artikolon kaj analizas rekursie [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[4,2],"tags":[],"class_list":["post-50","post","type-post","status-publish","format-standard","hentry","category-lingvistiko","category-programado"],"_links":{"self":[{"href":"http:\/\/blog.esperantilo.org\/index.php?rest_route=\/wp\/v2\/posts\/50","targetHints":{"allow":["GET"]}}],"collection":[{"href":"http:\/\/blog.esperantilo.org\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"http:\/\/blog.esperantilo.org\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"http:\/\/blog.esperantilo.org\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"http:\/\/blog.esperantilo.org\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=50"}],"version-history":[{"count":0,"href":"http:\/\/blog.esperantilo.org\/index.php?rest_route=\/wp\/v2\/posts\/50\/revisions"}],"wp:attachment":[{"href":"http:\/\/blog.esperantilo.org\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=50"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"http:\/\/blog.esperantilo.org\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=50"},{"taxonomy":"post_tag","embeddable":true,"href":"http:\/\/blog.esperantilo.org\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=50"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}