Esperantilo Blogo en Esperanto pri projekto Esperantilo kaj komputila lingvistiko

13.2.2007

Analizo de ligiloj en Vikipedio

Filed under: lingvistiko,programado — artur @ 19:21

La tre grava avantaĝo de vikipedio super la paperaj enciklopedioj estas ligiloj inter artikoloj. La vikipedio oferas ankaŭ la eblon navigi en ambaŭ direktoj. Do trovi artiklojn, kiu havas ligilon al cetera artikolo.

Mi iomete ludis kun statistika analizo de tiuj legiloj. Kiel kutime mi programis etan programon, kiu legas ceteran artikolon kaj analizas rekursie ligilon kun difinita profundo. La plej komplika parto de programo estas la vida montro de rezultoj. La programo unue kolektas ĉiujn ligojn, poste la ligoj estas orditaj laŭ ofteco. La speciala algoritmo kalkulas la gravecon de speciala vorto rilate de cetera vorto (kerna vorto). Je pli malproksima la vorto al kerna vorto des pli grava la vorto. La graveco estas ankaŭ pli granda, se la vorto estas ofte ligita al aliaj artikoloj.

ligila reto por esperanto

La ideo de analizo de retaj ligiloj ne estas nova. Tio estas la ĉefa ideo de algoritmo de konata „Google“, kiu ordigas la TTT-paĝojn laŭ graveco. La hipotezo estas, ke gravaj paĝoj havas multajn elirajn ligilojn. Se ni transigas tiun ideo al vikipedio, tiukaze la kernaj vortoj devas esti pli ofte ligitaj ol flankaj vortoj. Miaj unuaj pruvoj konstatis tiun hipotezon. Ekzemple por vorto „vino“ ni povas tre rapide trovi flankaj vortojn: vinbero, barelo, tino, komunio, likvaĵo, oziriso, amforo, trinkaĵo, biero, egipto. Sed ofte la ligojn kondukas tre rapide al tre nova kampo. Ekzemple: viro -> afriko -> libio. La kazo estas, ke en artikolo pri homo troviĝas foto kun viro el afriko, kaj la lasta estas ligita al artikolo pri afriko. Ofte la ligilaj vojoj estas tre surprizaj kaj pensigaj. Laŭ tiu maniero oni povas ankaŭ bone ekkoni, ke aŭtoroj sekvas ne nur enciklopediaj devojn.

Mi pensas ke tiu analizo estas tre taŭga por trovi aŭtomate kernaj vortoj rilate al iu faka vorto. Sur tiu vojo oni povas tre rapide (kaj plene aŭtomate) konstati, ke vortoj : „programaro, linukso, programlingvo, dosierujo“ apartenas al kampo de „komputiko“. Tio laboras mirige fidele. Mia precipa intereso de tiu ekzerco rilatas kiel kutime al maŝina tradukado. Mi pensis pri aŭtomta kategorigo de vortoj kaj tekstoj por pli bone elekti tradukajn vortarojn (percipe sinonimoj). La bonan kolekton de vortaj kompoj donas al ni jam REVO. La analizo de ligiloj en vikipedio povus plivastigi la bazan provizon de REVO. Oni povus analizi ne nur ligilojn, sed ankaŭ la koncernajn artikolojn mem por atingi pli bonajn rezultojn.

Fine mi pensas ankaŭ pri semantikaj retoj, kiuj estas necesaj por bonkvalita maŝina tradukado. La elstara projekto en tiu kampo estas angla WordNet. Retoj de ligiloj kaj semantikaj retoj estas certe aliaj aferoj, sed eble retoj de ligiloj povus helpi ĉe konstruo de semantika reto. Por miaj celoj tiel preciza semantika reto laŭ modelo de „WordNet“ ne estas bezonata. La pli ĝenerala kategoriigo estus sufiĉa. Ofte la problemo estas, ke oni devas scii, ĉu iu substantivo estas: persono, vivaĵo, abraktaĵo aŭ objekto. Mi esperas, ke kun aliaj teknikoj kiel sintaksa analizo de vikipedio, tiu kategoriigo povus esti farita tute aŭtomate.

Ekzemple de frazo: „frato estas homo, kiu …“ oni povas derivi ke „frato“ estas „persono“. Aŭ de frazo: „patro pensis pri tiu“, oni povas derivi, ke nur inteligentaj vivaĵoj povas pensi, do „patro“ estas inteligenta vivaĵo. Ankaŭ adjektivaj atributoj povas diri ion pri la subjekto. Se io havas farbon kaj grandecon, tio signifas, ke tio ne estas abstrakta. Ekzistas ankaŭ trampaj figuraj frazoj, kiun oni devas statistike forfiltri.

Keine Kommentare »

No comments yet.

RSS feed for comments on this post. TrackBack URL

Leave a comment

Du musst angemeldet sein, um einen Kommentar abzugeben.

Powered by WordPress