{"id":46,"date":"2007-02-01T19:49:26","date_gmt":"2007-02-01T18:49:26","guid":{"rendered":"http:\/\/blog.esperantilo.org\/?p=46"},"modified":"2007-07-19T15:18:40","modified_gmt":"2007-07-19T14:18:40","slug":"kreado-de-vortaro-de-artikoj-de-vikipedio","status":"publish","type":"post","link":"http:\/\/blog.esperantilo.org\/?p=46","title":{"rendered":"Kreado de vortaro de artikoloj de vikipedio"},"content":{"rendered":"<p>Sen bona multlingva leksikono (a\u016d glosaro) ne estas ebla bona ma\u015dina tradukado. Tial la grandan parton de tempo mi prilaboras la vortaron de Esperantilo. (vidu anka\u016d blogojn <a href=\"http:\/\/blog.esperantilo.org\/?p=33\">1<\/a>  kaj <a href=\"http:\/\/blog.esperantilo.org\/?p=31\">2<\/a>). Nun mi koncentri\u011das nur pri pola lingvo. \u0108ar kiel \u0109iu programisto mi estas laca, mi ser\u0109as la eblon plifaciligi tiun leksikan laboron per iu programo. Due mi ne estas la plej kompetenta persono por kreado de vortaroj kaj tiu takso ne estas tiel facila, kiel oni povus pensi.<\/p>\n<p>Mi delonge pensis, kiel utiligi la grandegan vortprovizon de <a href=\"http:\/\/eo.wikipedia.org\">Vikipedio<\/a>. Oni povas libere kaj a\u016dtomate el\u015duti \u0109iujn artikolojn en XML-fonto per speciala adreso http:\/\/eo.wikipedia.org\/wiki\/Speciala:Export <a href=\"http:\/\/eo.wikipedia.org\/wiki\/Speciala:Export\/Floro\">(ekzempla enhavo por: &#8222;Floro&#8220;)<\/a>. Estas anka\u016d eble el\u015duti la tutan vikipedion kiel granda Xml-dosiero kun \u0109iuj artikoloj (<a href=\"http:\/\/download.wikimedia.org\/\">Wikimedia Downloads<\/a>).<\/p>\n<p>Ekzistas multaj ebloj a\u016dtomate krei vortarojn de paralelaj tekstoj, tio estas ofte priskribite teorie. Beda\u016drinde ne ekzistas multaj libere atingeblaj paralelaj tekstoj en esperanta kaj pola lingvoj. Kelkaj grandaj tekstoj ne estas anka\u016d tre bonaj por tiu takso, \u0109ar tiuj estas ofte nur tradukoj de polaj tekstoj faritaj de poloj. Tio rezultas, ke la tradukita esperanta teksto ofte havas la polan stilon. Plej bonaj estas originalaj esperantaj tekstoj, skribitaj de homoj de diferencaj nacioj, kiuj estis poste tradukitaj al pola lingvo.<\/p>\n<p>Tamen ekzistas tekniko, kiu uzante statistikajn metodojn ne bezonas ekzakte la samajn tekstojn (paralelaj tekstoj) sed nur similajn tekstojn. La teorio priskribas la suba labora\u0135o ( <a href=\"http:\/\/portal.acm.org\/citation.cfm?id=234285.234287&#038;dl=GUIDE&#038;dl=ACM\">Translating collocations for bilingual lexicons: a statistical approach<\/a>  (Frank Smadja, Kathleen R. McKeown, Vasileios Hatzivassiloglou) Tiu ideo estas tre konforma al vikipedio, \u0109ar vikipedio oferas direkte la eblon kunligi artikolojn de diferencaj lingvoj. Do ni jam havas ligojn inter multaj polaj kaj esperantaj artikoloj.<\/p>\n<p>Unue mi programis programeton, kiu legas unu artikolon de esperanta vikipedio kaj la korespondan artikolon de pola vikipedio. Ni hipotezas, ke en artikoloj estas uzataj la samajn a\u016d tre similaj vortoj, \u0109ar la artikoloj priskribas la saman ideon. La ideo estas trovi vortojn, kiuj ankora\u016d ne ekzistas en vortaro. Ekzistas granda ver\u015dajno, ke tiuj vortoj korespondas unu kun alia. La algoritmo funkcias kiel priskribite:<\/p>\n<ul>\n<li>El\u015duto tekston de esperanta artikolo<\/li>\n<li>Trovi kaj el\u015duti la polan artikolon<\/li>\n<li>Forigu \u0109iujn vortetojn (pronomoj, interpunkcioj, konjunkcioj, partikloj)<\/li>\n<li>Trovu por \u0109iu vorto la radikan formon.<\/li>\n<li>Ser\u0109u \u0109iujn formojn, kiuj ne havas tradukon en traduka vortaro<\/li>\n<li>La restaj formoj estas tre ver\u015dajne tradukoj<\/li>\n<\/ul>\n<p>Por radikigi polajn vortojn mi uzas la programon <em>Stempelator<\/em> de projekto <a href=\"http:\/\/morfologik.blogspot.com\/\">Morphologic<\/a>. La programo estas skribita per Java, mi skribis simplan Tcp\/Ip servilon por tiu programo kaj tiel mi konektis Esperantilon kun &#8222;Stempelator&#8220;.<\/p>\n<p><a href=\"http:\/\/blog.esperantilo.org\/wp-content\/uploads\/2007\/02\/vortarokreado.PNG\"><img decoding=\"async\" id=\"image45\" alt=\"Kreado de Vortaro per Vikipedio\" src=\"http:\/\/blog.esperantilo.org\/wp-content\/uploads\/2007\/02\/vortarokreado.thumbnail.PNG\" \/><\/a><\/p>\n<p>Mi analizis rezultojn kaj povas konstati ke:<\/p>\n<ul>\n<li>Por cetera artikolo la programo rezultas multaj nekonataj polaj vortoj kaj nur kelkaj nekonataj esperantaj vortoj<\/li>\n<li>Esperantaj artikoloj estas ofte multe pli mallongaj kiel polaj<\/li>\n<li>La enhavo de artikoloj estas ofte tre diferenca (<a href=\"http:\/\/pl.wikipedia.org\/wiki\/Pies_domowy\">Pies<\/a>, <a href=\"http:\/\/eo.wikipedia.org\/wiki\/Hundo\">Hundo<\/a>)<\/li>\n<li>Plej ofte mankas tradukoj por esperantaj adjektivoj<\/li>\n<li>La trarigardo de paralelaj artikoloj estas bona fonto por fakaj vortoj.<\/li>\n<li>La stilo kaj vortprovizo de esperantaj artikoloj tre varias.<\/li>\n<li>La artikoloj ne estas tradukitaj (ebla de angla fonto), sed kreitaj de komenco<\/li>\n<\/ul>\n<p>La ka\u016dzo por mankantaj tradukoj de adjektivoj havas multajn fontojn. Unue mia baza komenca vortaro (unua fonto estis REVO) estas farita por homoj. Tial la a\u016dtoroj ofte ne pritraktas adjektivojn, kiu devenas rekte do substantivoj, \u0109ar \u0109iu polo povas derivi la adjektivon de substantivo preska\u016d a\u016dtomate (komputer &#8211; komputerowy). La dua ka\u016dzo estas, ke ver\u015dajne la esperanta lingvo uzas pli da adjektivigoj ol la pola lingvo. Tio estis por mi iom surpriza, \u0109ar anka\u016d en pola lingvo adjektivigo estas kutima metodo por krei novajn nociojn. Ni komparu polan kaj germanan lingvojn,<\/p>\n<ul>\n<li>system komputerowy &#8211; Komputersystem<\/li>\n<li>ksi\u0105\u017cka telefoniczna &#8211; Telefonbuch<\/li>\n<\/ul>\n<p>Sed la esperanta lingvo \u015dajnas esti e\u0109 pli adjektivema ol la pola. Mi rimarkis sekvan ekzemplon. Esperanta frazparto (<code>komunika problemo<\/code>) povus esti tradukita al pola (<code>problem komunikacyjny<\/code>), sed tiu traduko ne estas tre bona kaj sonas strange por poloj. Aliaj eblaj tradukoj:<\/p>\n<ul>\n<li>problem komunikacyjny &#8211; direkta traduko<\/li>\n<li>problem z komunikacj\u0105 &#8211; portempa problemo<\/li>\n<li>problem w komunikacji &#8211; \u011denerala problemo<\/li>\n<\/ul>\n<p>Flanke de tio la germana esperantisto eble diris &#8222;Komunikproblemo&#8220; la\u016d sia nacia kutimo. Mi konstatas, ke por kreado de vortaroj la metodo devas esti pli speciala. Tre ofte la tradukoj ne povas estas kovritaj per simpla modelo: (unu vorto = unu vorto), sed eble de traduko de tutaj frazpartoj<\/p>\n<ul>\n<li>substantivo = substantivo + adjektivo<\/li>\n<li>adjektivo substantivo = substantivo + prepozicio + substantivo<\/li>\n<li>verbo = verbo + adverbo<\/li>\n<li>adjektivo = adverbo + adjektivo<\/li>\n<\/ul>\n<p>Tiu funkcias anka\u016d en dua direkto. Por programi tiun modelon mi bezonus la sintaksan analizilon por pola lingvo, sed nun tio estas nur revo. La plene a\u016dtomata kreado de vortaroj de vikipediaj artikoloj (&#8222;Artuku\u0142\u00f3w z Wikipedii&#8220;) ne estas facila, sed tamen tio povas esti granda helpilo por a\u016dtoroj de fakaj vortaroj. La plej avanta\u011da afero estas, ke la vortoj aperas en sia natura medio, tio estas teksto. Do mi jam enskribis kelkdek novajn tradukojn en polan vortaron. Vorto sen kunteksto estas ofte nur senesprima \u0109eno de signoj. Mi esperas, ke la kvalito de esperantaj artikoj plibonigos kaj artikoloj ne enhavos en venonto nur unu frazon.<\/p>\n<p>Mi enmetos tiun malgrandajn programetojn en venontan eldonon de &#8222;Esperantilo&#8220;, sed ne direkte atingebla. La problemo estas la instalado kaj preparo de komuniko kun alia programo &#8222;Stemplator&#8220;. Tiu tasko ne estas solvebla por avera\u011daj uzantoj de komputiloj. Se iu volas tamen ludi kun tiu programo, bonvolu skribu al mi. Mi aldonos tiam priskribon kiel tion fari.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Sen bona multlingva leksikono (a\u016d glosaro) ne estas ebla bona ma\u015dina tradukado. Tial la grandan parton de tempo mi prilaboras la vortaron de Esperantilo. (vidu anka\u016d blogojn 1 kaj 2). Nun mi koncentri\u011das nur pri pola lingvo. \u0108ar kiel \u0109iu programisto mi estas laca, mi ser\u0109as la eblon plifaciligi tiun leksikan laboron per iu programo. [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[4,3],"tags":[],"class_list":["post-46","post","type-post","status-publish","format-standard","hentry","category-lingvistiko","category-masxina-tradukado"],"_links":{"self":[{"href":"http:\/\/blog.esperantilo.org\/index.php?rest_route=\/wp\/v2\/posts\/46","targetHints":{"allow":["GET"]}}],"collection":[{"href":"http:\/\/blog.esperantilo.org\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"http:\/\/blog.esperantilo.org\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"http:\/\/blog.esperantilo.org\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"http:\/\/blog.esperantilo.org\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=46"}],"version-history":[{"count":0,"href":"http:\/\/blog.esperantilo.org\/index.php?rest_route=\/wp\/v2\/posts\/46\/revisions"}],"wp:attachment":[{"href":"http:\/\/blog.esperantilo.org\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=46"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"http:\/\/blog.esperantilo.org\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=46"},{"taxonomy":"post_tag","embeddable":true,"href":"http:\/\/blog.esperantilo.org\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=46"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}