{"id":77,"date":"2007-05-15T18:35:55","date_gmt":"2007-05-15T17:35:55","guid":{"rendered":"http:\/\/blog.esperantilo.org\/?p=77"},"modified":"2007-07-20T09:53:33","modified_gmt":"2007-07-20T08:53:33","slug":"elekto-de-tradukoj-ce-masina-tradukado","status":"publish","type":"post","link":"http:\/\/blog.esperantilo.org\/?p=77","title":{"rendered":"Elekto de tradukoj \u0109e ma\u015dina tradukado"},"content":{"rendered":"<p>Unu de plej malfacilaj problemoj \u0109e ma\u015dina tradukado, kiu estas bazita sur leksikono, estas la elekto de la plej ta\u016dga traduko de vortaro. Estas normala afero, ke por unu fonta vorto oni trovas kelkajn tradukojn en vortaro. Ofte tiuj tradukoj estas sinonimoj, do \u0109iu traduko estas egale korekta. En alia kazo la fonta vorto povas havi kelkajn sencojn kaj tiuj sencoj estas tradukita diference. Ni trovas en vortarojn ofte suban strukturon: <\/p>\n<p><code> fonta vorto:   <\/code><br \/>\n<code>   senco1: traduko_1_1, traduko_1_2   <\/code><br \/>\n<code>   senco2: traduko_2_1, traduko_2_2 <\/code><\/p>\n<p>La difino de senco (a\u016d sencokampoj) estas en tiu punkto tre malklara afero. Precipe oni povas \u0109iam dividi sencojn en pri detalaj sencoj. Do ne ekzistas metodo por klare difini la sencojn. En naturaj lingvoj (anka\u016d en Esperanto) vortojn ofte iom post iom \u015dan\u011di\u011das la sencojn. En diferencaj fakoj a\u016d homgrupoj vortojn havas iom alian sencon. Tial anka\u016d la difino de sinonimo ne estas klara. Diferencaj nacioj komprenas la sencojn diference kaj tio estas la trajto de ilia kulturo. En tradukaj vortaroj ne estas anka\u016d evidente, \u0109u la sencoj estis difinitaj la\u016d fonta a\u016d cela lingvo. Tial anka\u016d la difino de sinonimo, kiel samsenca vorto, estas dubinda. La tradukaj vortaroj venkas tiujn malfacila\u0135ojn per aldonaj priskriboj. Ofte estas uzataj ekzemploj.<\/p>\n<p><code \/><\/p>\n<h3>Ekzemploj<\/h3>\n<p>Ni rigardu la vorton <cite>\"granda\"<\/cite> kaj \u011diaj tradukoj por pola, germana kaj angla lingvo.<\/p>\n<p>Pola lingvo <cite>\"granda: du\u017cy, wielki, silny, spory\"<\/cite><br \/>\nGermana lingvo <cite>\"granda: gro\u00df, ber\u00fchmnt, heftig, stark\"<\/cite><br \/>\nAngla lingvo <cite>\"granda: big, large, great\"<\/cite><\/p>\n<p>La vortaro <cite>REVO<\/cite> difinas por la vorto <cite>\"granda\"<\/cite> 2 sencojn.<\/p>\n<ol>\n<li>Superanta la ordinarajn dimensiojn<\/li>\n<li>Superanta la ordinaran gradon, intensa, altkvalita.<\/li>\n<\/ol>\n<p>Unue la vorto povas priskribi a\u0135ojn, kiuj havas dimension en alia ka\u016dzo \u0109iujn a\u0135ojn, kiujn oni povas ordigi (Do logike senco 2 enhavas anka\u016d la sencon 1). La vorto granda povas esti anstata\u016digata en apartaj kuntekstoj (la\u016d la teza\u016dro) per vortoj: ega, kolosa, fama, glora, renoma, forta, impetega, fortega, potenca, alta. \u0108iuj tiuj vortoj priskribas malkutiman gradon de iu kvalito. Evidenti\u011das, ke tiu vorto estas tre malfacila por difino kaj traduko.  Ni pritraktu kelkajn tradukojn de vorto \"granda\" kun substantivo.<\/p>\n<table>\n<tr>\n<td>Esperanta Lingvo<\/td>\n<td>Pola Lingvo<\/td>\n<\/tr>\n<tr>\n<td><cite>granda domo<\/cite><\/td>\n<td><cite>du\u017cy dom<\/cite><\/td>\n<\/tr>\n<tr>\n<td><cite>granda komponisto<\/cite><\/td>\n<td><cite>wielki kompozytor<\/cite><\/td>\n<\/tr>\n<tr>\n<td><cite>granda tertremo<cite><\/td>\n<td><cite>silne trz\u0119sienie ziemi, wielkie trz\u0119sienie ziemi<\/cite><\/td>\n<\/tr>\n<tr>\n<td><cite>granda problemo<\/cite><\/td>\n<td><cite>du\u017cy problem, wielki problem<\/cite><\/td>\n<\/tr>\n<tr>\n<td><cite>granda milito<\/cite><\/td>\n<td><cite>wielka wojna<\/cite><\/td>\n<\/tr>\n<\/table>\n<p>Ne estas facile diri, kio diferencas la polan tradukon <cite>\"du\u017cy\"<\/cite> kaj <cite>\"wielki\"<\/cite>. La vorto \"du\u017cy\" precipe pritraktas dimension kaj vorto \"wielki\" aliajn kvalitojn. Sed oni povas priskribi per <cite>\"granda\"<\/cite> anka\u016d abstraktaj nociojn kiel \"problemo\". \u015cajnas anka\u016d, ke vorto \"wielki\" estas stile pli nobla ol popola a\u016d parolata \"du\u017cy\". En pola korpuso <a href=\"http:\/\/korpus.pl\/poliqarp\/poliqarp.php\">Poliqarp<\/a> <cite>\"du\u017cy problem\"<\/cite> estas iom pli ofta ol  <cite>\"wielki problem\"<\/cite> (granda problemo). Se ni priskribas personojn kaj oni ne volas priskribi la altecon de homo, oni devas uzi la vorton <cite>\"wielki\"<\/cite>. En pola lingvo la vorto \"wielki\" emfazas anka\u016d la signifon de iu objekto por homoj. Do oni parolas pri <cite>\"wielka wojna\"<\/cite> (granda milito), se temas pri la dua mondmilito. La duopon \"du\u017ca wojna\" mi trovis nur unu fojon. Oni parolas pri \"silne trz\u0119sienie ziemi\" (forta tertremo), se temas pri fizike mezurebla forteco, sed la tertremon en San Francisco 1906 oni nomi\u011das \"wielkie trz\u0119sienie ziemi\".<\/p>\n<h3>Implikoj por ma\u015dina tradukado<\/h3>\n<p>Oni vidas, ke la elekto de ta\u016dga traduko estas tre grava por kvalito de tradukado. Unue oni povas elekti por tradukado tiun tradukon, kiu estas oportuna por la plej granda kvanto de tekstoj. Tiu estas traduko, kies senco korespondas tre preciza al la senco de fonta vorto. Precipe la plej ofta vorto de cela lingvo estas la plej ta\u016dga. Sed tio ne solvas la problemon kun la vorto \"granda\". Anka\u016d se la tradukilo ne povas difini la sencon de fonta teksto, \u011di povas analizi la kuntekston de vorto. Tie helpas la statistika metodo kaj granda korpuso de cela lingvo. \u0108e elekto de la plej ta\u016dga traduko oni analizas la oftecon de kunteksto \u0109e cela lingvo. Evidente oni povas komputi, ke la traduko \"wielka wojna\" estas multoble pli ofta ol la traduko \"du\u017ca wojna\". La malavanta\u011do de tiu solvo estas, ke \u011di bezonas longda\u016dran kalkuladon. Parton de tiu kalkulado oni povas prepari frue en speciala datumbanko, simile kiel mi tion faris en Esperantilo \u0109e bazo de frazpartoj (Menuo Lingvistiko->Uzado de frazpartoj). La dua eblo estas la traduka vortaro de tutaj frazpartoj. Tia vortaro estas tre komforta por difini esceptojn sed i\u011dus tro abunda por tutaj klasoj de tradukado. Oni do devus difini tutajn seriojn de tradukoj: \"granda poeto, granda matematikisto, granda homo, granda instruisto\". La lasta eble devenas de kutimaj vortaroj, kiuj simple donas ekzemplojn de uzado a\u016d mallongan klarigon. En ka\u016dzo de komputila prilaboro tiu priskribo devas esti kompreneble de komputilo. La natura kunteksto de adjektivo estas la priskribata substantivo. \u0108ar Esperantilo havas \u0109e tradukado la kompletan sintaksan arbon, \u011di povas facili trovi koncernan substantivon.<\/p>\n<p>Ekzemple en frazo: \"Adam Mickiewicz estas granda pola poeto.\" la natura kunteksto de adjektivo \"granda\" estas la substantivo \"poeto\". Nun oni devas informigi la tradukilon, ke \u0109e personoj kaj aliaj difinitaj vortoj, \u011di traduku la vorton \"granda\" al vorto \"wielki\". Mi nun enprogramis tiun eblecon en Esperantilo. En traduka vortaro oni povas priskribi en kampo \"senco\" tiujn aldonajn informojn. Ekzemple por la vorto \"granda\" ni havas.<\/p>\n<table>\n<tr>\n<td>traduko<\/td>\n<td>senco<\/td>\n<td>ordo<\/td>\n<\/tr>\n<tr>\n<td>du\u017cy<\/td>\n<td>{kun %persono milito}<\/td>\n<td>2<\/td>\n<\/tr>\n<tr>\n<td>traduko<\/td>\n<td><\/td>\n<td>1<\/td>\n<\/tr>\n<\/table>\n<p>Nova estas la esprimo \"<code>{kun %persono milito}<\/code>\", kiu influas la elekton de sinonimo depende de kunteksto. Tiu esprimo signifas, ke tiu traduko estas uzate, se la priskribata persono estas de tipo \"%persono\" a\u016d estas vorto \"milito\". Se tiu testo ne sukcesis, la plej grava por elekto de traduko estas la kampo \"ordo\". En tiu kazo la traduko \"du\u017cy\" havas pli malgrandan valoron al la traduko \"wielki\", do la traduko \"du\u017cy\" estos uzata. La nocio \"%persono\" dependas al tiel nomataj <a href=\"http:\/\/eo.wikipedia.org\/wiki\/Semantika_Reto\">semantikaj retoj<\/a> a\u016d <a href=\"http:\/\/eo.wikipedia.org\/wiki\/Taksonomio\">taksonomio<\/a>. Esperantilo nun ne enhavas taksonomian sistemon, sed tio estas mia celo por venonta programado. La prototipo estas pro mi la semantika reto de projekto <a href=\"http:\/\/wordnet.princeton.edu\/\">WordNet<\/a>. En Esperanto oni tre facile povas indiki, \u0109u la vorto signifas personon. Oni povas ja ekzameni la sufikson je \"ano, ino, isto, estro\" a\u016d \u0109e \"-o\", a\u016d ekzameni \u0109u pro radiko la sufikso \"-ino\" ekzistas (filo, filino). La vera semantika reto por Esperanto estas granda defio. Mi pensas, ke interesa solvo estas a\u016dtomate aldoni tiujn priskribojn la\u016d a\u016dtomata analizo de pola korpuso. Por tiu mi devis programi almena\u016d minimuman sintaksan analizilon por pola lingvo.<\/p>\n<h3>Preciza fonta teksto<\/h3>\n<p>Se oni mem preparas la tekston por ma\u015dina tradukado, oni povas eviti la problemojn \u0109e tradukado jam dum la kompilo de fonta teksto. La strategio estas uzi \u0109iam la plej specialajn vortojn. Do oni povas skribi: \"granda komponisto\" - \"fama, elstara komponisto\" \"granda princo\" - \"potenca princo\" \"granda tertremo\" - \"forta tertremo\" Sed aliflanke tiuj specialaj vortoj estas pli maloftaj, kaj tial la teksto ne estas bone legebla a\u016d e\u0109 tro faka.<\/p>\n<h3>Kiom da strategioj plu?<\/h3>\n<p>Nun Esperantilo konas kelkajn strategiojn de ma\u015dina tradukado. Tio estas:<\/p>\n<ol>\n<li>Kampo \"ordo\" \u0109e \u0109iu traduko<\/li>\n<li>Vortaro de frazpartoj<\/li>\n<li>Reguloj fikse enprogramitaj por plej komplikaj kazoj<\/li>\n<li>priskribo de fako je \u0109iu vorto (komputiko, medicino, ...)<\/li>\n<li>priskribo de kunteksto<\/li>\n<\/ol>\n<p>En la ma\u015dina tradukado konataj estas anka\u016d multaj aliaj strategioj. Nuntempe tre popularaj estas statistikaj metodoj, kiuj tamen bezonas grandajn paralelajn tekstarojn. La demando estas: Kiom da ili estas bezonataj? Mi opinias, ke oni devas kombini multajn strategiojn por atingi bonajn rezultojn. La praktika ka\u016dzo estas, ke mi ne disponas je altkvalitaj vortaroj kaj produkto de tiuj vortaroj estas tre temporaba. Feli\u0109e la kompletigon de vortaroj mi povas transdoni al uzantoj. Anka\u016d se mi ne plu disvolvigos la programon, la kvalito de tradukado povus da\u016dre plialtigi helpe de uzantoj. Mia takso estas nun pretigi la teknikan framon por multaj metodoj.<\/p>\n","protected":false},"excerpt":{"rendered":"<p>Unu de plej malfacilaj problemoj \u0109e ma\u015dina tradukado, kiu estas bazita sur leksikono, estas la elekto de la plej ta\u016dga traduko de vortaro. Estas normala afero, ke por unu fonta vorto oni trovas kelkajn tradukojn en vortaro. Ofte tiuj tradukoj estas sinonimoj, do \u0109iu traduko estas egale korekta. En alia kazo la fonta vorto povas [&hellip;]<\/p>\n","protected":false},"author":1,"featured_media":0,"comment_status":"open","ping_status":"open","sticky":false,"template":"","format":"standard","meta":{"footnotes":""},"categories":[3],"tags":[],"class_list":["post-77","post","type-post","status-publish","format-standard","hentry","category-masxina-tradukado"],"_links":{"self":[{"href":"http:\/\/blog.esperantilo.org\/index.php?rest_route=\/wp\/v2\/posts\/77","targetHints":{"allow":["GET"]}}],"collection":[{"href":"http:\/\/blog.esperantilo.org\/index.php?rest_route=\/wp\/v2\/posts"}],"about":[{"href":"http:\/\/blog.esperantilo.org\/index.php?rest_route=\/wp\/v2\/types\/post"}],"author":[{"embeddable":true,"href":"http:\/\/blog.esperantilo.org\/index.php?rest_route=\/wp\/v2\/users\/1"}],"replies":[{"embeddable":true,"href":"http:\/\/blog.esperantilo.org\/index.php?rest_route=%2Fwp%2Fv2%2Fcomments&post=77"}],"version-history":[{"count":0,"href":"http:\/\/blog.esperantilo.org\/index.php?rest_route=\/wp\/v2\/posts\/77\/revisions"}],"wp:attachment":[{"href":"http:\/\/blog.esperantilo.org\/index.php?rest_route=%2Fwp%2Fv2%2Fmedia&parent=77"}],"wp:term":[{"taxonomy":"category","embeddable":true,"href":"http:\/\/blog.esperantilo.org\/index.php?rest_route=%2Fwp%2Fv2%2Fcategories&post=77"},{"taxonomy":"post_tag","embeddable":true,"href":"http:\/\/blog.esperantilo.org\/index.php?rest_route=%2Fwp%2Fv2%2Ftags&post=77"}],"curies":[{"name":"wp","href":"https:\/\/api.w.org\/{rel}","templated":true}]}}