Esperantilo Blogo en Esperanto pri projekto Esperantilo kaj komputila lingvistiko

15.5.2007

Elekto de tradukoj ĉe maŝina tradukado

Filed under: maŝina tradukado — artur @ 18:35

Unu de plej malfacilaj problemoj ĉe maŝina tradukado, kiu estas bazita sur leksikono, estas la elekto de la plej taŭga traduko de vortaro. Estas normala afero, ke por unu fonta vorto oni trovas kelkajn tradukojn en vortaro. Ofte tiuj tradukoj estas sinonimoj, do ĉiu traduko estas egale korekta. En alia kazo la fonta vorto povas havi kelkajn sencojn kaj tiuj sencoj estas tradukita diference. Ni trovas en vortarojn ofte suban strukturon:

fonta vorto:
senco1: traduko_1_1, traduko_1_2
senco2: traduko_2_1, traduko_2_2

La difino de senco (aŭ sencokampoj) estas en tiu punkto tre malklara afero. Precipe oni povas ĉiam dividi sencojn en pri detalaj sencoj. Do ne ekzistas metodo por klare difini la sencojn. En naturaj lingvoj (ankaŭ en Esperanto) vortojn ofte iom post iom ŝanĝiĝas la sencojn. En diferencaj fakoj aŭ homgrupoj vortojn havas iom alian sencon. Tial ankaŭ la difino de sinonimo ne estas klara. Diferencaj nacioj komprenas la sencojn diference kaj tio estas la trajto de ilia kulturo. En tradukaj vortaroj ne estas ankaŭ evidente, ĉu la sencoj estis difinitaj laŭ fonta aŭ cela lingvo. Tial ankaŭ la difino de sinonimo, kiel samsenca vorto, estas dubinda. La tradukaj vortaroj venkas tiujn malfacilaĵojn per aldonaj priskriboj. Ofte estas uzataj ekzemploj.

Ekzemploj

Ni rigardu la vorton "granda" kaj ĝiaj tradukoj por pola, germana kaj angla lingvo.

Pola lingvo "granda: duży, wielki, silny, spory"
Germana lingvo "granda: groß, berühmnt, heftig, stark"
Angla lingvo "granda: big, large, great"

La vortaro REVO difinas por la vorto "granda" 2 sencojn.

  1. Superanta la ordinarajn dimensiojn
  2. Superanta la ordinaran gradon, intensa, altkvalita.

Unue la vorto povas priskribi aĵojn, kiuj havas dimension en alia kaŭzo ĉiujn aĵojn, kiujn oni povas ordigi (Do logike senco 2 enhavas ankaŭ la sencon 1). La vorto granda povas esti anstataŭigata en apartaj kuntekstoj (laŭ la tezaŭro) per vortoj: ega, kolosa, fama, glora, renoma, forta, impetega, fortega, potenca, alta. Ĉiuj tiuj vortoj priskribas malkutiman gradon de iu kvalito. Evidentiĝas, ke tiu vorto estas tre malfacila por difino kaj traduko. Ni pritraktu kelkajn tradukojn de vorto "granda" kun substantivo.

Esperanta Lingvo Pola Lingvo
granda domo duży dom
granda komponisto wielki kompozytor
granda tertremo silne trzęsienie ziemi, wielkie trzęsienie ziemi
granda problemo duży problem, wielki problem
granda milito wielka wojna

Ne estas facile diri, kio diferencas la polan tradukon "duży" kaj "wielki". La vorto "duży" precipe pritraktas dimension kaj vorto "wielki" aliajn kvalitojn. Sed oni povas priskribi per "granda" ankaŭ abstraktaj nociojn kiel "problemo". Ŝajnas ankaŭ, ke vorto "wielki" estas stile pli nobla ol popola aŭ parolata "duży". En pola korpuso Poliqarp "duży problem" estas iom pli ofta ol "wielki problem" (granda problemo). Se ni priskribas personojn kaj oni ne volas priskribi la altecon de homo, oni devas uzi la vorton "wielki". En pola lingvo la vorto "wielki" emfazas ankaŭ la signifon de iu objekto por homoj. Do oni parolas pri "wielka wojna" (granda milito), se temas pri la dua mondmilito. La duopon "duża wojna" mi trovis nur unu fojon. Oni parolas pri "silne trzęsienie ziemi" (forta tertremo), se temas pri fizike mezurebla forteco, sed la tertremon en San Francisco 1906 oni nomiĝas "wielkie trzęsienie ziemi".

Implikoj por maŝina tradukado

Oni vidas, ke la elekto de taŭga traduko estas tre grava por kvalito de tradukado. Unue oni povas elekti por tradukado tiun tradukon, kiu estas oportuna por la plej granda kvanto de tekstoj. Tiu estas traduko, kies senco korespondas tre preciza al la senco de fonta vorto. Precipe la plej ofta vorto de cela lingvo estas la plej taŭga. Sed tio ne solvas la problemon kun la vorto "granda". Ankaŭ se la tradukilo ne povas difini la sencon de fonta teksto, ĝi povas analizi la kuntekston de vorto. Tie helpas la statistika metodo kaj granda korpuso de cela lingvo. Ĉe elekto de la plej taŭga traduko oni analizas la oftecon de kunteksto ĉe cela lingvo. Evidente oni povas komputi, ke la traduko "wielka wojna" estas multoble pli ofta ol la traduko "duża wojna". La malavantaĝo de tiu solvo estas, ke ĝi bezonas longdaŭran kalkuladon. Parton de tiu kalkulado oni povas prepari frue en speciala datumbanko, simile kiel mi tion faris en Esperantilo ĉe bazo de frazpartoj (Menuo Lingvistiko->Uzado de frazpartoj). La dua eblo estas la traduka vortaro de tutaj frazpartoj. Tia vortaro estas tre komforta por difini esceptojn sed iĝus tro abunda por tutaj klasoj de tradukado. Oni do devus difini tutajn seriojn de tradukoj: "granda poeto, granda matematikisto, granda homo, granda instruisto". La lasta eble devenas de kutimaj vortaroj, kiuj simple donas ekzemplojn de uzado aŭ mallongan klarigon. En kaŭzo de komputila prilaboro tiu priskribo devas esti kompreneble de komputilo. La natura kunteksto de adjektivo estas la priskribata substantivo. Ĉar Esperantilo havas ĉe tradukado la kompletan sintaksan arbon, ĝi povas facili trovi koncernan substantivon.

Ekzemple en frazo: "Adam Mickiewicz estas granda pola poeto." la natura kunteksto de adjektivo "granda" estas la substantivo "poeto". Nun oni devas informigi la tradukilon, ke ĉe personoj kaj aliaj difinitaj vortoj, ĝi traduku la vorton "granda" al vorto "wielki". Mi nun enprogramis tiun eblecon en Esperantilo. En traduka vortaro oni povas priskribi en kampo "senco" tiujn aldonajn informojn. Ekzemple por la vorto "granda" ni havas.

traduko senco ordo
duży {kun %persono milito} 2
traduko 1

Nova estas la esprimo "{kun %persono milito}", kiu influas la elekton de sinonimo depende de kunteksto. Tiu esprimo signifas, ke tiu traduko estas uzate, se la priskribata persono estas de tipo "%persono" aŭ estas vorto "milito". Se tiu testo ne sukcesis, la plej grava por elekto de traduko estas la kampo "ordo". En tiu kazo la traduko "duży" havas pli malgrandan valoron al la traduko "wielki", do la traduko "duży" estos uzata. La nocio "%persono" dependas al tiel nomataj semantikaj retojtaksonomio. Esperantilo nun ne enhavas taksonomian sistemon, sed tio estas mia celo por venonta programado. La prototipo estas pro mi la semantika reto de projekto WordNet. En Esperanto oni tre facile povas indiki, ĉu la vorto signifas personon. Oni povas ja ekzameni la sufikson je "ano, ino, isto, estro" aŭ ĉe "-o", aŭ ekzameni ĉu pro radiko la sufikso "-ino" ekzistas (filo, filino). La vera semantika reto por Esperanto estas granda defio. Mi pensas, ke interesa solvo estas aŭtomate aldoni tiujn priskribojn laŭ aŭtomata analizo de pola korpuso. Por tiu mi devis programi almenaŭ minimuman sintaksan analizilon por pola lingvo.

Preciza fonta teksto

Se oni mem preparas la tekston por maŝina tradukado, oni povas eviti la problemojn ĉe tradukado jam dum la kompilo de fonta teksto. La strategio estas uzi ĉiam la plej specialajn vortojn. Do oni povas skribi: "granda komponisto" - "fama, elstara komponisto" "granda princo" - "potenca princo" "granda tertremo" - "forta tertremo" Sed aliflanke tiuj specialaj vortoj estas pli maloftaj, kaj tial la teksto ne estas bone legebla aŭ eĉ tro faka.

Kiom da strategioj plu?

Nun Esperantilo konas kelkajn strategiojn de maŝina tradukado. Tio estas:

  1. Kampo "ordo" ĉe ĉiu traduko
  2. Vortaro de frazpartoj
  3. Reguloj fikse enprogramitaj por plej komplikaj kazoj
  4. priskribo de fako je ĉiu vorto (komputiko, medicino, ...)
  5. priskribo de kunteksto

En la maŝina tradukado konataj estas ankaŭ multaj aliaj strategioj. Nuntempe tre popularaj estas statistikaj metodoj, kiuj tamen bezonas grandajn paralelajn tekstarojn. La demando estas: Kiom da ili estas bezonataj? Mi opinias, ke oni devas kombini multajn strategiojn por atingi bonajn rezultojn. La praktika kaŭzo estas, ke mi ne disponas je altkvalitaj vortaroj kaj produkto de tiuj vortaroj estas tre temporaba. Feliĉe la kompletigon de vortaroj mi povas transdoni al uzantoj. Ankaŭ se mi ne plu disvolvigos la programon, la kvalito de tradukado povus daŭre plialtigi helpe de uzantoj. Mia takso estas nun pretigi la teknikan framon por multaj metodoj.

7.2.2007

Fekundenco de vortoj ĉe tradukado

Filed under: lingvistiko,maŝina tradukado — artur @ 18:55

Fekundanco de vortoj (angle: fertility) ĉe tradukado estas grava indiko ĉe statistakaj metodoj de maŝina tradukado. Tiu indiko eldiras kiom da vortoj en cela lingvo oni bezonas por traduki unu vorto de fonta lingvo. Fekundencon oni povas kalkuli por tuta teksto, frazparto aŭ unu vorto. La interesa kalkulo estas nombri ĉiujn vortojn de sama teksto en originalo kaj en traduko. Ĉe lingvoj kun riĉaj rimedoj de vortfarado tiu indiko estas malgrada ol 1 kompara al lingvo sen tiuj ebloj.Por unuopaj vortoj tiu fekundeco povas esti malsimila kaj dependas ofte de gramatiko. Ofte rolmontriloj ne povas esti tradukitaj rekte, do ilia fekundeco estas 0 aŭ „senlimo“. Kelkaj ekzemploj por pola kaj esperanta lingvoj

  • libro = książka (Fekundeco 1:1 = 1)
  • radioelsendo = audycja radiowa (Fekundeco 1: 2 = 2)
  • perdi vojon = zabłądzić (Fekundeco 2 : 1 = 0.5)
  • Li donis al mi la libron = On dał mi książkę. (Fekundeco por „al“ estas 1 : 0 = 0)
  • Li atendas mi = On czeka na mnie. (Fekundeco por „na“ estas „senlimo“ 0 : 1 = ?)

Ĉe maŝina tradukado laŭ metodo de transormigo de sintaksa arbo la limaj fekundecoj („0“ kaj „senlimo“) ne faras tiom da problemoj, kiel oni tiun aspektis, ĉar la rolvortetojn oni povas facile derivi de sintaksaj funkcioj. Alie estas en la plene statistika maŝina tradukado, ĉar en tiu modelo vortoj ne aperas de nenio. Do tiu modelo devas kalkuli en longaj grupoj de vortoj.

Tradukoj kun fekundeco pli granda ol 2

Esperantilo rekonas en pola traduka vortaro la tradukoj laŭ kelkaj modeloj. Sed ĉe esperanta (fonta) flanko povas stari nur unu vorto. La enskriboj kun kelkaj vortoj ĉe esperanta flanko povas esti enskibitaj en tradukan vortaron de frazpartoj.

  • substantivo = substatnivo + substativo ; vidpunkto = punkt widzenia
  • substantivo = substantivo + adjektivo ; apendico = wyrostek robaczkowy
  • verbo = verbo + prepozicio + substantivo ; heredigi = przekazywać w spadku
  • verbo = verbo + adverbo ; manuzi = obsługiwać ręcznie
  • verbo = verbo + substantivo ; proponi = stawiać wniosek
  • adverbo = prepozicio + substantivo ; senproteste = bez protestowania
  • adjektivo = prepozicio + substantivo ; senlima = bez granic
  • adjektivo = adjektivo + substantivo ; homplena = pełen ludzi

La traduka vortaro por maŝina tradukado devas esti pli regite prilaborita ol tiu por normala uzado. Aliaj lingvoj uzas aliaj modeloj. Aparta ĉe germana lingvo, kiu bezonas reordigon de vortoj dum la tradukado la rekono de unuopaj vortoj en cela traduko estas tre grava.

  • vortaro : komprenigi = begreiflich machen
  • Mi ne komprenigis tion al li; Ich machte ihm das begreiflich

Tradukado de frazpartoj

Por multaj nocioj la traduka modelo, en kiu ĉe unu flanko de vortaro staras nur unu vorto, ne estas sufiĉa. Do ni havas modelon de vortaro laŭ formulo: n = m (n,m>1). Ekzemploj:

  • kompara lingvistiko = metoda porównawcza
  • iom post iom = krok po kroku

Mutaj tiaj ekzemploj apartenas al frazaĵoj, kiu estas tre malfacile tradukeblaj, ĉar la traduko bezonas pluajn transformigojn. Ofte ankaŭ la vortaro enskribo ne korespondas direkte kun fonta teksto.

  • paroli hake = jękać się (Li parolas ofte malrapide kaj hake)
  • Tio haveblas sur nia TTT-paĝo = Możecie to sciąnąć z naszej strony.

Tradukado de vortoj en Esperantilo

La tradukado de vortoj en Esperantilo estas nun plurŝtupa proceso. La unua kazo por tio esta la komputilo inversa vortfarado, due la tradukado de vortoj kun fekundeco, kiu estas malegala al 1.

Responda cxeno cxe tradukado

vortaro de frazparto

Tio estas la vortaro por grupaj tradukoj aŭ tradukoj kun fekundanco pli malgranda ol 1. Tiu vortaro povas ankaŭ traduki frazaĵojn. La vortaro uzas parte preskaŭ programajn priskribojn, por trovi korespondaj vortoj en sintaksa arbo. Tio estas necesa, ĉar la trovo de fontaj vortoj ne povas limiĝi al serĉado de signoĉenoj.

traduka vortaro

Tio estas la ĉefa vortaro de programo ĉar plej ofte la vortoj havas fekundancon 1 aŭ pli granda ol 1.

pola inversa vortfarado

Tiu modulo kreas polajn vortojn laŭ esperanta modelo. La reguloj estas faritaj laŭ musteroj.

  • ne(adjektivo) = nie(adjektivo) ; neblanka = niebiała
  • du(adjektivo) = dwu(adjektivo) ; duetaĝa = dwupiętrowa

La uzanto ne povas direkte difini novajn regulojn por tiu inversa vortfarado. Ili estas enprogramitaj en klaso „PolaVortFarado“

esperanta inversa vortfarado

Tiu modulo provas krei de kompleksa esperanta vorto kelkajn bazajn vortojn, kiuj pliverŝajne troviĝas en traduka vortaro. Ekzemplaj reguloj:

  • sen(adjektivo) = sen substantivo ; senlima = sen limo
  • tut(adjektivo) = tute adjektivo ; tutcerta = tute certa

Ili estas enprogramitaj en klaso „EspReVortfarado->remorfigu“

esperanto-esperanto vortaro

Tiu vortaro estas kolekto de sinonimoj esperimoj. Ĝi enhavas ankaŭ arĥaj kaj novaj formoj. La uzanto povas direkte enskribi novajn tradukojn per menuo: (Lingvistiko->Esperanto-Esperanto vortaro)

1.2.2007

Kreado de vortaro de artikoloj de vikipedio

Filed under: lingvistiko,maŝina tradukado — artur @ 19:49

Sen bona multlingva leksikono (aŭ glosaro) ne estas ebla bona maŝina tradukado. Tial la grandan parton de tempo mi prilaboras la vortaron de Esperantilo. (vidu ankaŭ blogojn 1 kaj 2). Nun mi koncentriĝas nur pri pola lingvo. Ĉar kiel ĉiu programisto mi estas laca, mi serĉas la eblon plifaciligi tiun leksikan laboron per iu programo. Due mi ne estas la plej kompetenta persono por kreado de vortaroj kaj tiu takso ne estas tiel facila, kiel oni povus pensi.

Mi delonge pensis, kiel utiligi la grandegan vortprovizon de Vikipedio. Oni povas libere kaj aŭtomate elŝuti ĉiujn artikolojn en XML-fonto per speciala adreso http://eo.wikipedia.org/wiki/Speciala:Export (ekzempla enhavo por: „Floro“). Estas ankaŭ eble elŝuti la tutan vikipedion kiel granda Xml-dosiero kun ĉiuj artikoloj (Wikimedia Downloads).

Ekzistas multaj ebloj aŭtomate krei vortarojn de paralelaj tekstoj, tio estas ofte priskribite teorie. Bedaŭrinde ne ekzistas multaj libere atingeblaj paralelaj tekstoj en esperanta kaj pola lingvoj. Kelkaj grandaj tekstoj ne estas ankaŭ tre bonaj por tiu takso, ĉar tiuj estas ofte nur tradukoj de polaj tekstoj faritaj de poloj. Tio rezultas, ke la tradukita esperanta teksto ofte havas la polan stilon. Plej bonaj estas originalaj esperantaj tekstoj, skribitaj de homoj de diferencaj nacioj, kiuj estis poste tradukitaj al pola lingvo.

Tamen ekzistas tekniko, kiu uzante statistikajn metodojn ne bezonas ekzakte la samajn tekstojn (paralelaj tekstoj) sed nur similajn tekstojn. La teorio priskribas la suba laboraĵo ( Translating collocations for bilingual lexicons: a statistical approach (Frank Smadja, Kathleen R. McKeown, Vasileios Hatzivassiloglou) Tiu ideo estas tre konforma al vikipedio, ĉar vikipedio oferas direkte la eblon kunligi artikolojn de diferencaj lingvoj. Do ni jam havas ligojn inter multaj polaj kaj esperantaj artikoloj.

Unue mi programis programeton, kiu legas unu artikolon de esperanta vikipedio kaj la korespondan artikolon de pola vikipedio. Ni hipotezas, ke en artikoloj estas uzataj la samajn aŭ tre similaj vortoj, ĉar la artikoloj priskribas la saman ideon. La ideo estas trovi vortojn, kiuj ankoraŭ ne ekzistas en vortaro. Ekzistas granda verŝajno, ke tiuj vortoj korespondas unu kun alia. La algoritmo funkcias kiel priskribite:

  • Elŝuto tekston de esperanta artikolo
  • Trovi kaj elŝuti la polan artikolon
  • Forigu ĉiujn vortetojn (pronomoj, interpunkcioj, konjunkcioj, partikloj)
  • Trovu por ĉiu vorto la radikan formon.
  • Serĉu ĉiujn formojn, kiuj ne havas tradukon en traduka vortaro
  • La restaj formoj estas tre verŝajne tradukoj

Por radikigi polajn vortojn mi uzas la programon Stempelator de projekto Morphologic. La programo estas skribita per Java, mi skribis simplan Tcp/Ip servilon por tiu programo kaj tiel mi konektis Esperantilon kun „Stempelator“.

Kreado de Vortaro per Vikipedio

Mi analizis rezultojn kaj povas konstati ke:

  • Por cetera artikolo la programo rezultas multaj nekonataj polaj vortoj kaj nur kelkaj nekonataj esperantaj vortoj
  • Esperantaj artikoloj estas ofte multe pli mallongaj kiel polaj
  • La enhavo de artikoloj estas ofte tre diferenca (Pies, Hundo)
  • Plej ofte mankas tradukoj por esperantaj adjektivoj
  • La trarigardo de paralelaj artikoloj estas bona fonto por fakaj vortoj.
  • La stilo kaj vortprovizo de esperantaj artikoloj tre varias.
  • La artikoloj ne estas tradukitaj (ebla de angla fonto), sed kreitaj de komenco

La kaŭzo por mankantaj tradukoj de adjektivoj havas multajn fontojn. Unue mia baza komenca vortaro (unua fonto estis REVO) estas farita por homoj. Tial la aŭtoroj ofte ne pritraktas adjektivojn, kiu devenas rekte do substantivoj, ĉar ĉiu polo povas derivi la adjektivon de substantivo preskaŭ aŭtomate (komputer – komputerowy). La dua kaŭzo estas, ke verŝajne la esperanta lingvo uzas pli da adjektivigoj ol la pola lingvo. Tio estis por mi iom surpriza, ĉar ankaŭ en pola lingvo adjektivigo estas kutima metodo por krei novajn nociojn. Ni komparu polan kaj germanan lingvojn,

  • system komputerowy – Komputersystem
  • książka telefoniczna – Telefonbuch

Sed la esperanta lingvo ŝajnas esti eĉ pli adjektivema ol la pola. Mi rimarkis sekvan ekzemplon. Esperanta frazparto (komunika problemo) povus esti tradukita al pola (problem komunikacyjny), sed tiu traduko ne estas tre bona kaj sonas strange por poloj. Aliaj eblaj tradukoj:

  • problem komunikacyjny – direkta traduko
  • problem z komunikacją – portempa problemo
  • problem w komunikacji – ĝenerala problemo

Flanke de tio la germana esperantisto eble diris „Komunikproblemo“ laŭ sia nacia kutimo. Mi konstatas, ke por kreado de vortaroj la metodo devas esti pli speciala. Tre ofte la tradukoj ne povas estas kovritaj per simpla modelo: (unu vorto = unu vorto), sed eble de traduko de tutaj frazpartoj

  • substantivo = substantivo + adjektivo
  • adjektivo substantivo = substantivo + prepozicio + substantivo
  • verbo = verbo + adverbo
  • adjektivo = adverbo + adjektivo

Tiu funkcias ankaŭ en dua direkto. Por programi tiun modelon mi bezonus la sintaksan analizilon por pola lingvo, sed nun tio estas nur revo. La plene aŭtomata kreado de vortaroj de vikipediaj artikoloj („Artukułów z Wikipedii“) ne estas facila, sed tamen tio povas esti granda helpilo por aŭtoroj de fakaj vortaroj. La plej avantaĝa afero estas, ke la vortoj aperas en sia natura medio, tio estas teksto. Do mi jam enskribis kelkdek novajn tradukojn en polan vortaron. Vorto sen kunteksto estas ofte nur senesprima ĉeno de signoj. Mi esperas, ke la kvalito de esperantaj artikoj plibonigos kaj artikoloj ne enhavos en venonto nur unu frazon.

Mi enmetos tiun malgrandajn programetojn en venontan eldonon de „Esperantilo“, sed ne direkte atingebla. La problemo estas la instalado kaj preparo de komuniko kun alia programo „Stemplator“. Tiu tasko ne estas solvebla por averaĝaj uzantoj de komputiloj. Se iu volas tamen ludi kun tiu programo, bonvolu skribu al mi. Mi aldonos tiam priskribon kiel tion fari.

17.1.2007

Maŝina tradukado de propraj nomoj

Filed under: maŝina tradukado — artur @ 19:45

Propraj nomoj farigas multajn problemojn ĉe maŝina tradukado kaj gramatika korektado. Malfacila estas la identigo de propraj nomoj kaj ilia sintaksa analizo. Ankaŭ tradukado de propraj nomoj ne estas facila kaj oni frontas multajn problemojn. En la plej simpla kazo propraj nomoj tute ne estas tradukitaj, en alia kazo depende de cela lingvo propraj nomoj devas havi fleksiajn finilojn. Kiel kutime la bonan enkondukon donas PMEG.

Similajn problemojn oni frontas ankaŭ ĉe mallongiĝoj, akronimoj, matematikaj simboloj kaj citaĵoj.

Korekta pritakso de propraj nomoj estas tre grava ĉe maŝina traduko. Ĉar en multaj ĵurnalaj tekstoj preskaŭ ne ekzistas frazoj sen propraj nomoj, la okulfrapa kvalito de tradukado dependas multe de tradukado de propraj nomoj.

Specoj de Propraj Nomoj

Propraj nomoj ĝenerale funkcias en frazo same kiel substantivoj. Ĝenerale oni povas diferenci proprajn nomojn laŭ:

  • Esperantigitaj aŭ ne esperantigitaj propraj nomoj
  • unuvortaj aŭ multvortaj propraj nomoj
  • puraj substantivaj aŭ adjektivigitaj propraj nomoj (ekz: Varsovia vento
  • tipoj de nomigitaj objektoj: geografiaj nomoj, firmaoj, homoj, asocioj, titoloj
  • Propraj nomoj, kiuj estas normalaj esperantoj frazpartoj (ekz: Libera Folio, Ondo de Esperanto)

Esperantigitaj propraj nomoj faras la plej malgrandajn problemojn, ĉar ili povas esti pritraktataj kiel normalaj esperantaj vortoj. En Esperantilo oni povas difini en esperanta vortaro por radikoj kaj substantivo, ke ili estas propraj nomoj. La gramatika korektilo sugestas skribi ĉiujn proprajn nomoj per grandaj literoj.

Propraj Nomoj en Sintaksa Analizo

Propraj nomoj funkcias en frazo same kiel substantivoj, sed ili ne povas havi la difinilon ‚la‘. Ne esperantigitaj propraj nomoj kutime ne havas la akuzativan finilon. Kelkaj esperantigitaj propraj nomoj aperas nur en plurala formo (ekz: filipinoj)

  • Paweł Lemian skibis tiun leteron.
  • Mi renkontis Krystyna lastan semajnon.
  • La reĝo ankaŭ fundis urbon Mins Mazowiecki.
  • Reihn estas la plej granda rivero en Germanio.
  • TEJO-uloj partoprenis IS parolis pri EO kaj dancis laŭ DĴ ĉe E-muziko.
  • Maŝina Tradukado (MT) ne sukcesis plene. Oni ne devas multe atendi de MT.

En sintaksa analizo oni rimarku du konstruaĵojn. Unue la identiga priskribo de ceteraj substantivoj:

  • Sinjoro Marek Boder
  • Urbo Rybnik
  • Firmao MicoBrain

Due la familinomoj aperas ofte kun antaŭnomoj en duopoj. Sintaksa analizilo en Esperantilo grupigas tiuj nomojn en branĉo „nomo“.

sintaksa analizo de propraj nomoj

Identigo de Propraj Nomoj

Oni povas uzi kelkajn trajtojn de propraj nomoj por identigo

  • Propraj nomoj estas skribitaj per granda litero.
  • Propraj nomoj staras ofte post ceteraj substantivoj (sinjoro, rivero, libro, urbo…).
  • Ne esperantigitaj propraj nomoj ofte enhavas ne esperantajn literojn („xyąóćęłńśźż“).
  • Proprajn nomojn oni ofte skribas en apostrofoj.
  • Proprajn nomojn oni ofte skribas per kursivaj literoj.
  • Mallongiĝoj kaj Akronimoj uzas nur grandajn literojn (UEA, TEJO, UFO).
  • Propraj nomoj aperas multfoje en unu teksto.

Esperantilo uzas ankaŭ la internan liston de ignoritaj vortoj por identigi proprajn nomojn. Pripensebla estas ankaŭ vortaro de propraj nomoj. La kompleta listo de ĉiuj geografiaj nomoj aŭ ĉiuj homoj ne estas realigebla, sed oni povas celi kolekti proprajn nomojn, kiuj estas ofte uzataj en ia tekstaro.

Teknike tre komplika estas identigo de propraj nomoj, kiuj estas ŝajne normalaj esperantaj frazpartoj. Tio estas ofte nomoj de ĵurnaloj kaj asociacioj. Ankaŭ ofte neesperantigitaj propraj nomoj, familinomoj aŭ antaŭnomoj estas hazarde kutimaj esperantaj vortoj. Ni pripensu konatajn Esperantistojn: Claude Piron, Barbara Pietrzak.

Fine oni povas la taskon de identigo de propraj nomoj lasi al uzanto kaj oferi al li komfortan surfacon.

Aŭtomata kolektado kaj testado de propraj nomoj

Identigo de propraj nomoj povas esti praktika funkcio ĉe analizo de tekstaro. Por identigo de familinomoj estus tre praktika la listo de oftaj antaŭnomoj aŭ familinomoj. Ĉe konataj homoj aŭ geografiaj nomoj oni povus aŭtomate konsulti aliajn gradajn leksikonojn ekzemple: Vikipedio.

Tradukado de Propraj Nomoj

La tradukado de propraj nomoj estas aparte komplika afero. Unue oni devas kondiĉi, ke sintaksa analizo bone rekonis tiujn. La tradukado dependas de cela lingvo kaj la speco de propra nomo. Ni havas sekvajn eblojn.

  • Esperantigitaj propraj nomoj estas tradukitaj laŭ traduka vortaro.
  • Ne esperantigitaj propraj nomoj ne estas tradukitaj.
  • Ne esperantigitaj propraj nomoj estas tradukitaj laŭ reguloj de fonta lingvo.

En slavaj lingvoj, kie verboj estas fleksigitaj laŭ genro, estas tre grava la genro de la persono. Ekzemple oni tradukas.

  • Barbar Pietrzak legis . Barbar Pietrzak czytała.
  • Claude Piron legis. Barbar Pietrzak czytał.

Ankaŭ en pola lingvo familinomoj havas finilojn.

  • Mi ofte aŭskultis Barbar Pietrzak en pola radio. Często słuchałem Barbarę Pietrzak w polskim radiu.

Ĉar ne esperantigitaj geografiaj nomoj uzas la nomon de fonta lingvo, estas granda problemo, kiam la cela lingvo havas enproprigitan formon de tiu nomo.

  • Mi estis en Köln. (pola traduko) Jestem w Kolonii.

Plej komplika estas la tradukado de akronimoj kaj propraj nomoj, kiuj estas normalaj esperantaj subfrazoj. Ofte akronimoj ekzistas por iu specifa lingvo aŭ kulturo. Tipaj akronimoj de Esperanto UEA kaj TEJO oni ne povas traduki rekte al nacia lingvo, ĉar en tiu lingvo, tiuj nomoj ne estas konataj. La solvo povas esti ŝanĝo de akrionimoj al plena nomo aŭ aldona priskribo.

  • Kongreso de UEA okazis en Pekino. (pola traduko) Kongres UEA (Światowego Związku Esperantystów) miał miejsce w Pekinie.

Komplika estas ankaŭ pritrakto de nomoj de ĵurnaloj aŭ asocioj, kiuj ofte estas regulaj frazpartoj. Pricipe tiujn nomojn oni ne tradukas, sed ofte aldonas pluajn informojn.

  • Libera Folio okulfrapas per mistrafaj titoloj de siaj artikoloj. (pola traduko) "Libera Folio" (esperancka gazeta internetowa) zaskakuje nieudanymi tutułami swoich artykułów.

Tradukado de propraj nomoj en Esperantilo

Esperantilo ĝis nuna eldono prilaboras nur kelkajn tipojn de propraj nomoj. Esperantigitaj propraj nomoj ne faras problemojn kaj povas esti difinitaj en traduka vortaro. Sintaksa analizilo rekonas grupojn de antaŭnomo kaj familinomo, se ĝi trafas du nekonatajn vortojn, kiuj estas skribitaj per granda litero. Identiga suplemento de substantivo estas rekonata. Mankas nun la eblo difini kompleksaj propraj nomoj kaj tradukado de akronimoj. Ankaŭ bezonata por pola tradukado genro de antaŭnomoj ne estas uzata, do ĉiuj nomoj estas aŭ viraj aŭ inaj. Fleksio de familinomoj estas en pola lingvo tre kompleksa kaj ĝis nun tute ne konsiderata. Mi volas iam kolekti ĉiujn substantivoj, kiuj povas estas priskribitaj per propraj nomoj (ekz: Sinjoro, Urbo, Rivero, Firmao). Mi supozas, ke por plibonigo de tradukado, estus necesa antaŭa analizo de teksto je propraj nomoj.

Alia temo estas la difino de tradukaj informoj de uzanto por cetera teksto. Tio estas propraj vortaroj kaj listoj kun propraj nomoj.

9.1.2007

lingvistiko, esperanto, komputilaj projektoj

Filed under: ĝenerale,lingvistiko,maŝina tradukado — artur @ 21:01

Ideo de maŝina tradukado ekzistas ekde apero de komputiloj. Maŝina tradukado kaj arta penso estis la revo de unuaj programistoj, eble ĉar tiuj temoj estus bone komprenataj por vasta publiko. Tradukado estas malfacila tasko, kiun povas plenumi nur kelkaj homoj post longa lernado. Tial komputilo, kiu tradukas, estus la pruvo por taŭgeco de komputiloj.

Ĉiu nun scias, ke ne ekzistas komputiloj, kiuj povas pensi aŭ traduki en nivelo de homoj. Longe post multaj fiaskaj projektoj, en kiuj oni perdis grandan kvanton de mono, eĉ specialistoj pensis, ke programado de tiuj sistemoj ne estas ebla. Historio de komputika lingvistiko bone priskribas la konata dokumento Machine Translation: past, present, future. Ofte eĉ Esperantistoj varbas por Esperanto kun argumento, ke maŝina tradukado ne estas ebla kaj neniam estos ebla. En tiu kazo oni ofte prezentas tre bizarajn frazojn, kiuj nur tre malfacile estas tradukeblaj eĉ por profesiaj tradukistoj. Mi estas certa, ke per similaj argumentoj oni povus ankaŭ pruvi, ke tradukado ĝenerale ne estas ebla. Sed la temo de komputila lingvistiko ne mortis kaj eĉ lastatempe bone progresas. Kvankam ne ekzistas perfektaj tradukaj programoj, la unuopaj eroj de komputila lingvistiko aperas pli kaj pli ofte. Preskaŭ ĉiu uzas nun literumadon en redaktiloj kaj komputilajn vortarojn. Ankaŭ „google“ estas ja infano de komputila lingvistiko.

Kial fiaskis tiom da projektoj pri maŝina tradukado?

Oni povus ĝenerale diri, ke komputilaj projektoj tre ofte fiaskas. La duono de projektoj neniam finiĝas kaj 75% de projektoj ne atingas la celojn. Ili estas pli multekostaj aŭ ne havas la necesajn planitajn funkciojn. La temo de maŝina tradukado havas aldonojn specialajn trajtojn, kiuj eĉ faras tiujn projektojn eĉ pli malfacilajn kaj pli riskajn. Tio estas:

  • Oni havas tre altajn atendojn. Oni volas programojn, kiuj regas multajn lingvojn, tradukas en reala tempo en multaj direktoj kaj povas kompreni diritajn vortojn kaj mem paroli.
  • Oni bezonas multajn specialistojn de diversaj kampoj
  • La baza lingvistika teorio, kiu estas praktike taŭga, ne ekzistis. La historiaj teorioj ne estis taŭgaj por multaj kazoj.
  • Lingvistikaj programaj postulas grandajn necesojn al komputiloj. Ĝis 1980 komputiloj ne estas taŭgaj por lingvistiko, ĉar ili ne havis necesan rapidecon kaj memoron. La haveblaj komputiloj en frua tempo estis tro multekostaj. Oni pripensu, ke eĉ baza vortaro havas 50000 vortojn. Prilabori, traserĉi aŭ redakti tiun kvanton de informoj estas por tiamaj komputiloj tre malfacila tasko.
  • La projektoj preskaŭ ĉiam komencis de nulo. Lingvistoj nenion sciis pri komputiloj, programistoj nenion sciis pri lingvistiko. Oni devus skribi programojn kaj solvi bazajn teknikajn defiojn. Lingvistoj devis krei taŭgajn teoriojn.
  • Ĉiu profesia projekto havas nur limigitan kvanton da rimedoj. La unua limo estas tempo. Oni devas havi rezultojn post unu aŭ du jaroj. Post tiu tempo la membroj de projekto komencas iom komprenis pri la temo de projekto.
  • Tiuj projektoj estis tro grandaj. Organizado de grandaj projektoj estas eĉ pli komplika ol la temo de projektoj. La respondeculoj ofte pensas, ke ĉiu problemo estas solvebla per aldonaj partoprenantoj de projekto. Konata programista anekdoto diras, ke laŭ tiu pensmaniero oni povus konstati: Por havi unu novan homon oni necesus unu virinon kaj 9 monatojn da tempo. Oni povus duonigi la tempon havante du virinojn.
  • Ne ekzistis komputilaj materialoj, kiujn oni povis uzi de komenco.

Mi pensas, ke la unua problemo estas, ke la projektoj volis sole atingi ĉion. Oni ne provis dividi la taskon en multaj kampoj. Kvankam projektoj fiaskas, ili ofte lasas multajn rezultojn aŭ eĉ solvojn de unuopaj problemoj. Sed por monaj kaŭzoj estas ofte maleble transdoni tiujn rezultojn al sekvaj projektoj. Do multaj rezultoj malaperas en arkivoj por ĉiam. La projektoj malaperas, kvazaŭ ili neniam estis. En plej bona kazo restas de tiuj projektoj malgranda raporto aŭ scienca laboraĵo, sed vortaroj aŭ programa kodo, ĉio ĉi malaperas por ĉiam.

La unuaj projektoj estis pagitaj de militaj fortoj, ĉar ili bezonis maŝinan tradukadon por spionado de aliaj landoj. Tial la rezultoj de tiuj projektoj estis ŝtataj sekretoj. En universitatoj, kiuj ankaŭ havis lingvistikajn projektojn, oni uzis por projektoj studentojn, kiuj ne estas bonaj spertaj programistoj kaj ofte forlasis la projekton post unu aŭ du jaroj. Tio estas tro mallonga periodo por efike produkti uzeblajn rezultojn. Komercaj projektoj fiaskis miaopinie precipe por kazo de mallonga tempo. Komercistoj pensas precipe nur en unujaraj periodoj de librotenado. Ĝis nun preskaŭ ne ekzistas merkato por partoj de solvoj de komputiko. Tiu kampo de komerca programado laboras laŭ maniero ĉio aŭ nenio. Ĉu iu memoras pri sistemoj kiel Amiga OS, OS/2 aŭ diversaj aliaj programoj, kiuj por ĉiam malaperis, kvankam ĝi rulis bone kaj estis uzeblaj. Ĝis antaŭ mallonga tempo ŝajnis, ke en tiu komerca kampo povas esti nur unu gajninto. Tio estas aŭ IBM aŭ MS. Sed nun ekzistas alia komputila mondo de liberaj programoj. Do estas eble ruli la tutan sistemon nur per libera programaro.

Lingvistikaj projektoj. Ĉu problemo de interkomunikado?

Programistoj kaj lingvistoj devenas el tute aliaj kampoj de scienco. Ili havis alian manieron solvi la problemojn. Mi pensas, ke malbona kunlaboro inter lingvistoj kaj programistoj estas ankaŭ granda kaŭzo de malsukcesoj. Programistoj devenas de scienca kampo de matematiko. Ili serĉis laŭ matematika maniero la mallongan precizan formulon, kiu estas vera por ĉiu kazo. La akademia teorio de lingvistiko estas plena da logikaj formuloj, kiuj preskaŭ malestas en praktika uzo. La naturajn lingvojn oni ne povas priskribi per simplaj formuloj.

En komputilaj projektoj oni kutime havas du grupojn de homoj. La unua grupo estas tiel nomataj teknikaj fakuloj. Tio estas programistoj. Alia grupo estas fakaj specialistoj, kiuj scias iom pri temo de projekto. La sukceso de projekto dependas ofte de ebleco de lernado de du grupoj unu de alia. Programistoj devas lerni de fakuloj kaj fakuloj devas lerni de programistoj.

Lingvistoj devenas de humanecaj sciencoj, simile al filozofio aŭ literaturo. Por ili lingvo estis historie io sakra, io magia, io, kion oni ne nepre devas logike kompreni. Lingvistoj pritraktas lingvojn kun preskaŭ religia maniero. Ili akceptas misterojn kaj nelogikajn esprimojn. Ili ne pruvas. Ili ŝategas debati pri kuriozaĵoj. La argumento de aŭtoritato estas pli grava ol logika pruvo. Lingvistikaj teorioj estis do frue tute maltaŭgaj por programistoj, kiuj devas ja liveri pragmatikajn kaj praktikajn rezultojn. Mi pensas, ke nova generacio de lingvistoj iom post iom lernas uzi sciencajn metodojn en lingvistiko. Ili uzas statistikon, pruvas la rezultojn sur grandaj tekstaroj. Ili lernis ordigi la teorion laŭ ofteco de uzebleco. Kuriozaĵoj ne plu rolas gravan rolon en teorioj. Ili eĉ lernis uzi la komputilon kaj permesas al la aliaj tuŝi ilian sakran lingvon.

Sed ankaŭ la sinteno de programistoj kun rigida matematika fundo estas malutila por lingvistikaj projektoj. Bonan priskribon de takso de programado donas al ni Kulturaj aspektoj de komputil-programado. Programistoj atendis de natura lingvo similajn trajtojn, kiel ili tion konas de programaj lingvoj. Pritrakti naturajn lingvojn estas unue la arto administri esceptojn. Tial oni ne povas atenti iun formulon, kiu priskribas ĉiujn fenomenojn de lingvo.

La kutimaj problemoj, kiujn frontas programistoj, estas ankaŭ aliaj ol tiuj de lingvistiko. Kutime rezultoj de programoj devas esti tre certaj. Oni pripensu komputilaj sistemoj, kiuj de multaj jaroj laboras en bankoj aŭ en komerco. Komputiloj regulas multajn sistemojn. Ili konservas grandajn datumojn. Ili devas esti sekuraj kaj certaj. En lingvistiko, la problemoj estas ofte ne certaj. La problemoj havas statistikan naturon. En komputiko, ĉiu esprimo estas aŭ vera aŭ malvera. Naturaj lingvoj ne havas tiujn trajtojn. Tial lingvistikaj programoj devas prilabori datojn, kiuj enhavas erarojn, kiuj ne estas tute analizeblaj. Rezultojn de maŝina tradukado oni nur malfacile povas pritaksi, ĉar eĉ tradukoj de homoj estas diskuteblaj. Ne ekzistas objektiva mezuro de kvalito de tradukado.

Natura lingvo sekvas la statistikajn principojn de naturaj fenomenoj. Ekzemple oni povas kun 10 simplaj reguloj bone priskribi 80% de tekstojn, por restajn 10% oni bezonus 20 regulojn, kaj por lastaj 10% de tekstoj oni bezonus tute alian teorion kaj por multaj homoj tiuj frazoj estus diskutindaj rilate al ilia korekteco. Tiu fenomeno estas konata sur la nomo principo de Pareto

Komputila lingvistiko en nuna Stato

Lingvistoj kaj programistoj multe lernis de fruaj malsukcesoj. La nunaj sciencaj laboraĵoj havas altan praktikan taŭgecon. Ekzistas sukcesaj projektoj, kiuj pritraktas nur unu limigitan kampon de lingvistiko. Aliaj projektoj povas uzi la rezulton de aliaj projektoj. Por tio pli grava estas ankaŭ la libera programado, kiu sen monaj komplikaĵoj permesas uzi fruajn rezultojn de aliaj projektoj. La GPL permesilo garantias, ke la laboro de homoj iĝas parto de homa heredaĵo kaj ne malaperas en iu tirkesto. Tiu laboro ne povas esti ankaŭ misuzata de komercaj firmaoj. Sed ĉiam ekzistas danĝero, ke grandaj komercaj fortoj, kiuj por iĝi pli granda uzas iliajn plej danĝeraj armilojn, tio estas advokatoj, por malpermesi al aliaj ian aktivadon kaj pensadon. La plej malnobla kaj malverplena ilo en monoj de advokatoj estas softvaraj patentoj.

Malkontentiga estas ankaŭ komercigo de universitataj projektoj. Kvankam multaj universitataj projektoj estas financitaj de publika mono, kiu devenas ja de niaj impostoj, la rezultoj de tiuj esploroj ne estas libere atingeblaj. Do por angla lingvo ekzistas la libera semantika mapo de vortoj WordNet, sed la simila projekto por eŭropaj lingvoj EuroNet estas atingebla nur je granda prezo. Multaj universitatoj kunlaboras en tiu kampo kaj interŝanĝas la rezultojn de iliaj esploroj senpage, sed tio ja signifus, ke nur universitatoj rajtas esplori science laŭ sciencaj principoj, laŭ kiuj ja la scienca kono estas publika bono. Fine tiu komercigita scienco helpus al neniu kaj rezultoj, kiuj ne estas atingeblaj en vero ne ekzistas.

Kompreno de aŭtoraj rajtoj ĉe lingvistikaj fontoj povus esti malfacila problemo por komputila lingvistiko. Ĝenerale lingvo ne apartenas al iu speciala ulo. Zamenhofo ankaŭ igis Esperanton publika bono kaj li rezignis pri aŭtoraj rajtoj de Esperanto. Sed tio ne estas certa afero ĉe vortaroj. Vortaro estas unue la propraĵo de eldonejo. Ĉu vorto, kiu aperas en vortaro iĝas aŭtomate propraĵo de eldonejo. Ĉu iu frazo, aŭ iu speciala uzo de vorto estas propraĵo de aŭtoro de tiu frazo. Por eviti tiujn problemojn mi nur uzas liberajn fontojn kiel REVO ĉe mia programado. Povus esti, ke aliaj fontoj estas pli bonaj, sed uzo de tiuj fontoj estas malrekomendinda. Ni pripensu do la situacion. Mi korektis la internan vortaron en programo laŭ priskribo de profesia vortaro en tradicia libra formo, kiun mi aĉetis je normala prezo. Ĉe unu vorto tio ja ne estas problemo, sed se mi tion faris ĉe 100 aŭ 1000 vortoj, mi povas havi problemojn, ĉar iu povas akuzi min, ke mi ŝtelis la parton de vortaro. Tiu povos esti tre granda problemo ĉe Esperanto, ĉar tiu lingvo estas nova kaj konstruita, kontraŭe al naciaj lingvoj oni povus trovi la kreinto de iu vorto, frazo kaj speciala gramatika uzo. Mi esperas, ke mi ne havos tiun problemon, ĉar nek la programo nek Esperanto iĝos tiel popularaj, ke iuj komercistoj havos interesojn financi advokatojn por malkonstrui tiun projekton. Eble pro normalaj uloj tio ĝenerale ŝajnas tre malebla afero, sed tio bedaŭrinde ofte okazas ĉe programado.

Ekestis tamen pozitivaj aferoj. Multaj komercaj firmaoj publikigas la rezultojn de ilia laboro laŭ GPL permesilo. Ekzemple tre konata programlingvo JAVA iĝis lastatempe la parto de libera programaro. Memkompreneble, la firmaoj faras tion en situacio, kiam ili ne povas venki la komercan konkuranton kaj per tiu paŝo, ili volas minimume malfortigi la konkuranton. Sed firmaoj ankaŭ rimarkis, ke malfermo de projektoj pozitive influas la projektojn kaj tamen lasas al ili la eblojn perlabori monon per aldonaj servoj. Ankaŭ granda lingvistika projekto Open Logos iĝis malferma. Tio estas tre kontentiga afero, ĉar fontoj, kiuj unue iĝas parto de libera programado ne povas esti enproprigitaj de iu, do ili fariĝas la parto de homeca heredo.

Nun ekzistas multaj fontoj en interreto, de kiu oni povas elĉerpi la scion pri lingvistiko. Okulfrape estas, ke precipe nur pro angla lingvo ekzistas kompleta oferto de solvoj. Malfeliĉe angla lingvo estas la lingvo, kiu apartenas de komputila vidpunkto al la plej malfacila lingvo por komputila pritraktado. Tial la progreso estas tre malrapida. Tre kontentiga por mi estas la fakto, ke ankaŭ por pola kaj germana lingvo aperas bonaj fontoj. (pola gramatiko, Germana vortaro de sinonimoj) Ili estas ofte publikigaj de hobiuloj, sed kun bona kvalito.

Por grandaj lingvoj oni nun povus konstrui fortan sistemon de partoj, kiuj nun ekzistas. Programistoj scias, ke intergluo de moduloj, kiuj uzas diferencajn komputilajn teknikojn estas ofte tre malfacila tasko. Tial oni ne atendu rapidan progreson.
En komerca kampo ekzistas firmaoj, kiuj sukcesas vendi lingvistajn programojn al profesiaj tradukistoj je granda prezo. Kvankam profesiaj tradukistoj estas ofte plej grandaj kritikistoj de ideo de maŝina tradukado, ili mem ofte uzas tiujn programojn. Mi miras, ke ĝis nun oni pagas por tradukoj je tradukita vorto, kvankam ofte por kutimaj dokumentoj, la tradukistoj havas ja ŝablonojn kun preta tradukado sur iliaj komputiloj kaj ĉe „tradukado“ ili devas enskribi nur kelkajn nomojn kaj datojn. La profesia tradukado de oficialaj dokumentoj estas fabriko de mono, kaj tiuj homoj faros ĉion por longe havi tiun fonton de facila mono.

Oni ne esperu, ke profesiaj programoj aperas iam por Esperanto. Ne ekzistas oficialaj dokumentoj en Esperanto, kiujn oni devus traduki, do la neceso de tiuj programoj preskaŭ ne ekzistas. Nun nur kelkaj grandaj lingvoj estas entute pritraktataj de tiuj programoj.

Esperanto en komputila lingvistiko

Oni ofte parolas en Esperantujo pri taŭgeco de Esperanto por lingvistika komputiko. Tamen la rezultoj estas mizeraj. La principa kaŭzo de tio estas, ke projektoj, kiuj estas pagitaj de naciaj fontoj, ne volas subteni ne nacian lingvon. Esperanto povis ja ŝteliri en tiujn projektojn kiel interlingvo, sed verdire Esperanto ne estas el teknika vidpunkto bona interlingvo (legu). Mi ne pensas, ke tio ofte reokazos en la venonta tempo. Sed ekzistas projektoj en alia direkto, kiuj estas subtenataj de esperantista medio. Por mi la gravaj projektoj estas REVO, Tekstaro kaj PMEG. Esperanta vikipedio estas ankaŭ grava. Oni devas konstati, ke Esperanto konkurencas kun aliaj lingvoj en tiu kampo. Se oni komencas lingvistikan projekton, oni pritraktas, kiuj fontoj kaj solvoj estas nun uzeblaj kaj pretaj. En la unua flanko Esperanto promesas esti pli facila, en la dua flanko aliaj lingvoj (principe angla lingvo) havas pli da pretaj solvoj kaj fontoj. Mi pensas, ke ankaŭ en tiu kampo Esperanto jam malvenkis kun angla lingvo. Unue nun ĉiu programisto konas jam anglan lingvon, ĉar sen angla lingvo si ne sukcesis iĝi programisto. Due, kiu volas lerni novan kaj malofte uzatan lingvon de malgranda grupo por eksperimenti kun ĝi? Oni faras tion nur pro hobia intereso aŭ por lernado. La facileco de Esperanto ne povas konkeri la vastan aperon de angla lingvo en komputila lingvistiko. Mi pensas, ke nun la unua ŝanco per ia estado de Esperanto en komputila lingvistiko estas hobiaj projektoj kaj libera programado. En tiu situacio estas grave, ke ĉiuj fontoj estas publikigitaj laŭ libera permesilo.

Libera programado kaj komputila lingvistiko

Libera programado havis kelkajn sukcesojn en sia historio. La plej granda sukceso estas la libera mastruma sistemo linukso. Nun estas eble uzi komputilon, kiu rulas nur liberajn programojn. Tiuj programoj estas eĉ tiel grande sukcesaj, ke komercaj firmaoj, interesiĝas pri tiuj projektoj, kaj ne programistoj uzas tiujn programojn. Ĝis nun liberaj programoj estas skribitaj plejofte de programistoj por programistoj. Ili programis mastrumajn sistemojn, redaktilojn, programajn ilojn por sia ĉiutaga laboro. La natura lingvo estas por programistoj ne tre interesa. Tamen restas iama revo de fruaj programistoj programi komputilon, kiu pensas kaj kiu tradukas.

La defio de maŝina tradukado estas do interesa kaj konata por programistoj. Ĝis nun aperis jam kelkaj projektoj, kiuj aŭ rapide mortis aŭ ne estas aktive pluevoluigita (Traduki, Linguaphile, Translato). Tio estas normala afero. Plej ofte programistoj ne estas pretaj sole kaj por longa tempo prilabori unu temon. Ĉar ekestas tre multa kvanto de liberaj projektoj, oni nur tre malfacile povas trovi uzantojn kaj helpantojn. Ŝanco, ke iu projekto travivos la tempon de intereso de la unua aŭtoro estas tre malgranda. Komputilaj projektoj bezonas kutime kelkajn jarojn de maturiĝo. Tiu longa tempo estas necesa ĵus por lingvistikaj projektoj, ĉar en tiu tempo oni devas lerni vastan teorion. La maturiĝoestas ankaŭ necesa post reagoj de uzantoj. Estas tre malfacila afero programi programon, kiu estas facile uzebla. Por programistoj, iliaj propraj programoj estas ĉiam facilaj, tial ili nur malfacile rimarkas malfacilaĵojn pri uzebleco de programoj.

Projekto „Esperantilo“

Kiam mi komencis programi la unuajn liniojn de kodo por Esperantilo, mi neniam pensis, ke post du jaroj mi programos maŝinan tradukadon kaj pensos pri sintaksa analizo. Mi volis nur havi simplan redaktilon por vindozo kaj linukso, per kiu sen peniga instalado oni povas skribi tiujn strangajn esperantajn literojn. Poste mi pensis pri literumado kaj gramatika korektado, ĉar mi ĉiam forgesis la akuzativon. Mi skribis la programon unue por mi mem. Poste mi legis multe pri maŝina tradukado kaj ĝenerale pri komputila lingvistiko. Mi rimarkis, ke aŭtoroj ne estis bonaj programistoj, kaj ke ili tute ne konas novajn teknikojn de programado. En tiama tempo mi okupiĝis pri nova programa lingvo XOTcl kaj programada medio XOTclIDE, kiun mi antaŭe mem programis. Mi serĉis temon por pruvi la taŭgecon de tiu lingvo kaj programa medio. En miaj fruaj spertoj mi rimarkis, ke tiu programa lingvo permesas al mi pli efikan programadon. Mi ankaŭ trovis en interreto kelkajn materialojn pri Esperanto. Esperanton mi lernis frue tute hazarde de mia kolego kaj mi eĉ partoprenis la lokan kurson en urbo Essen. Mi ne iĝis membro de iu esperanta asocio. Mi trovis tre viglan REVO, MPEG kaj Tekstaron. Do mi ne devis komenci de nulo. Mi havis fontojn, kiujn mi povis uzi. Mi ankaŭ informis min pri similaj projektoj kaj ofte traserĉis la reton. Mi ne havas grandajn celojn kaj planojn, sed mi provis aldoni novajn funkciojn, kaj se ili funkcias, mi programas plu. Ĉar mi sciis, ke la risko, ke mi ne sukcesos, estas tre granda, mi de komenco elektis kelkajn strategiojn por malaltigi tiun riskon.

Mia programa metodo estas grande influata de tiel nomata Extrame Programming, kiun mi konis de programlingvo Smalltalk. La programa medio ebligas tiel nomatan interaktivan programadon. Laŭ tiu metodo oni povas ŝanĝi programon, kiu samtempe rulas. Tio estas tre helpema ĉe lingvistikaj programoj kaj tio instigas al eksperimentoj. Unue mi limigis la plej forajn celojn al tiuj, kiuj mi mem povas iam atingi. Do mi volis elpensi novan lingvon aŭ konstrui tute novan teknikon. Due mi difinis por mi kelkajn strategiojn:

  • La programo celas nur traduki de Esperanto kaj prilabori nur Esperantan lingvon.
  • La celaj lingvoj estas lingvoj, kiujn mi mem konas.
  • Mi ne kalkulas je helpo de aliaj je moto: „mi komencis ion kaj la aliaj tion finigis“.
  • Mi uzas jam konatajn teknikojn kaj teoriojn. Ĉar mi ne estas lingvisto mi ne volas eklabori novan sciencajn teoriojn.
  • Se tio estas ebla, mi uzas pretajn liberajn solvojn. Mi koncentriĝis pri specialaj esperantaj temoj, ĉar estas ne verŝajne, ke aliaj tiun faris.
  • La programo ĉiam devus esti uzebla por iu takso kaj liveri rezultojn. Poste la celo estas plibonigi la rezultojn. Mi celas evoluan progreson. Mi ne volis, ke la programo estas uzebla nur post kelkaj jaroj.
  • Mi publikiĝas samtempe ĉiujn rezultojn: vortarojn, fontan kodon, testajn frazojn.
  • Mi unue faras taskojn, kiujn nur mi mem povas fari. Do mi programas, sed mi uzas pretajn vortarojn. Mi mem ne kompletiĝas la vortarojn, ĉar tio povas fari poste aliaj. Mi plibonigas la vortarojn nur ĉe evidentaj eraroj.
  • Mi serĉas la dialogon kun uzantoj laŭ la maniero de libera programado.
  • Mi ne kunligas kun la programo iujn komercajn planojn kaj mi evitas ligojn kun komercaj medioj.

Esperantilo estas eksperimento, la programado povus ĉiam finiĝi, ekzemple ĉar mi ne vidus ŝancojn por plua evoluo aŭ mi ne plu ĝojus la programadon. Tial mi volas sekurigi la rezultojn de tiu projekto. Mi publikigas ĉiujn fontojn kaj vortarojn. Sekvaj projektoj povus tiujn fontojn uzi. Mi ankaŭ skribas tiun blogon por dokumenti la laboron. Ankaŭ, se la projekto estas hobia kaj malperfekta, ĝi povas esti fonto por kritiko kaj por komparo kun sekvaj projektoj.

Homoj sugestis al mi, ke tiu projekto estas tro ambicia, por hobia projekto de unu homo. Jes, mi certe tute same pritraktis tiun projekton frue, se iu donis al mi la planon programi ĝin. Sed nun mi jam pruvis por mi mem, ke estas eble pli ol mi tion pensis frue. Certe tio ne estas pruvo, ke la projekto progresas en simila tempo poste. En tiu projekto oni do ne pritaksu planojn sed faktojn. Kaj faktoj ne povas esti ambiciaj, ili estas veraj aŭ malveraj. Mi skribas tion, ĉar mi spertas, ke ofte eĉ uzantoj, kiuj iomete uzis la programon, ne raportas erarojn, ĉar ili pensas, ke la projekto ne havas ŝancon de pluevoluo.

Mi ankaŭ ne estas naiva programisto pri libera programado, ĉar mi havas longan sperton en tiu medio. Fakto estas, ke plej granda parto de projektoj vivas de unu persono, do mi devas fari ĉion sole. Programistoj, kiuj ĵus skribis kelkajn liniojn kaj poste varbas por aliaj programistojn devas seniluziigi, se ili esperas je granda helpo. La motivoj de programistoj de libera programado estas diferencaj, pura helpemo estas tre malofta. Oni certe ne povas kalkuli je helpemo de profesiuloj, ĉar ili vivtenas sin per ilia profesieco. Ankaŭ oni ne kalkulu je preciza kritiko, tio ankaŭ estus ja ia helpo.

En tiu tempo mi ankaŭ lernis multon kaj devis adapti miajn fruajn atendojn. Unue mi devis konstati, ke Esperanto estas natura lingvo kaj ne tre diferenca de aliaj naturaj lingvoj. Ekzistas kampoj en Esperanto, kiuj estas same komplikaj kiel en aliaj lingvoj. Do la facileco de Esperanto estas nur limigita en ceteraj kampoj.
Due mi rimarkis, ke la teorio de Esperanto ne estas fiksa. Ekzistas multaj diferencaj teorioj pri tiu lingvo kaj estas malfacile trovi klarajn respondojn pri detaloj. Ankaŭ la fontoj, kiuj estas atingeblaj en TTT, ne estas kompletaj.
Mi devis do ofte prilabori bazajn fontojn kiel vortaroj. Ĉar Esperanto estas tre nova lingvo kaj forte evoluas, ne ekzistas fiksa maniero de ĝia uzo. Esperantistoj ofte imitas sian gepatran lingvon. Tial la sintaksa analizo estas granda defio. La tre efika vortfarado en Esperanto malfaciligas samgrade la maŝinan tradukadon. Multaj statistikaj teknikoj de maŝina tradukado ne aplikebla por Esperanto, ĉar en tiu lingvo mankas sufiĉe grandaj paralelaj tekstoj (Tekstoj en du aŭ pluraj lingvoj). Sed tio estas ja normala prezo de naiva kaj hobia komenco.

La reagoj de uzantoj kaŭzas ofte pli da labore ol helpo. Sed ili estas necesaj kaj mi ĉiam respondas je leteroj de uzantoj kaj interesantoj. Mi ĝojas ĉiam pri la reagoj kaj mi povas diri, ke ĉiu, kiu skribas al mi, partoprenas en la projekto. Tiu blogo estas ankaŭ por mi la ilo por malplialtigi la laboron kun reagoj de uzantoj. Mi povos ja nun ofte respondi: Bonvolu legi la blogon kun numero tiu kaj tiu. Mia espero estas ankaŭ, ke aliaj programistoj malkaŝas por si mem, ke komputila lingvistiko ne estas tial senespere komplika kampo, kiel oni tion edukas.

31.12.2006

Pola kaj esperanta vortfarado

Filed under: lingvistiko,pola lingvo — artur @ 13:51

En la kristnaska periodo mi legis la gramatikan libron, kiun mi iam aĉetis en polando „Zarys Gramatyki Polskiej“ de Alicka Nagórko. Tre interesa estis por mi la ĉapitro pri pola vortvarado. Mi esperis, ke mi povus kompletigi la polan-esperantan vortaron aŭtomate. La baza ideo estus konstrui la derivon de pola radiko por konata esperanta vorto laŭ pola vortfarado. Fine la programo testas, ĉu tiu arte farita vorto vere ekzistas en pola lingvo per simpla literumado. Mi tion jam faris por derivi adverbojn de adjektivoj, kiuj normale ne aperas en polaj vortaroj.

  • rapida – rapide
  • szybki – szybko

En pli ampleksaj kazoj mi povus eĉ simuli en maŝina tradukado spontanan vortvaradon. Tie temas pri vortoj, kiu normale ne ekzistas en vortaro, ofte emocia vortfarado: „domaĉo, fiprogrami, monaĉo“. Mi suspektas, ke aŭtomata vortfarado por sufiksoj: „adi, isto, ejo, ino, ero, ulo“ aŭ adjektivigo aŭ substantivigo estas principe ebla. Per tiu libro mi ankaŭ lernis iomete pri interesaj principoj de pola vortfarado, kiu eble ankaŭ validas por esperanta vortfarado. Kelkaj interesaj principoj:

  • La unua fonto de vortfarado estas enpropriĝo (pole: „Asymilation“ ) de fremdaj vortoj.
  • Ofta konstuoprincipo estas mensa asociacio.
  • Per unuigo (pole: „Unifikacja“). Partoj de vortgrupo estas forigitaj
  • Konstruo per vortoripedado

Tiu principoj kondukas ofte al nelogikaj aŭ tempaj vortfaradoj, kiuj ne povas esti logike komprenataj. Mi trovis tiujn vortfaradojn en Esperanto lingvo.

  • Enpropiĝo: vorto „partopreni“ estas enpropiĝo de germana „teilnehmen“ aŭ pola „brać udział“. La vorto ne estas logika, ĉar kiun parton oni prenas ĉe tiu ago.
  • Per unuigo. Forigo de vortoj. En pola lingvo la ĉeno „telefon komurkowy“ – „komurkowiec“ – „komórka“. En esperanta lingvo: „komputila muŝo“ – „muŝo“.
  • Asociacio: krokodili, kabei
  • Ripetado: finfine (schlussendlich), treege, unusola

Tiu vortfarado estas ofte tre kritikita de esperantaj puristoj, ĉar la lingvo iĝas per tio pli natura ol neŭtrala.Interesa en pola lingvo estas vortfarado por socia dialekto aŭ emocia vortfarado. Ofte oni uzas la eblojn de pola lingvo ŝanĝi certajn literojn en radiko. (ekz: s-ch)

  • cigaredaĉoj – papierochy; cigaredoj – popierosy
  • monaĉo – pieniąchy, mono – pieniądze

Poloj tre volonte uzas vortfaradon por esprimi emociojn, humoron aŭ ceteran asociacion

  • poseł – poślica
  • kundel – kundlyzm
  • bicie mordy – mordobijnia
  • kolega – koleś – kolesiówa

Tre potenca estas ankaŭ la pola sufikso „owy“, kiu signifas nur „havas rilaton kun“. Tio sufikso estas uzate ofte samtempe ĉe la proceso de unuigo („Unifikacja“).

  • szkoła podstawowa – podstawówka
  • karta obiegowa – obiegówka
  • klasa przedszkolna – zerówka

Tiu vortoj povas havi aliajn signifojn por aliaj grupoj kaj fakoj. Mi tion observis en esperanto, ke vortoj kiel:

  • reto – TTT (enpropriĝo de angla asociacio „net“)
  • retejo – TTT-ejo
  • retumi – traserĉi la TTT-aron

Kiam oni iam komencis la vortfaradan lavangon, la proceso iĝas for de logika kontrolo. Estas interese, ke la (Sonja’s English-Esperanto Dictionary) vortaro malsugestas la uzadon ne vorto „retejo“.

En Esperanto la similan rolon de pola „owy“ havas la sufikso „um“. Kaj tiu sufikso estas tre volonte uzate de esperanta junularo por krei propra socia dialekto:

  • bierumi
  • kongresumi

En pola lingvo sufiksoj, kvankam tre riĉaj, ne havas fiksan signifon. „arz“ povas signifi profesion, ilon aŭ eĉ aĵon. Mi supozas, ke la plej radika signifo de vorto (radiko) havas influon je eblaj derivoj.

Kion mi povas konstati post tiu legado.

  • Vortfarado tre malofte estas proceso de logika derivo. Kaj tio validas ankaŭ por Esperanto. Novaj vortoj ne devas esti logikaj sed devas esti allogaj por uzantoj (eble angle „sexy“)
  • Spontana vortfarado estos eble la plej granda problemo de maŝina tradukado.
  • Esperanton enfluas eble pluraj sentoj de vortfarado.
  • Ofte en la libro oni legas. Tiu aŭ tiu kampo bezonas pli vastan esploron. Kompletan sciencan bazon de pola vortfarado oni eble devas longe atendi.
  • Mi havas nun kelkajn ideojn de eksperimentoj kun pola vortfarado en Esperantilo

21.12.2006

Kiel komputilo tradukas?

Filed under: lingvistiko,maŝina tradukado — artur @ 19:10

Mi bezonis preskaŭ unu jaron por lerni la bazon pri komputila lingvistiko. Mia unua libro estas „Computerlinguistik und Sprachtechnologie. Eine Einführung“ de „Kai-Uwe Carstensen, Christian Ebert, Cornelia Endriss, Susanne Jekat, Ralf Klabunde“. Kvankam la libro havas 650 paĝojn mi rapide rimarkis, ke ĝi nur tuŝas temojn, kiuj min interesis. Poste mi ofte traserĉis la reton je informoj pri komputila lingvistiko. Oni nur tre malfacile trovas ion, kiu ne nur tuŝas la temon. Tre helpa estis por mi la Internet Grammar of English, kiu tre klare kaj sisteme priskribas la sintaksan analizon. Pri teknikaj eroj mi plej profunde legis en dokumentaro de sistemo Natural Language Toolkit.

Nun mi decidis ne plu aktive disvolvi la programon, sed nur forigi la erarojn kaj dokumenti la sistemon. Restas ankaŭ kelkaj funkcioj, kiujn mi volas programi, sed en tute la sistemo ne ŝanĝiĝos. Unue mi decidis prepari mallongan prezenton, kiu povus komprenigi ankaŭ al ne programistoj, kiel Esperantilo tradukas. Mi preparas nun la teknikajn priskribojn de programo kaj enmetas komentojn en la fontoprogramo.

Mi preparis la prezenton per programo „Impress“ de OpenOffice. Mi provis uzi multajn bildojn, kaj prezenti la bazan teknikon de programo.

6.12.2006

Ordo de frazpartoj en pola lingvo

Filed under: pola lingvo — artur @ 21:49

Simile al Esperanto ordo de frazpartoj en Pola lingvo ne estas strikte difinita. Ĉiuj subaj frazoj estas gramatike korektaj.

  • Frato amas fratinon. Brat kocha siostrę.
  • Fratinon amas frato. Siostrę kocha brat.
  • Frato fratinon amas. Brat siostrę kocha .

Sed tio ne signifas, ke la ordo estas en pola lingvo tute sensignifa. Ŝajnas, ke ekzistas kutima ordo, kaj ordo, kiu per pozicio de iu elemento, emfazas ion. Kiam mi aŭtomate tradukis frazojn de Esperanto al pola lingvo, la programo ne ŝanĝis la ordon de frazpartoj. Tio rezultigis malofte nekutiman tradukon al pola lingvo. La kutima ordo de Esperanto diferencas do de kutima pola ordo.

Kelkaj ekzemploj:

  • Kio estas tio. Co jest to? (kutime) Co to jest? (Kio tio estas)
  • Patro konas lin. Ojciec zna go. (kutime) Ojciec go zna (Patro lin konas.
  • Frato ofte lavis sin. Brat często mył się. (kutime) Brat często się mył. (Frato ofte sin lavis)

En Esperanto la kutima ordo estas Subjekto+Verbo+Objekto. Inter tiuj ĉefaj elementoj povas esti enmetitaj aliajn adjektojn.

  • Mi ofte programas vespere.
  • En la lasta jaro li finigis sian laboron.

En pola lingvo tiu ordo ankaŭ estas la kutima, sed ŝajnas, ke ekzistas kelkaj aliaj aldonaj reguloj. Mi povis rimarki sekvajn regulojn.

  • En pola lingvoo oni evitas personajn pronomojn kaj tablovortojn en la fino de frazo.
  • Oni ankaŭ evitas refleksivan pronomon „się“ („sin“) en la fino de frazo.
  • Ĉe demandoj verboj ofte okupas la lastan lokon.

Subjektiva frazparto

En pola lingvo ambaŭ variantoj de priskribo de substantivo per adjektivo estas kutimaj

  • fama libro – słynna książka
  • libro fama – książka słynna

Sed ekzistas malgranda diferenco inter tiuj du ebloj. La modelo „Subjekto+Adjektivo“ estas uzata plej ofte, kiam la esprimo difinas konkretan klason de aĵoj.

  • sistemo komputila – system komputerowy
  • libro scienca – książka naukowa

Tio okazas plej ofte, kiam la adjektivo devenas de substantivo. Adjektivigo de substantivoj estas en pola lingvo tre kutima. En esperantilo adjektivoj, kiuJ devas stari post la substantivo estas speciale markitaj en vortaro per priskribo „def“ en kampo „gramatiko“ de adjektivo. Interese, ke en Esperanto ne ekzistas ĝis nun tiu kutimo.

En germana liNgvo la adjektivigo de substantivoj ne estas ĉiam ebla. Ni havas do:

  • sistemo komputila – Komputersystem
  • libro scienca – wissenschaftliches Buch

En la vortaro de Esperantilo por vorto „komputila“ ekzistas traduko „Komputer~“. Tio signifas, ke oni povas uzi
nur vortfaradon ĉe tiu vorto.

Nekutima ordo en pola lingvo

Per ne kutima ordo en pola lingvo oni ofte volas fabriki iun specifan stilon. Ofte per nekutima ordo oni simulas maljunan polan lingvon (Ekzemple tiu de romanoj de Sienkiewicz).

  • Nieszczęście by chyba waćpanu taka służba przynieść mogła.
  • Od dwóch już miesięcy Zaporożcy saletry mi nie puszczają, którą od Czarnego Morza przywozić trzeba.

Mi pensas ankaŭ pri filmo „milito de astroj“ kaj la parolmanieron de majstro „joda“ (Yoda). Priskribon de ordo de frazpartoj oni vane serĉas en polaj gramatikaj libroj. Mi ofte povis trovi nur rimarkon, ke la ordo estas libera. Tio estas tute alia por lingvoj kun tre rigida ordo kiel angla lingvo. Ĝenerale oni povas trovi en la reto nur malmultajn informojn pri pola lingvo. La plej bona retejo, kiun mi trovis, estas farita de hobiulo. Gramatyka języka polskiego.

En tiu kazo la pola lingvistiko ne liveras necesajn informojn por praktika aplikado en komputila lingvistiko. Mi rimarkis, ke nur por tiel nomataj grandaj lingvoj onI trovas en la reto sufiĉajn informojn. Kvankam pola lingvo ne estas tiel malgranda, la kvanto de informoj pri pola lingvo estas tre malgranda kompare al germana aŭ rusa lingvo. Mi eĉ ne pensas pri vere malgrandaj lingvoj.

Mi mem ofte ne estas tute certa, kiu ordo en pola lingvo estas kutima, ĉar ofte ekzistas grandaj regionaj diferencoj.

Kutima kaj nekutima ordo en Esperanto

Estas tre malfacile diri, kiu ordo estas kutima por Esperanto. Estus eble tre interesa tasko, pritrakti tiun temon laŭ statistikaj metodoj. Nun mi ne bezonas tiujn informojn, sed por preciza sintaksa analizo, tiu povas esti necesa.

Dispartigitaj frazpartoj

Penseblaj sed maloftaj estas en esperanto sekvaj frazoj.

  • [Tre bonan] mi legis [libron] hieraŭ. (tre bona libro)
  • [vin] mi volas [renkonti]. (renkonti vin)

La dispartigon oni povas observi ĉe np-frazpartoj (adjektivo+substantivo) kaj ivp-frazpartoj (infinitivaj verbaj frazpartoj). En pola lingvo tiun dispartigon mi trovas pli ofte ol en Esperanto kaj kutime en respondoj.

  • Kian libron vi legis? Bonan mi legis libron.

La sintaksa analizilo de esperantilo tute ne povas analizi tiajn frazojn kaj mi ne planas tiun eblon en la venonto. Bedaŭrinde la strukturo, kiu povus konservi tiujn informojn, estas pli komplika el teknika vidpunkto.

29.11.2006

Samsencaj transformoj de frazoj kaj vortoj.

Filed under: lingvistiko,maŝina tradukado — artur @ 18:59

En matematiko oni tre bone konas transformiĝojn, kiuj ne ŝanĝas la verecon de esprimo. Tiuj transformiĝoj estas plej ofte uzataj por pli bona kompreno aŭ matematika pruvo. Ekzistas difinitaj reguloj, kiuj priskribas tiujn transformiĝojn.

a+b=c => a+b-c=0 => a-c=-b

Similaj transformiĝoj ekzistas ankaŭ en programaj lingvoj

i = i+1; => i+=1; => i++;

Ĉe naturaj lingvoj tio ne estas tiel evidenta, sed oni ankaŭ povas rimarki tiajn fenomenojn. Oni nur pensu pri tiu, kiom da ebloj ekzistas por esprimi unu penson. La ebleco transformi frazojn laŭ iuj reguloj sen ŝanĝi la sencon de frazo, estas en komputila lingvistiko praktika aĵo. Tiuj transformiĝoj estas en maŝina traduko tre interesa, ĉar per ili oni povas malaltigi la nombro de konsiderendaj kazoj kaj supervenki la malsimilecon de gramatikoj.

Artoj de transformigoj

  1. Ordo de vortoj
  2. Uzado de sinonimoj
  3. Transformigo de frazo el aktiva al pasiva formo
  4. Transformigoj de frazpartoj al vortoj
  5. Transformigo de frazpartoj al subfrazoj
  6. Transformigoj de sintakso

Esperanto enhavas tre riĉajn kapablojn de vortfarado. Radikoj povas esti multoble uzataj.

  • Mi veturas per biciklo.
  • Mi veturas bicikle.
  • Mi biciklas.

Ofte oni povas transformigi tutajn frazpartojn al unu vorto.

  • sen eĥo – seneĥe
  • sur la lito – surlite
  • … de inter homoj – interhoma …

La malavantaĝo de tio estas, ke praktike ne estas eble krei kompletan vortaron de esperanto, kiu baziĝas sur vortoj, ĉar la nombro de eblaj vortoj, faritaj nur laŭ reguloj de vortfarado estas tre granda. Ekzistas ankaŭ natura tendenco, ke la nombro de uzataj vortoj kreskas kaj aliaj vortoj malaperas de aktiva uzado. Tre okulfrapa estas tendenco transformigi prepoziciajn frazpartojn en funkcio de adjekto al adverboj. Alia tendenco estas uzi radikojn kiel verbo. Tiu eble estas natura evoluo de lingvo en direkto de mallongigo de frazoj por lingva ŝparemo. Kreiĝas tre surprizaj vortfaradoj.

  • kongreso
  • kongresi
  • antaŭkongresi
  • antaŭkongresulo

Transformiĝo de sintakso

Tiuj transformiĝoj priskribis jam de lingvisto Chomsky. La kutima ekzemplo estas:

Mi legis la libron. => La libro estas legita de mi.

Ĉe tradukado tiuj transformiĝoj estas ofte necesaj, ĉar multaj lingvoj ne havas tiel potencajn participojn aŭ la uzo de kelkaj strukturoj estas pli strikta. Ekzemple pola lingvo ne havas venontan adverban participon.

Elvenonte de domo mi aŭdis la telefonon. => Kiam mi estis elvenonta de domo, mi aŭdis la telefonon. => (traduko al pola lingvo) Właśnie kiedy miałem wyjść z domu, usłyszałem telefon.

Aliajn ekzemplojn mi priskribis jam en blogo. Ĉiuj participoj oni povas transformiĝi al relativa frazo.

Loĝantoj de tiu urbo estas riĉa. Uloj, kiuj loĝas, en tiu urbo estas riĉaj.
La ventonta kunveno okazos en Romo. Kunveno, kiu venos, okazos en Romo.

Oni rimarkas, ke partizipoj ofte ne estas nur mallongigoj por relativa frazo, sed havas propran vivon (substantivan, adverban aŭ adjektivan).

Inversa vortfarado

Mi jam frue rimarkis, ke por tre abundaj kapabloj de esperanta vortfarado la preparo de glosaroj estas senlima. Mi komencis per simplaj transformoj.

  • libreto – eta libro
  • fidormi – fie dormi
  • analizilo – ilo por analizi
  • frazaro – aro de frazoj
  • boni – esti bona
  • dikigi – igi dika
  • dikiĝi – iĝi dika

Iam la rezulto de tiu transformiĝo post la maŝina tradukado estas tute ne atendata kaj ofte ridinda.

Mi havas vortaron. Mi havas aron da vortoj. Mam zbiór słów.

Kvankam la rezulto de tiu transformiĝo ne estas kontentiga, sed estas pli bone traduki malprecize ol tute ne traduki. La uzanto de Esperantilo povas malŝalti tiujn transformiĝojn per preferaĵo „Uzu inversan esperantan vortfaradon“.

Transdono de esperanta vortfarado al cela lingvo

Ofte vortfarado en nacia lingvo estas simila al esperanto. Do oni povas konstrui novan vorton en nacia lingvo laŭ plano de esperanta vorto. Tiu funkcias tre bone por pola kaj germana lingvo ekzemple ĉe verboj kun prepoziciaj prefiksoj.

  • ĵeti – rzycać (pl), elĵeti – wyrzycać
  • vivi – żyć (pl), travivi – przeżyć
  • vivi – leben (de), travivi – durchleben
  • veni – kommen (de), kunveni – mitkommen

Aliaj ekzemploj

  • saĝa – mądry (pl), malsaĝa – mądry inaczej
  • saĝa – mądry (pl), saĝe – mądrze

Tiun similecon oni povas uzi duope. Unue kiel helpilo por aŭtomata kreado de vortaroj. La rezultan vorton oni povas pruvi per literumilo. Due dum maŝina tradukado por anstataŭigi mankantaj tradukoj en vortaro. La uzanto de Esperantilo povas malŝalti tiuj transformigoj per preferaĵo „Derivu tradukojn aŭtomate“.

Esperanta vortfarado – ĉu vere unuforma?

La esperanta vortfarado estas pli bona ol tiu en naciaj lingvoj, ĉar ili estas unuforma kaj logika. Tio eble agordas por ĉefaj finaĵoj. Sed en multaj kazoj la senco de novaj vortoj ne estas klara.

  • gravi – esti grava
  • trajni – veturi per trajno
  • telefoni – paroli per telefono; paroli telefone
  • vivnivelo – nivelo de vivo
  • hundovivo – vivo kiel hundo
  • ŝipveturi – veturi per ŝipo
  • voĉlegi – legi laŭte
  • telefone – per telefono

Tio estas kaŭzo, ke multajn puristoj evitas tiujn formojn. La senco de vortfarado estas ofte nur klara, kiam oni konas la bazan sencon de radiko. Tiu estas por mi la pruvo, ke radikoj havas bazan naturon, kiu estas: verba, adjektiva, adverba aŭ substantiva. Ekzemple por adjektivaj radikoj ĉiam la transformiĝo ŝajnas ebla:

  • beli – esti bela
  • gravi – esti grava

Kvankam oni ofte uzas tiuspecajn transformiĝojn, mi mem ilin ne ŝatas. Por substantivaj radikoj la transformiĝo substantivo->verbo ne estas klara. Ankaŭ la adjektiva kaj adverba transformiĝo ne estas klara. Mi esperas, ke post bona kategorio de radikoj, oni povus pli precize priskribi la sencon de unuopaj vortfaradoj.

Esperanto-Esperanto vortaro

Ĉar en multaj esperantaj vortoj la senco de vorto donas nur tradicio (ekzemple finaĵo – um), oni povas imagi la vortaron, kiu tradukas el esperanto al esperanto. La unua tasko de tiu vortaro estus malaltigo nombro de uzataj vortoj (ne radikoj). Tiu povus unuflanke malaltigi nombron de uzataj sinonimoj, aliaflanke ĝi estus vortaro por evitindaj vortfaradoj. Ekzemploj

  • malsanulejo – sangigejo
  • firma – fiksa
  • bicikli – veturi per biciklo
  • kongresi – ĉeesti kongreson
  • gravi – esti grava
  • partopreni – ĉeesti

Ekzistas ankaŭ tre praktika ekonomia kaŭzo por tiu vortaro. Se oni povus malplialtigi la nombro de vortoj de 100000 al 50000 en Esperanto, tiam oni devas traduki nur 50000 vortoj al nacia lingvo. Ĉe multaj naciaj vortaroj la tempoŝparo estus granda. La danĝero estas, ke per evoluo de lingvo, la vortoj aŭ esprimoj, kiuj nun estas samsencaj, iam ekhavas aliajn sencojn. (ekzemplo: ĝentilhomo – ĝentila homo)

Ĉu vere ekzistas samsencaj transformiĝoj?

Transformiĝoj de natura lingvo en principo neniam ne ŝanĝas iomete la esprimon de frazo. La formo kaj stilo de lingvo estas tre grava enhavo de informo en lingva mesaĝo. Evidente ĉiu transformiĝo ŝanĝas la stilon de esprimo. Tiuj ŝanĝoj ne estas bone mezureblaj. Ĉiu formo povas esti ligita kun iu alia formo, kiun oni jam konas. Tiu simileco povas esti eĉ ĉefa informo de esprimo. (Pripensu frazon: „mi estas Berlinano“) Sole restas la iloj de psikolingvistiko, kiuj simple solvas tiun demandon per statistika enketo. (vidu Hiroshi Nagata kaj Renato Corsetti: Influoj de gepatra lingvo sur la lernadon de esperanto: psikolingvistika esploro)

Fina vorto

La temo estas tre vasta kaj ŝajnas al mi, ke en tiu kampo ekzistas multajn eblecojn. Por mi grava estas la konstato, ke Esperanto povas evolui kaj evoluas, kaj la direkto ne nek konata nek logika. Kiam mi legas esperantajn mesaĝojn en reto aŭ aŭdas junajn esperantistojn (vidu: Varsovia vento) mi supozas, ke la evoluo ĵus komencis.

14.11.2006

I-Frazpartoj – Ĉio estas ebla.

Filed under: lingvistiko,maŝina tradukado — artur @ 18:54

Infinitivaj verbaj frazpartoj estas tre vasta kaj komplika parto de esperanta gramatiko. Adekvate komplika estas ankaŭ la maŝina tradukado al celaj lingvoj. La kompletan priskribon donas al ni plena manlibro de esperanta gramatiko (I-Verboj en PMEG). Infinitivaj frazpartoj plej ofte troviĝas kun verboj: „povi“, „devi“ kaj „voli“. Tiuj verboj havas en germana kaj angla gramatiko specialajn nomojn: (germane: „Hilfsverben“ aŭ „Modalverben“, angle „auxiliary verbs“).

Mi volas legi la libron.
Li povas tion fari.

I-verbo rolas en tiuj frazoj kvazaŭ kiel objekto. Sed por tiuj frazoj la kutima transformigo de objekto al subjekto per pasiva frazo ne estas ebla. Aliaj provoj.

Li povas legi libron. Kion li povas? Li povas tion. Kion li povas legi?

Uzado de infinitivaj frazpartoj en esperanto ŝajne ne havas limojn.

Ekzemploj de uzado de i-verboj

  • Kritiki estas facile
  • Li amas legi librojn.
  • Li helpis al ŝi prepari manĝon.
  • Li vidis la homojn legi librojn.
  • Li venis por vidi vin.
  • Li permesis al ŝi veni.
  • Li petas ŝi resti.
  • Mi laboras sen ripozi.
  • Li estas ema labori.
  • Li ne pensis pri neceso lerni tiun lingvon.

Kelkajn de ili oni povas transformigi al aliaj formoj.

  • Kritikado estas facila
  • Li amas legadon de libroj.
  • Li helpis al ŝi perpari manĝon.
  • Li vidis la homojn, kiu legis librojn.
  • Li venis, por ke li vidu vin.
  • Li permesis al ŝi la venon.
  • Li petas, ke ŝi restu.
  • Mi laboras sen repozo.
  • Li emas laboron.
  • Li ne pensis, ke estas necesa lerni tiun lingvon. Li ne pensis, ke lerno de tiu lingvo estas necesa.

Ceteraj i-verboj oni povas transformigi al substantivaj frazpartoj aliaj al subfrazoj kun prepozicio „ke“ aŭ „por ke“.
Interesa estas la eblo, kiun havas angla lingvo.

I want you to come.

En Esperanto tiu frazo estu:

Mi volas de vi veni. anstataŭ
Mi volas, ke vi venu.

Ĝis nun ŝajnas, ke tiu eblo ne estas uzata.

Maŝina tradukado

Naciaj lingvoj ne havas tiujn vastajn eblojn uzi infinitivajn frazpartojn. La malfacila tasko estas transformi la frazo al ebla formo ĉe tradukado. Ekzemple por pola traduko.

Mi vidis lin veni hejmen. Widziałem go, jak szedł do domu.

El teknika vidpunkto tre avantaĝa estas la transformigo de la frazo jam en Esperanto.

Mi vidis lin veni hejmen. = Mi vidis lin, kiam li venis hejmen.

Mi vidis homojn legi librojn. = Mi vidis homojn, kiuj legis librojn.

Tiaj transformigoj ebligas malplialtigi la strukturan riĉecon de Esperanto. Sed por germana lingvo la direkta traduko estas ebla.

Mi vidis lin veni hejmen. Ich sah ihn nach Hause gehen.

En silezia dialekto de pola lingvo tiu formo estas ankaŭ ebla:

Mi vidis lin veni hejmen. Widzio’łech go iść do dóm.

Sintaksa analizo de infinitivaj frazpartoj

Ĝi estas por ĉiu lingvo plej malfacila tasko de sintaksa analizo. Kaj ofte tio estas la kaŭzo, ke elegantaj analiziloj rezignas ĉe analizo de realaj tekstoj. La plej malfacila estas la difino de limoj de infinitivaj frazpartoj. Ŝajnas, ke bonajn rezultojn oni povas atingi nur per statistikaj metodoj.

Ĝis nun Esperantilo ne povas bone analizi ĉiujn tiujn senlimajn eblojn de Esperanta lingvo.

« Newer PostsOlder Posts »

Powered by WordPress