Esperantilo Blogo en Esperanto pri projekto Esperantilo kaj komputila lingvistiko

27.1.2007

Tre similaj vortoj

Filed under: lingvistiko,programado — artur @ 11:31

En lasta tempo kelkaj Esperantistoj ekinteresiĝis pri aŭtomata korektado en Programo Esperantilo. La vigla korespondado finiĝis per nova mesaĝ-grupo Komputila lingvistiko. La unua frukto de tiu kunlaboro estas korektita bazo de erarekzemploj Ekzemploj de eraroj, kiun mi uzas por testado kaj kiel teoria fonto de programado de korektilo.

Ĉar mi denove pensis pri aŭtomata korektado, mi decidis analizi la vortprovizon de esperanto je tre similaj vortoj. La analizo trovis vortoj, kiuj estas:

  • same longaj
  • sama unua kaj lasta litero
  • diferencas nur je unu litero
  • sen participoj

Mi analizis ĉiujn vortojn ĝis frekventaca grupo 15 de mia frekventeca bazo de vortoj. Ĉar la vortoj devenas de analizo de tekstaro, estas eble, ke kelkajn vortojn nun estas oftaj skriberaroj. Mi dividis la listojn je 3 kategorioj:

  • similaj: ĉiuj vortoj – nombro 10446
  • similaj sone: vortoj, kiuj simile sonas, do ili diferencas je litergrupoj (dt rl pb sŝ cĉ hĥ) – nombro 679. Tiuj vortoj kutime estas problemaj por azianoj.
  • similaj vide: vortoj, kiuj simile aspektas , do ili diferencas je litergrupoj (nm rn ao bh) – nombro 420

Mi nun ne scias, kiel oni povas uzi tiujn listojn en praktiko. Mi supozas, ke tiuj vortoj estas ofte intermiksitaj.

Keine Kommentare »

No comments yet.

RSS feed for comments on this post. TrackBack URL

Leave a comment

Du musst angemeldet sein, um einen Kommentar abzugeben.

Powered by WordPress