Nišinių kalbų problemos

Ar bandėt kada surasti per Google kokį nors straipsnį, kuriame būtų paminėtas koks nors lietuviškas žodis, bet kuriuo linksniu ir bet kuria gimine?

Pvz. norint surasti svetaines, kurios minimi ateistai reikėtų maždaug tokios užklausos:
ateistas OR ateisto OR ateistu OR ateiste OR ateistą OR ateistė OR ateistę OR ateistės OR ateistai OR ateistų OR ateisčių OR ateistėms OR ateistes OR ateistams OR ateistus OR ateistėmis
angliškai tai būtų kiek paprasčiau:
atheist OR atheists
Ne, čia ne Google netobulumo problema, ne čia ne anglų kalbos gramatikos ypatybė (na tik minimaliai), o lietuvių kalbos, kaip nišinės kalbos problema.

Bet koks produktas skirtas kalbos apdorojimui bus kuriamas pirmiausia kalbai turinčiai daug vartotojų. T.y. ne lietuvių kalbai.

O tokių dalykų daug:
  • Programos verčiančios kalbėjimą į tekstą.
  • Gudresnė paieška dokumentuose.
  • Programų bibliotekos žodžių linksniavimui.
  • Automatizuotas gramatikos tikrinimas.
  • Automatinės tekstų vertimo programos.
  • Užklausų formavimas natūralia kalba.
  • Prietaisų naudojimo instrukcijos.
  • Data-mining programos susijusios su kalbos analizavimu (santraukų generavimo programos).
  • Teksto vertimas į kalbą.
Visi šie dalykai kenčia dėl to, kad mes neturime ir neturėsime to dalyko, vadinamo "economy of scale".

Komentarai

Populiarūs šio tinklaraščio įrašai