Lietuvių kalbos WordNet

in English

po slovensky

Lietuvių kalbos WordNet projekto tikslas – aprašyti dažniausiai vartojamų lietuvių kalbos žodžių semantinius ryšius, remiantis anglų kalbos WordNet. Projekto duomenų bazę sudaro apdoroti, kalboje dažniausiai vartojami daiktavardžiai, veiksmažodžiai, būdvardžiai ir prieveiksmiai. Kiekvienas įrašas (kurį sudaro sinonimų grupė) yra susietas su atitinkamu anglų ir slovakų kalbų atitikmeniu.

Dabartinė projekto versija nėra baigtinė, ji vis dar vystoma. Dėl šios priežasties duomenų bazė nėra užbaigta, joje gali pasitaikyti klaidų, o jos kokybė galbūt nesiekia net ir pirmosios alfa versijos. Vis dėlto projektą nusprendėme paviešinti tam, kad jo profesionalus turinys ir naudotos naujausios kalbos apdorojimo technologijos taptų prieinamos visiems. Rinkmenos formuotė ateityje greičiausiai keisis.

Rinkmenos formuotė

Ši rinkmena yra užkoduota UTF-8 koduote, su Unix eilučių skirtukais (LF, \n, U+00A0 …). Kiekviena eilutė aprašo vieną duomenų bazės įrašą (sinonimų grupę) ir yra sudaryta iš trijų įrašų, atskirtų ženklu ␞ U+241E SYMBOL FOR RECORD SEPARATOR. Pirmasis įrašas yra lietuvių kalba, antrasis – slovakų, o trečiasis – anglų kalbos Princeton WordNet įrašo kopija.

Lietuvių ir slovakų kalbų įrašų formuotė

Kiekvieną įrašą sudaro keturi elementai, atskirti tabuliavimo žyme (\t): įrašo numeris, kalbos dalis, įrašą sudarantys žodžiai, paaiškinimai:

  • įrašo numeris yra unikalus identifikacijos numeris
  • kalbos dalys gali būti:
    • n – daiktavardis
    • v – veiksmažodis
    • a – būdvardis
    • r – prieveiksmis
  • Įrašą (sinonimų grupę) sudaro savarankiški žodžiai, atskirti kabliataškiais. Papildomi žodžio paaiškinimai gali būti nurodomi skliausteliuose. Pliuso (+) ženklas prieš žodį nurodo, jog jis yra “pagrindinis” šiame įraše (sinonimų grupėje), o minuso (-) ženklas nurodo netikslų semantinį ryšį tarp lietuvių, slovakų ir anglų kalbų atitikmenų. Klaustuko (?) ženklas yra prieš tuos įrašus, kurių atitikmens lygmuo neaiškus.
  • Paaiškinimai pateikia išsamesnį įrašo reikšmės aprašymą. Vis dėlto dažniausiai jų nėra, ir tokiu atveju įrašas baigiamas tabuliavimo žyme.

Vienas lietuvių kalbos įrašas (sinonimų grupė) gali pasikartoti rinkmenoje keletą kartų, jeigu jis priskiriamas daugiau nei vienam slovakų ar anglų kalbų įrašui.

Bibliografija

Radovan Garabík and Indrė Pileckytė: From Multilingual Dictionary to Lithuanian Wordnet. In: Natural Language Processing, Corpus Linguistics, E-learning. Proceedings of the SLOVKO 2013 conference. pp. 74—80, 2013

Licencija

Lietuvių kalbos WordNet gali būti naudojamas pagal žemiau nurodytų licencijų reikalavimus:

Duomenis naudojant vienoje organizacijoje arba privačiai, galite pasirinkti vieną iš viršuje nurodytų licencijų. Tolesnio platinimo atveju privalu laikytis visų nurodytų licencijų reikalavimų kartu.

Nuorodos