Slovenský WordNet

WordNet je slovník slov usporiadaných podľa sémantických vzťahov. V databáze slovenského WordNet-u sú spracované sémantické vzťahy najfrekventovanejších podstatných mien, prídavných mien, slovies a prísloviek s využitím mapovania na anglický WordNet. Ku každému záznamu (synsetu) je pripojený aj anglický ekvivalent.

Projekt je v štádiu vývoja, sprístupnená databáza predstavuje pilotnú verziu, v ktorej sa nachádza takmer 25 tisíc synsetov. Zverejňujeme ju s cieľom poskytnúť odbornej verejnosti náhľad na dáta a technológiu spracovania. Formát súboru sa perspektívne môže zmeniť.

Formát súboru

Súbor je v UTF-8 kódovaní, s unixovými koncami riadkov (LF, \n, U+00A0 …). Každý riadok zodpovedá jednému synsetu a skladá sa z dvoch záznamov oddelených znakom ␞ U+241E SYMBOL FOR RECORD SEPARATOR. Prvý záznam je slovenský synset, druhý záznam je z Princeton WordNet-u.

Formát slovenského záznamu

Záznam obsahuje štyri položky oddelené tabulátorom (\t):

  • číslo synsetu je jednoznačný identifikátor daného synsetu
  • slovný druh označuje:
    • n – podstatné mená
    • v – slovesá
    • a – prídavné mená
    • r – príslovky
  • slová sú jednotlivé slová (literály) tvoriace daný synset, sú oddelené bodkočiarkou; môžu obsahovať vysvetlivku alebo bližšie spresnenie v zátvorke, znak + (plus) na označenie „hlavného“ slova v danom synsete, znak – (mínus) na označenie nepresného sémantického vzťahu medzi slovenským a anglickým synsetom alebo ? (otáznik) na označenie nejasného ekvivalentu
  • glosa je bližšie vysvetlenie daného synsetu, väčšinou je prázdna a vtedy sa položka končí tabulátorom

Slovenský synset sa v súbore môže nachádzať niekoľkokrát, ak mu zodpovedá niekoľko anglických synsetov.

 

Citácia

Ondrej Dzurjuv, Ján Genči and Radovan Garabík: Generating Sets of Synonyms between Languages. In: Natural Language Processing, Multilinguality. Proceedings of the 6th International Conference SLOVKO 2011. Eds. D. Majchráková, R. Garabík. November 2011, Tribun, Brno.

 

Licencia

Slovenský WordNet je možné používať v súlade s textami nasledujúcich licencií:

V prípade použitia v rámci jednej organizácie alebo súkromného využívania sa môže zvoliť ľubovoľne jedna z uvedených licencií. V prípade ďalšej distribúcie platia texty všetkých licencií naraz.

Odkazy

Stránku litovského WordNetu nájdete tu.