V rámci projektu litovského slovníka sémantických vzťahov WordNet sú spracované sémantické vzťahy najfrekventovanejších litovských podstatných mien, slovies, prídavných mien a prísloviek s využitím mapovania na anglický WordNet. Ku každému záznamu (synsetu) je pripojený anglický a slovenský ekvivalent.
Projekt je v štádiu vývoja, sprístupnená databáza predstavuje pilotnú verziu, v ktorej sa nachádza takmer 15 tisíc synsetov. Zverejňujeme ju s cieľom poskytnúť odbornej verejnosti náhľad na dáta a technológiu spracovania. Formát súboru sa perspektívne môže zmeniť.
Formát súboru
Súbor je v UTF-8 kódovaní, s unixovými koncami riadkov (LF, \n, U+00A0 …). Každý riadok zodpovedá jednému synsetu a skladá sa z troch záznamov, oddelených znakom ␞ U+241E SYMBOL FOR RECORD SEPARATOR. Prvý záznam je litovský synset, druhý záznam slovenský synset, tretí záznam je z Princeton WordNet-u.
Formát litovského a slovenského záznamu
Záznam obsahuje štyri položky oddelené tabulátorom (\t):
- číslo synsetu je jednoznačný identifikátor daného synsetu
- slovný druh označuje:
- n – podstatné mená
- v – slovesá
- a – prídavné mená
- r – príslovky
- slová sú jednotlivé slová (literály) tvoriace daný synset, sú oddelené bodkočiarkou; môžu obsahovať vysvetlivku alebo bližšie spresnenie v zátvorke, znak + (plus) na označenie „hlavného“ slova v danom synsete, znak – (mínus) na označenie nepresného sémantického vzťahu medzi slovenským a anglickým synsetom alebo ? (otáznik) na označenie nejasného ekvivalentu
- glosa je bližšie vysvetlenie daného synsetu, väčšinou je prázdna a vtedy sa položka končí tabulátorom
Litovský synset sa v súbore môže nachádzať niekoľkokrát, ak mu zodpovedá niekoľko slovenských alebo anglických synsetov.
Citácia
Radovan Garabík and Indrė Pileckytė: From Multilingual Dictionary to Lithuanian Wordnet. In: Natural Language Processing, Corpus Linguistics, E-learning. Proceedings of the SLOVKO 2013 conference. pp. 74—80, 2013
Litovský WordNet je možné používať v súlade s textami nasledujúcich licencií:
- GNU Affero General Public License, verzia 3
- Creative Commons Attribution-ShareAlike 3.0 Unported License
- Open Database License (ODbL) v1.0
V prípade použitia v rámci jednej organizácie alebo súkromného využívania sa môže zvoliť ľubovoľne jedna z uvedených licencií. V prípade ďalšej distribúcie platia texty všetkých licencií naraz.
Stránku slovenského WordNetu nájdete tu.