Zoznam článkov
HLAVNÝ KORPUS PÍSANÝCH TEXTOV SNK Slovenský národný korpus vo verzii prim-8.0 obsahuje verejne prístupné podkorpusy: prim-8.0-public-all – všetky verejne prístupné texty SNK (71,10 % publicistické, 15,22 % umelecké, 8,51 % odborné, 5,17 % iné texty), 1 477 447 216 tokenov, 1 160 286 731 slov prim-8.0-public-sane – bez textov s nesprávnou diakritikou, spred roka 1955,…
Špecializovaný korpus textov výročných správ štátnych inštitúcií SR gov-vs-1.0 bol vytvorený 8. 4. 2020 a zverejnený 22. 7. 2020 v rozsahu 17 864 463 tokenov. Korpus bol vytvorený z textov výročných správ štátnych inštitúcií dostupných do začiatku r. 2018. Korpus bol vytvorený v SNK pre potreby tvorby termínov z oblasti štátnej správy v rámci projektu Slovenská terminologická databáza. Korpus je lematizovaný…
Aktuálna verzia špecializovaného korpusu textov štátnej správy gov-web-2.0 bola vytvorená 7. 4. 2020 a zverejnená 22. 7. 2020 v rozsahu 12 363 067 tokenov. Korpus bol vytvorený z textov štátnych inštitúcií dostupných na webových doménach gov do r. 2019. Korpus bol vytvorený v SNK pre potreby tvorby termínov z oblasti štátnej správy v rámci projektu…
Šiesta verzia korpusu wiki-2019-08 bola sprístupnená 27. 1. 2020 v rozsahu 50 619 991 tokenov. Korpus obsahuje slovenské texty z Wikipédie dostupné k 1. 8. 2019. Táto verzia sa od predchádzajúcich líši okrem aktualizácie textov článkov v štyroch zásadných bodoch: bolo opravených niekoľko chýb spracovania MediaWiki značiek predchádzajúcich verzií; matematické výrazy ( elementy) sú spracované…