→English

Webový korpus

Aktuálna verzia web-4.0 bola sprístupnená 31. 1. 2018 v rozsahu 2 963 462 451 tokenov.

Korpus je lematizovaný a morfologicky anotovaný tagerom MorphoDiTa natrénovaným v SNK na báze tagsetu vypracovaného v Slovenskom národnom korpuse, pri textoch sú uvedené základné informácie o ich url a čase získania.

1. Verzia 3.0

Verzia web-3.0 bola sprístupnená 6. 3. 2015 v rozsahu 2 372 769 958 tokenov.

Webový korpus obsahoval slovenské texty dostupné na WWW a poskytnuté SNK v r. 2010 pracovníkmi Fakulty informatiky MU v Brne, ktoré boli základom prvej verzie (988 474 323 tokenov pred odstránením duplicít a neodfiltrovaných českých textov), slovenské texty získané z webu v r. 2011 – 2012 v SNK (489 869 717 tokenov po odstránení duplicít a cudzojazyčných textov) a slovenské texty z projektu Araneum (3 221 914 708 tokenov pred odstránením duplicít a cudzojazyčných textov).

Korpus bol ďalej spracovaný v rámci projektu SNK, je lematizovaný a morfologicky anotovaný, pri textoch je uvedená informácia o ich zdroji. K dispozícii sú zoznamy tisíc najčastejších slovných tvarov a lem.

2. Verzia 2.0

Verzia web-2.0 z 28. 3. 2012 mala veľkosť 1 045 558 148 tokenov.

K dispozícii sú zoznamy tisíc najčastejších slovných tvarov a lem, ako aj úplné zoznamy podľa frekvencie.

3. Verzia 1.0

Verzia web-1.0 z r. 2011 bola utvorená v spolupráci s pracovníkmi Fakulty informatiky Masarykovej univerzity v Brne a obsahovala 952 095 260 tokenov.