→English

Webový korpus

Aktuálna verzia web-3.0 bola sprístupnená 6. 3. 2015 v rozsahu 2 372 769 958 tokenov.

Webový korpus obsahuje slovenské texty dostupné na WWW a poskytnuté SNK v r. 2010 pracovníkmi Fakulty informatiky MU v Brne, ktoré boli základom prvej verzie (988 474 323 tokenov pred odstránením duplicít a neodfiltrovaných českých textov), slovenské texty získané z webu v r. 2011 – 2012 v SNK (489 869 717 tokenov po odstránení duplicít a cudzojazyčných textov) a slovenské texty z projektu Araneum (3 221 914 708 tokenov pred odstránením duplicít a cudzojazyčných textov).

Korpus bol ďalej spracovaný v rámci projektu SNK, je lematizovaný a morfologicky anotovaný, pri textoch je uvedená informácia o ich zdroji. K dispozícii sú zoznamy tisíc najčastejších slovných tvarov a lem.

Verzia 2.0

Predchádzajúca verzia web-2.0 z 28. 3. 2012 mala veľkosť 1 045 558 148 tokenov.

K dispozícii sú zoznamy tisíc najčastejších slovných tvarov a lem, ako aj úplné zoznamy podľa frekvencie.

Verzia 1.0

Predchádzajúca verzia web-1.0 z r. 2011 bola utvorená v spolupráci s pracovníkmi Fakulty informatiky Masarykovej univerzity v Brne a obsahovala 952 095 260 tokenov.