Webový korpus

Aktuálna verzia web-7.0 bola sprístupnená 28. 2. 2024 v rozsahu 5 300 485 736 tokenov.

Korpus je založený na dátach beta verzie korpusu Araneum Slovacum VII Maximum (24.02) z projektu Aranea (tvorca podkladového korpusu Vladimír Benko). Korpus obsahuje webové texty v slovenčine priebežne zbierané medzi rokmi 2013 – 2024. Segmentácia viet a tokenizácia sú prebraté z pôvodného korpusu Araneum Slovacum, no dáta sú lematizované a morfologicky anotované spôsobom kompatibilným s hlavným korpusom prim-10.0. Pri textoch sú uvedené základné informácie o ich url a čase získania.

V porovnaní s predchádzajúcou verziou korpusu 6.0 ide o nárast o približne jednu miliardu tokenov.

Verzia 6.0

Verzia web-6.0 bola vytvorená 26. 3. 2022 a sprístupnená 15. 6. 2022 v rozsahu 4 373 231 228 tokenov.

Zdrojom tejto verzie sú dáta z korpusu Araneum Slovacum V Maximum (22.01) vytvoreného v rámci projektu Aranea (tvorca podkladového korpusu Vladimír Benko), ktoré boli tokenizované, segmentované, lematizované a morfologicky označkované štruktúrou a značkami v zásade kompatibilnými s písanými korpusmi SNK tagerom MorphoDiTa natrénovaným v SNK na báze tagsetu vypracovaného v Slovenskom národnom korpuse. Pri textoch sú uvedené základné informácie o ich url a čase získania.

Verzia 5.0

Verzia web-5.0 bola sprístupnená 27. 1. 2020 v rozsahu 4 042 363 283 tokenov.

Zdrojom tejto verzie sú dáta z korpusu Araneum Slovacum V Maximum (20.01) vytvoreného v rámci projektu Aranea (tvorca podkladového korpusu Vladimír Benko), ktoré boli tokenizované, segmentované, lematizované a morfologicky označkované štruktúrou a značkami v zásade kompatibilnými s písanými korpusmi SNK tagerom MorphoDiTa natrénovaným v SNK na báze tagsetu vypracovaného v Slovenskom národnom korpuse. Pri textoch sú uvedené základné informácie o ich url a čase získania.

Verzia 4.0

Verzia web-4.0 bola sprístupnená 31. 1. 2018 v rozsahu 2 963 462 451 tokenov.

Korpus založený na slovenských textoch z projektu Araneum (tvorca podkladového korpusu Vladimír Benko) bol lematizovaný a morfologicky anotovaný tagerom MorphoDiTa natrénovaným v SNK na báze tagsetu vypracovaného v Slovenskom národnom korpuse. Pri textoch sú uvedené základné informácie o ich url a čase získania.

Verzia 3.0

Verzia web-3.0 bola sprístupnená 6. 3. 2015 v rozsahu 2 372 769 958 tokenov.

Webový korpus obsahoval slovenské texty dostupné na WWW a poskytnuté SNK v r. 2010 pracovníkmi Fakulty informatiky MU v Brne, ktoré boli základom prvej verzie (988 474 323 tokenov pred odstránením duplicít a neodfiltrovaných českých textov), slovenské texty získané z webu v r. 2011 – 2012 v SNK (489 869 717 tokenov po odstránení duplicít a cudzojazyčných textov) a slovenské texty z projektu Araneum (3 221 914 708 tokenov pred odstránením duplicít a cudzojazyčných textov).

Korpus bol ďalej spracovaný v rámci projektu SNK, je lematizovaný a morfologicky anotovaný, pri textoch je uvedená informácia o ich zdroji. K dispozícii sú zoznamy tisíc najčastejších slovných tvarov a lem.

Verzia 2.0

Verzia web-2.0 z 28. 3. 2012 mala veľkosť 1 045 558 148 tokenov.

K dispozícii sú zoznamy tisíc najčastejších slovných tvarov a lem, ako aj úplné zoznamy podľa frekvencie.

Verzia 1.0

Verzia web-1.0 z r. 2011 bola utvorená v spolupráci s pracovníkmi Fakulty informatiky Masarykovej univerzity v Brne a obsahovala 952 095 260 tokenov.