O korpuse textov z Wikipédie (a Necyklopédie)

Šiesta verzia korpusu wiki-2019-08 bola sprístupnená 27. 1. 2020 v rozsahu 50 619 991 tokenov. Korpus obsahuje slovenské texty z Wikipédie dostupné k 1. 8. 2019. Táto verzia sa od predchádzajúcich líši okrem aktualizácie textov článkov v štyroch zásadných bodoch:
  • bolo opravených niekoľko chýb spracovania MediaWiki značiek predchádzajúcich verzií;
  • matematické výrazy ( elementy) sú spracované ako jeden token ako štruktúra ;
  • pribudla štruktúra (lepidlo) na označenie miest medzi tokenmi, kde sa v pôvodnom texte nenachádza medzera;
  • korpus neobsahuje texty Necyklopédie.
Korpus je lematizovaný (s rozlíšením malých a veľkých začiatočných písmen pri všeobecných a vlastných pomenovaniach) a morfologicky anotovaný. Pri textoch je uvedená informácia o ich zdroji.

1. Piata verzia

Piata verzia korpusu wiki-2018-03 bola sprístupnená 2. 5. 2018 v rozsahu 47 283 205 tokenov. Tento korpus wiki obsahuje slovenské texty z Wikipédie a Necyklopédie dostupné k 15. 3. 2018. Korpus je lematizovaný (s rozlíšením malých a veľkých začiatočných písmen pri všeobecných a vlastných pomenovaniach) a morfologicky anotovaný. Pri textoch je uvedená informácia o ich zdroji.

2. Štvrtá verzia

Štvrtá verzia korpusu wiki-2017-02 bola sprístupnená 9. 3. 2017 v rozsahu 45 109 693 tokenov. Korpus wiki obsahuje slovenské texty z Wikipédie a Necyklopédie dostupné k 28. 2. 2017. Korpus je lematizovaný (s rozlíšením malých a veľkých začiatočných písmen pri všeobecných a vlastných pomenovaniach) a morfologicky anotovaný. Pri textoch je uvedená informácia o ich zdroji.

3. Tretia verzia

Tretia verzia korpusu wiki-2016-02 bola sprístupnená 8. 3. 2016 v rozsahu 42 615 597 tokenov. Korpus wiki obsahuje slovenské texty z Wikipédie a Necyklopédie dostupné k 26. 2. 2016. Korpus je lematizovaný a morfologicky anotovaný, pri textoch je uvedená informácia o ich zdroji.

4. Druhá verzia

Druhá verzia korpusu wiki-2015-02 bola sprístupnená 6. 3. 2015 v rozsahu 40 248 220 tokenov. Obsahovala slovenské texty z Wikipédie a Necyklopédie dostupné k 28. 2. 2015.

5. Prvá verzia

Prvá verzia korpusu wiki-2014-02 bola sprístupnená 25. 2. 2014 v rozsahu 37 548 997 tokenov.