Korpus textov z r. 1843 – 1954

Aktuálna verzia korpusu r1843az1954-2.0 bola vytvorená 16. 1. 2026 a sprístupnená 5. 2. 2026 v rozsahu takmer 4 mil. tokenov (3 897 816 tokenov, 3 112 096 slov) korpusovo spracovaných textov.

Do aktuálnej verzie korpusu neboli zaradené texty zo Zlatého fondu SME z predchádzajúcej verzie r1843az1954-1.0, keďže obsahovali gramatické, syntaktické a lexikálne zásahy do pôvodných textov. Rovnako neboli do korpusu zaradené ani texty, ktorých údaj Dateorig (1. vydanie) bol v rozmedzí rokov 1843 – 1954, texty však boli reálne vydané v oveľa neskoršom období. Počet zostávajúcich textov z prvej verzie korpusu bol po tejto výraznej selekcii doplnený novými textami, ktoré boli v rokoch 2024 a 2025 spracované a pripravené v Slovenskom národnom korpuse podľa získaných originálov.

V súčasnosti spočíva hlavný rozdiel medzi 1. a 2. verziou korpusu v zmene kľúčov na tvorbu korpusu. V predchádzajúcej verzii korpusu r1843az1954-1.0 boli použité dva kľúče Date a Dateorig – v novej verzii bol na tvorbu korpusu použitý výhradne kľúč Date (rok vydania v rozmedzí 1843 – 1954), aby texty zachytávali dobový jazyk a gramatické zásady spisovnej slovenčiny v čase vydania, ako aj zásady dobových editorov, resp. vydavateľstiev.

V najnovšej verzii korpusu textov z r. 1843 – 1954 je každý text je doplnený o podrobnú bibliografickú a štýlovo-žánrovú anotáciu, všetky jednotky v texte sú experimentálne lematizované a morfologicky anotované nástrojom spaCy modelom natrénovaným v Slovenskom národnom korpuse a na opravy zle určených tvarov bola použitá interná databáza tvarov.

Verzia 1.0

Korpus r1843az1954-1.0 bol sprístupnený 5. 2. 2015 v rozsahu takmer 24 mil. tokenov (23 885 338 tokenov, 18 925 326 slov) korpusovo spracovaných textov prevažne z publikácií dostupných v Zlatom fonde SME. Obsahuje texty od štúrovskej kodifikácie v prepise podľa gramatických zásad spisovnej slovenčiny v čase vydania a podľa zásad editorov, resp. vydavateľstiev. Texty v tomto korpuse majú základnú bibliografickú a štýlovú anotáciu, nie sú lematizované ani morfologicky anotované, vyhľadávať sa dá pomocou tvarov slov a CQL.