Historický korpus slovenčiny

Historický korpus slovenčiny (HKS) spracúva texty predspisovného obdobia. Obsahuje jednak vlastné prepisy z fotokópií pôvodných textov priamo napĺňajúce HKS, ako i texty vydané tlačou, ktoré zachovávajú pôvodnú ortografiu východiskového materiálu.

Prvá verzia HKS bola sprístupnená v r. 2012 a obsahovala 370 758 tokenov korpusovo spracovaných textov z publikácií Pramene k dejinám slovenčiny 1., 2., 3. V súčasnosti je sprístupnená jeho 7. verzia hist-7.0, ktorá má rozsah 981 000 tokenov. Zoznam spracovaných zdrojov v korpuse hist-7.0 je dostupný aj s plnými bibliografickými údajmi v časti Textové zdroje a verzie korpusu.

V rámci skvalitňovania korpusu došlo vo verzii hist-6.0 k zjednoteniu značkovania – odstránené bolo duplicitné označenie jazyka a skratiek. Aktuálne značkovanie je opísané v časti Špecifické štruktúrne značky. Taktiež boli odstránené texty, v ktorých sa zistilo, že nezachovávajú pôvodnú ortografiu, ale sú upravované.

Aktuálna verzia hist-7.0 obsahuje navyše zjednotenú anotácia dokumentov a zjednodušené vyhľadávanie všetkých znakov s diakritikou: vyhľadávanie špecifických znakov s diakritikou je oproti staršej verzii možné aj na základe jednoduchého vyhľadávania bez diakritického znamienka (bližšie v sekcii Vyhľadávanie v HKS). Texty v HKS nie sú lematizované ani morfologicky anotované, v korpuse sa dá výhľadávať pomocou tvarov slov (word) a CQL (zástupných (meta)znakov)). Pri prepisoch sú uvedené informácie o pôvode textu, jeho uložení (príp. vydaní) a datovaní. Korpus je prístupný po registrácii vo vyhľadávacom nástroji NoSketch Engine.

Bližšie informácie nájdete v článku RAUSOVÁ, K. (2024): Historický korpus slovenčiny: hist-6.0. In: Slovenská reč, roč. 89, č. 1, s. 156 – 163.