Historický korpus slovenčiny

Historický korpus slovenčiny (HKS) spracúva texty predspisovného obdobia. Obsahuje jednak vlastné prepisy z fotokópií pôvodných textov priamo napĺňajúce HKS, ako i texty vydané tlačou, ktoré zachovávajú pôvodnú ortografiu východiskového materiálu.

Prvá verzia HKS bola sprístupnená v r. 2012 a obsahovala 370 758 tokenov korpusovo spracovaných textov z publikácií Pramene k dejinám slovenčiny 1., 2., 3. V súčasnosti je sprístupnená jeho 6. verzia hist-6.0, ktorá má rozsah 916 743 tokenov z 20 textov. Zoznam spracovaných zdrojov v korpuse hist-6.0 je dostupný aj s plnými bibliografickými údajmi v časti Textové zdroje a verzie korpusu.

V rámci skvalitňovania korpusu došlo oproti predchádzajúcej verzii k zjednoteniu značkovania – odstránené bolo duplicitné označenie jazyka a skratiek. Aktuálne značkovanie je opísané v časti Špecifické štruktúrne značky. Taktiež boli odstránené texty, v ktorých sa zistilo, že nezachovávajú pôvodnú ortografiu, ale sú upravované. Jediným zachovaným textom, v ktorom sa zistil zásah do ortografie (podľa bernolákovskej slovenčiny), je Valaská škola H. Gavloviča, keďže odhalenie zásahov nastalo až po zverejnení korpusu hist-6.0. Táto chyba bude odstránená až v ďalšej verzii HKS.

Texty v HKS nie sú lematizované ani morfologicky anotované, v korpuse sa dá výhľadávať pomocou tvarov slov (word) a CQL (zástupných (meta)znakov)). Pri prepisoch sú uvedené informácie o pôvode textu, jeho uložení (príp. vydaní) a datovaní. Korpus je prístupný po registrácii vo vyhľadávacom nástroji NoSketch Engine.