Referenčný korpus

Referenčný korpus prim-7.0-frk je podmnožinou hlavného korpusu prim-7.0-public-all, z ktorého bol vytvorený na základe štyroch hlavných kritérií vychádzajúcich z koncepcie Frekvenčného slovníka slovenčiny na báze Slovenského národného korpusu a z položiek bibliografickej a štýlovo-žánrovej anotácie SNK:
  • texty sú v štandardnej spisovnej slovenčine s použitou diakritikou, pričom v definitívnej verzii korpusu má 88,86 % textov v anotácii zaznamenané, že pred vydaním prešli jazykovou korektúrou,
  • texty pochádzajú výlučne z klasických printových zdrojov, nie sú teda medzi nimi texty pôvodne písané a zverejňované v internetovom priestore,
  • texty boli vydané v rokoch 1991 – 2015, je v nich teda zachytená slovná zásoba súčasnej slovenčiny, ako sa používala v rozpätí 25 rokov z prelomu 20. a 21. storočia,
  • texty sú zastúpené rovnomerne po jednej tretine zo všetkých troch hlavných štýlov (umelecké, náučné, publicistické texty), pričom v definitívnej verzii korpusu je 0,2 % rýmovaných textov.

Rozsah korpusu prim-7.0-frk je 253 137 609 tokenov, celkový objem doň zahrnutých textov predstavuje 158 281 dokumentov. Korpus je lematizovaný a morfologicky anotovaný na základe tagsetu SNK, na anotáciu bol použitý tager MorphoDiTa s osobitným natrénovaním na rozpoznávanie vlastných mien.

Z referenčného korpusu prim-7.0-frk boli napočítané hodnoty pre Frekvenčný slovník slovenčiny na báze Slovenského národného korpusu a vybrané doklady uvedené v publikácii Skloňovanie podstatných mien v slovenčine s korpusovými príkladmi.