Štruktúra korpusu prim-10.0

Hlavný korpus písaných textov SNK

Slovenský národný korpus vo verzii prim-10.0 obsahuje verejne prístupné podkorpusy:

  • prim-10.0-public-all – všetky verejne prístupné texty SNK (71,00 % publicistické, 16,82 % umelecké, 11,28 % odborné, 0,90 % iné texty), 1 688 211 881 tokenov, 1 355 262 962 slov
  • prim-10.0-public-sane – bez textov s nesprávnou diakritikou a z oblastí mimo Slovenska (70,52 % publicistické, 17,15 % umelecké, 11,46 % odborné, 0,87 % iné texty), 1 649 561 653 tokenov, 1 323 046 192 slov
  • prim-10.0-public-vyv – vyvážený podkorpus (33,33 % publicistické, 33,33 % umelecké, 33,33 % odborné texty), 571 526 056 tokenov, 459 358 995 slov
  • prim-10.0-public-inf – podkorpus publicistických (informatívnych) textov, 1 163 232 349 tokenov, 931 861 092 slov
  • prim-10.0-public-prf – podkorpus vedeckých, odborných a populárno-náučných textov, 189 007 940 tokenov, 153 180 224 slov
  • prim-10.0-public-img – podkorpus umeleckých textov, 282 950 554 tokenov, 226 154 881 slov
  • prim-10.0-public-sk – podkorpus pôvodných slovenských textov (79,82 % publicistické, 7,09 % umelecké, 12,06 % odborné, 1,03 % iné texty), 1 361 493 241 tokenov, 1 093 242 491 slov
  • prim-10.0-public-img-sk – podkorpus pôvodných slovenských umeleckých textov, 96 575 573 tokenov, 77 595 977 slov
  • r1955az1989-7.0 – osobitný korpus textov z rokov 1955 – 1989 (3,99 % publicistické, 81,15 % umelecké, 11,10 % odborné, 3,76 % iné texty), 108 567 651 tokenov, 87 398 831 slov
Každý text je doplnený o podrobnú bibliografickú a štýlovo-žánrovú anotáciu, všetky jednotky v texte sú lematizované a morfologicky anotované nástrojom spaCy modelom natrénovaným v Slovenskom národnom korpuse.

Frekvenčné štatistiky korpusov