Štruktúra korpusu prim-9.0

Slovenský národný korpus vo verzii prim-9.0 obsahuje verejne prístupné podkorpusy:

  • prim-9.0-public-all – všetky verejne prístupné texty SNK (73,96 % publicistické, 15,98 % umelecké, 9,15 % odborné, 0,91 % iné texty), 1 652 197 242 tokenov, 1 282 202 460 slov
  • prim-9.0-public-sane – bez textov s nesprávnou diakritikou a z oblastí mimo Slovenska (73,69 % publicistické, 16,21 % umelecké, 9,23 % odborné, 0,87 % iné texty), 1 620 900 802 tokenov, 1 256 679 127 slov
  • prim-9.0-public-vyv – vyvážený podkorpus (33,33 % publicistické, 33,33 % umelecké, 33,33 % odborné texty), 453 594 173 tokenov, 354 964 595 slov
  • prim-9.0-public-inf – podkorpus publicistických (informatívnych) textov, 1 194 435 396 tokenov, 919 577 280 slov
  • prim-9.0-public-prf – podkorpus vedeckých, odborných a populárno-náučných textov, 149 581 785 tokenov, 117 253 528 slov
  • prim-9.0-public-img – podkorpus umeleckých textov, 262 818 945 tokenov, 208 414 905 slov
  • prim-9.0-public-sk – podkorpus pôvodných slovenských textov, 1 257 727 282 tokenov, 976 508 960 slov
  • prim-9.0-public-img-sk – podkorpus pôvodných slovenských umeleckých textov, 93 429 604 tokenov, 74 277 009 slov
  • r1955az1989-6.0 – osobitný korpus textov z rokov 1955 – 1989 (4,50 % publicistické, 78,62 % umelecké, 12,44 % odborné, 4,43 % iné texty), 98 544 125 tokenov, 78 516 963 slov

Každý text je doplnený o podrobnú bibliografickú a štýlovo-žánrovú anotáciu, všetky jednotky v texte sú lematizované a morfologicky anotované tagerom MorphoDiTa natrénovaným v Slovenskom národnom korpuse.

Frekvenčné štatistiky korpusov

K dispozícii sú nasledujúce frekvenčné štatistiky jednotlivých korpusov a podkorpusov:

Prístupné sú aj štatistiky predchádzajúcich verzií: prim-8.0prim-7.0prim-6.1prim-6.0prim-5.0prim-4.0prim-3.0 a prim-2.1.