Štruktúra korpusu prim-9.0
Slovenský národný korpus vo verzii
prim-9.0 obsahuje verejne prístupné podkorpusy:
- prim-9.0-public-all – všetky verejne prístupné texty SNK (73,96 % publicistické, 15,98 % umelecké, 9,15 % odborné, 0,91 % iné texty), 1 652 197 242 tokenov, 1 282 202 460 slov
- prim-9.0-public-sane – bez textov s nesprávnou diakritikou a z oblastí mimo Slovenska (73,69 % publicistické, 16,21 % umelecké, 9,23 % odborné, 0,87 % iné texty), 1 620 900 802 tokenov, 1 256 679 127 slov
- prim-9.0-public-vyv – vyvážený podkorpus (33,33 % publicistické, 33,33 % umelecké, 33,33 % odborné texty), 453 594 173 tokenov, 354 964 595 slov
- prim-9.0-public-inf – podkorpus publicistických (informatívnych) textov, 1 194 435 396 tokenov, 919 577 280 slov
- prim-9.0-public-prf – podkorpus vedeckých, odborných a populárno-náučných textov, 149 581 785 tokenov, 117 253 528 slov
- prim-9.0-public-img – podkorpus umeleckých textov, 262 818 945 tokenov, 208 414 905 slov
- prim-9.0-public-sk – podkorpus pôvodných slovenských textov, 1 257 727 282 tokenov, 976 508 960 slov
- prim-9.0-public-img-sk – podkorpus pôvodných slovenských umeleckých textov, 93 429 604 tokenov, 74 277 009 slov
- r1955az1989-6.0 – osobitný korpus textov z rokov 1955 – 1989 (4,50 % publicistické, 78,62 % umelecké, 12,44 % odborné, 4,43 % iné texty), 98 544 125 tokenov, 78 516 963 slov
Každý text je doplnený o podrobnú bibliografickú a štýlovo-žánrovú
anotáciu, všetky jednotky v texte sú lematizované a
morfologicky anotované tagerom
MorphoDiTa natrénovaným v Slovenskom národnom korpuse.
Frekvenčné štatistiky korpusov
K dispozícii sú nasledujúce frekvenčné štatistiky jednotlivých korpusov a podkorpusov:
Prístupné sú aj štatistiky predchádzajúcich verzií:
prim-8.0,
prim-7.0,
prim-6.1,
prim-6.0,
prim-5.0,
prim-4.0,
prim-3.0 a
prim-2.1.