Štruktúra korpusu prim-8.0

HLAVNÝ KORPUS PÍSANÝCH TEXTOV SNK​

Slovenský národný korpus vo verzii prim-8.0 obsahuje verejne prístupné podkorpusy:
  • prim-8.0-public-all – všetky verejne prístupné texty SNK (71,10 % publicistické, 15,22 % umelecké, 8,51 % odborné, 5,17 % iné texty), 1 477 447 216 tokenov, 1 160 286 731 slov
  • prim-8.0-public-sane – bez textov s nesprávnou diakritikou, spred roka 1955, z oblastí mimo Slovenska a z lingvistických časopisov (73,75 % publicistické, 16,33 % umelecké, 8,91 % odborné, 1,01 % iné texty), 1 368 990 447 tokenov, 1 076 309 519 slov prim-8.0-public-vyv – vyvážený podkorpus (33,33 % publicistické, 33,33 % umelecké, 33,33 % odborné texty), 377 138 077 tokenov, 297 524 160 slov
  • prim-8.0-public-inf – podkorpus publicistických (informatívnych) textov, 1 009 613 215 tokenov, 791 376 893 slov
  • prim-8.0-public-prf – podkorpus vedeckých, odborných a populárno-náučných textov, 121 926 591 tokenov, 96 084 340 slov
  • prim-8.0-public-img – podkorpus umeleckých textov, 223 552 510 tokenov, 177 545 076 slov
  • prim-8.0-public-sk – podkorpus pôvodných slovenských textov (81,24 % publicistické, 7,91 % umelecké, 9,53 % odborné, 1,32 % iné texty), 1 042 623 207 tokenov, 821 878 724 slov
  • prim-8.0-public-img-sk – podkorpus pôvodných slovenských umeleckých textov, 82 503 983 tokenov, 65 627 003 slov
  • r 1955 –  1989-5.0 – osobitný korpus textov z rokov 1955 – 1989 (5,11 % publicistické, 75,73 % umelecké, 13,82 % odborné, 5,34 % iné texty), 83 631 422 tokenov, 66 825 217 slov
Každý text je doplnený o podrobnú bibliografickú a štýlovo-žánrovú anotáciu, všetky jednotky v texte sú lematizované a morfologicky anotované tagerom MorphoDiTa natrénovaným v Slovenskom národnom korpuse.

Štatistiky korpusu prim-8.0

Frekvenčné štatistiky korpusov