Štruktúra korpusu prim-11.0

Hlavný korpus písaných textov SNK

Slovenský národný korpus vo verzii prim-11.0 obsahuje verejne prístupné podkorpusy:

  • prim-11.0-public-all – všetky verejne prístupné texty SNK (69,45 % publicistické, 17,93 % umelecké, 11,76 % odborné, 0,86 % iné texty), 1 859 466 001 tokenov, 1 494 472 047 slov
  • prim-11.0-public-sane – bez textov s nesprávnou diakritikou a z oblastí mimo Slovenska (69,11 % publicistické, 18,19 % umelecké, 11,87 % odborné, 0,82 % iné texty), 1 830 899 368 tokenov, 1 470 656 952 slov
  • prim-11.0-public-vyv – vyvážený podkorpus (33,34 % publicistické, 33,33 % umelecké, 33,33 % odborné texty), 655 921 497 tokenov, 527 684 718 slov
  • prim-11.0-public-inf – podkorpus publicistických (informatívnych) textov, 1 265 407 184 tokenov, 1 015 747 671 slov
  • prim-11.0-public-prf – podkorpus vedeckých, odborných a populárno-náučných textov, 217 314 642 tokenov, 176 427 670 slov
  • prim-11.0-public-img – podkorpus umeleckých textov, 333 119 892 tokenov, 266 065 753 slov
  • prim-11.0-public-sk – podkorpus pôvodných slovenských textov (78,66 % publicistické, 12,83 % umelecké, 7,52 % odborné, 0,99 % iné texty), 1 491 727 093 tokenov, 1 200 473 815 slov
  • prim-11.0-public-img-sk – podkorpus pôvodných slovenských umeleckých textov, 112 147 673 tokenov, 90 130 279 slov
  • r1955az1989-8.0 – osobitný korpus textov z rokov 1955 – 1989 (3,70 % publicistické, 82,17 % umelecké, 10,15 % odborné, 3,97 % iné texty), 118 208 927 tokenov, 95 077 456 slov

Každý text je doplnený o podrobnú bibliografickú a štýlovo-žánrovú anotáciu, všetky jednotky v texte sú lematizované a morfologicky anotované nástrojom spaCy modelom natrénovaným v Slovenskom národnom korpuse a na opravy zle určených tvarov bola použitá interná databáza tvarov.

Frekvenčné štatistiky korpusov

K dispozícii sú nasledujúce frekvenčné štatistiky jednotlivých korpusov a podkorpusov:

Prístupné sú aj štatistiky predchádzajúcich verzií: prim-10.0, prim-9.0, prim-8.0, prim-7.0, prim-6.1, prim-6.0, prim-5.0, prim-4.0, prim-3.0 a prim-2.1.