Štruktúra korpusu prim-7.0

hLAVNÝ KORPUS PISANÝCH TEXTOV

Slovenský národný korpus vo verzii prim-7.0 obsahuje verejne prístupné podkorpusy:
  • prim-7.0-public-all – všetky verejne prístupné texty SNK (65,1 % publicistické, 15,1 % umelecké, 9,5 % odborné a 10,3 % iné texty), 1 250 382 876 tokenov, 971 799 239 slov
  • prim-7.0-public-sane – bez textov s nesprávnou diakritikou, spred roka 1955, z oblastí mimo Slovenska a z lingvistických časopisov, 1 089 102 930 tokenov, 848 547 025 slov
  • prim-7.0-public-vyv – vyvážený podkorpus (33,3 % publicistické, 33,3 % umelecké, 33,3 % odborné texty), 340 708 046 tokenov, 266 732 524 slov
  • prim-7.0-public-inf – podkorpus publicistických (informatívnych) textov, 771 248 707 tokenov, 597 141 681 slov
  • prim-7.0-public-prf – podkorpus vedeckých, odborných a populárno-náučných textov, 114 081 861 tokenov, 89 152 482 slov
  • prim-7.0-public-img – podkorpus umeleckých textov, 187 749 798 tokenov, 149 220 076 slov
  • prim-7.0-public-sk – podkorpus pôvodných slovenských textov, 806 707 046 tokenov, 629 681 531 slov
  • prim-7.0-public-img-sk – podkorpus pôvodných slovenských umeleckých textov, 65 009 205 tokenov, 51 839 437 slov
  • r 1955 – 989-4.0 – osobitný korpus textov z rokov 1955 – 1989 (7,4 % publicistické, 69,3 % umelecké, 16,6 % odborné a 6,7 % iné texty), 67 392 068 tokenov, 53 998 092 slov Každý text je doplnený o podrobnú bibliografickú a štýlovo-žánrovú anotáciu, všetky jednotky v texte sú lematizované a morfologicky anotované

Štatistiky korpusu prim-7.0

Podiel textov v korpuse

Podiely dokumentov, viet a tokenov podľa nasledujúcich atribútov:

Frekvenčné štatistiky korpusu

K dispozícii sú nasledujúce frekvenčné štatistiky jednotlivých podkorpusov verzie prim-7.0:
Prístupné sú aj štatistiky predchádzajúcich verzií: prim-6.1, prim-6.0, prim-5.0, prim-4.0, prim-3.0 a prim-2.1.