Štruktúra korpusu prim-2.1

Slovenský národný korpus vo verzii prim-2.1 obsahuje verejne prístupné podkorpusy:

  • prim-2.1-public-all – všetky verejne prístupné texty SNK (60,6 % publicistické, 17,5 % umelecké, 11,6 % odborné a 10,3 % iné texty), 294 087 581 tokenov
  • prim-2.1-public-inf – podkorpus publicistických (informatívnych) textov, 178 070 839 tokenov
  • prim-2.1-public-prf – podkorpus vedeckých a odborných textov, 34 118 166 tokenov
  • prim-2.1-public-img – podkorpus umeleckých textov, 51 365 542 tokenov
  • prim-2.1 public-skimg – podkorpus pôvodných slovenských umeleckých textov, 12 508 261 tokenov
  • prim-2.1-public-sane – vyčistený podkorpus bez textov nezodpovedajúcich niektorým kritériám (správna diakritika, súčasný spisovný jazyk, nelingvistické texty), 285 700 835 tokenov
  • prim-2.1-vyv – vyvážený podkorpus (60 % publicistika, 20 % umelecké, 20 % odborné texty), 54 357 894 tokenov

Štatistiky korpusu prim-2.1

Podiel textov v korpuse

Podiely dokumentov, viet a tokenov podľa nasledujúcich atribútov:

Frekvenčné štatistiky korpusu

K dispozícii sú nasledujúce frekvenčné štatistiky jednotlivých podkorpusov verzie prim-2-1: