Štruktúra korpusu prim-5.0

Slovenský národný korpus vo verzii prim-5.0 obsahuje verejne prístupné podkorpusy:

  • prim-5.0-public-all – všetky verejne prístupné texty SNK, 719 499 235 tokenov (73 % publicistické, 14 % umelecké, 12 % odborné a 1 % iné texty)
  • prim-5.0-public-inf – podkorpus publicistických (informatívnych) textov, 514 588 190 tokenov
  • prim-5.0-public-prf – podkorpus vedeckých a odborných textov, 82 390 173 tokenov
  • prim-5.0-public-img – podkorpus umeleckých textov, 99 235 619 tokenov
  • prim-5.0-public-sk – podkorpus pôvodných slovenských textov, 508 662 478 tokenov
  • prim-5.0-public-skimg – podkorpus pôvodných slovenských umeleckých textov, 31 745 338 tokenov
  • prim-5.0-public-sane – vyčistený podkorpus bez textov nezodpovedajúcich niektorým kritériám (správna diakritika, súčasný spisovný jazyk, nelingvistické texty), 699 496 280 tokenov
  • prim-5.0-vyv – vyvážený podkorpus (33,3 % publicistické, 33,3 % umelecké, 33,3 % odborné texty), 247 180 756 tokenov

Štatistiky korpusu prim-5.0

Podiel textov v korpuse

Podiely dokumentov, viet a tokenov podľa nasledujúcich atribútov:

Frekvenčné štatistiky korpusu

K dispozícii sú nasledujúce frekvenčné štatistiky jednotlivých podkorpusov verzie prim-5.0:

Prístupné sú aj štatistiky predchádzajúcich verzií: prim-4.0, prim-3.0 a prim-2.1.