Štruktúra korpusu prim-4.0

Slovenský národný korpus vo verzii prim-4.0 obsahuje verejne prístupné podkorpusy:

  • prim-4.0-public-all – všetky verejne prístupné texty SNK, 526 082 640 tokenov (65 % publicistika, 17 % umelecké, 16 % odborné a 2 % iné texty)
  • prim-4.0-public-inf – podkorpus publicistických (informatívnych) textov, 329 876 429 tokenov
  • prim-4.0-public-prf – podkorpus vedeckých a odborných textov, 84 745 747 tokenov
  • prim-4.0-public-img – podkorpus umeleckých textov, 88 628 350 tokenov
  • prim-4.0-public-sk – podkorpus pôvodných slovenských textov, 314 708 915 tokenov
  • prim-4.0-public-skimg – podkorpus pôvodných slovenských umeleckých textov, 26 462 144 tokenov
  • prim-4.0-public-sane – vyčistený podkorpus bez textov nezodpovedajúcich niektorým kritériám (správna diakritika, súčasný spisovný jazyk, nelingvistické texty), 507 101 251 tokenov
  • prim-4.0-vyv – vyvážený podkorpus (33,3 % publicistické, 33,3 % umelecké, 33,3 % odborné texty), 254 236 903 tokenov

Štatistiky korpusu prim-4.0

Podiel textov v korpuse

Podiely dokumentov, viet a tokenov podľa nasledujúcich atribútov:

Frekvenčné štatistiky korpusu

K dispozícii sú nasledujúce frekvenčné štatistiky jednotlivých podkorpusov verzie prim-4.0:

Prístupné sú aj štatistiky predchádzajúcich verzií: prim-3.0 a prim-2.1.