Štruktúra korpusu prim-3.0

HLAVNÝ KORPUS PÍSANÝCH TEXTOV SNK

Slovenský národný korpus vo verzii prim-3.0 obsahuje verejne prístupné podkorpusy:

  • prim-3.0-public-all – všetky verejne prístupné texty SNK (60,6 % publicistické, 17,5 % umelecké, 11,6 % odborné a 10,3 % iné texty), 339 063 215 tokenov
  • prim-3.0-public-inf – podkorpus publicistických (informatívnych) textov, 181 537 375 tokenov
  • prim-3.0-public-prf – podkorpus vedeckých a odborných textov, 68 161 562 tokenov
  • prim-3.0-public-img – podkorpus umeleckých textov, 66 397 636 tokenov
  • prim-3.0-public-skimg – podkorpus pôvodných slovenských umeleckých textov, 16 416 520 tokenov
  • prim-3.0-public-sane – vyčistený podkorpus bez textov nezodpovedajúcich niektorým kritériám (správna diakritika, súčasný spisovný jazyk, nelingvistické texty), 319 644 966 tokenov
  • prim-3.0-vyv – vyvážený podkorpus (60 % publicistika, 20 % umelecké, 20 % odborné texty), 199 822 572 tokenov

Štatistiky korpusu prim-3.0

Podiel textov v korpuse

Podiely dokumentov, viet a tokenov podľa nasledujúcich atribútov:

Frekvenčné štatistiky korpusu

K dispozícii sú nasledujúce frekvenčné štatistiky jednotlivých podkorpusov verzie prim-3.0:

Prístupné sú aj štatistiky predchádzajúcej verzie: prim-2.1.