O štruktúre korpusu prim-8.0

HLAVNÝ KORPUS PÍSANÝCH TEXTOV SNK

Slovenský národný korpus vo verzii prim-8.0 obsahuje verejne prístupné podkorpusy:

  • prim-8.0-public-all – všetky verejne prístupné texty SNK (71,10 % publicistické, 15,22 % umelecké, 8,51 % odborné, 5,17 % iné texty), 1 477 447 216 tokenov, 1 160 286 731 slov
  • prim-8.0-public-sane – bez textov s nesprávnou diakritikou, spred roka 1955, z oblastí mimo Slovenska a z lingvistických časopisov (73,75 % publicistické, 16,33 % umelecké, 8,91 % odborné, 1,01 % iné texty), 1 368 990 447 tokenov, 1 076 309 519 slov
  • prim-8.0-public-vyv – vyvážený podkorpus (33,33 % publicistické, 33,33 % umelecké, 33,33 % odborné texty), 377 138 077 tokenov, 297 524 160 slov
  • prim-8.0-public-inf – podkorpus publicistických (informatívnych) textov, 1 009 613 215 tokenov, 791 376 893 slov
  • prim-8.0-public-prf – podkorpus vedeckých, odborných a populárno-náučných textov, 121 926 591 tokenov, 96 084 340 slov
  • prim-8.0-public-img – podkorpus umeleckých textov, 223 552 510 tokenov, 177 545 076 slov
  • prim-8.0-public-sk – podkorpus pôvodných slovenských textov (81,24 % publicistické, 7,91 % umelecké, 9,53 % odborné, 1,32 % iné texty), 1 042 623 207 tokenov, 821 878 724 slov
  • prim-8.0-public-img-sk – podkorpus pôvodných slovenských umeleckých textov, 82 503 983 tokenov, 65 627 003 slov
  • r 1955 – 1989-5.0 – osobitný korpus textov z rokov 1955 – 1989 (5,11 % publicistické, 75,73 % umelecké, 13,82 % odborné, 5,34 % iné texty), 83 631 422 tokenov, 66 825 217 slov

Každý text je doplnený o podrobnú bibliografickú a štýlovo-žánrovú anotáciu, všetky jednotky v texte sú lematizované a morfologicky anotované tagerom MorphoDiTa natrénovaným v Slovenskom národnom korpuse.


Štatistiky korpusu prim-8.0

  • Zoznam konglomerátov v SNK [textový súbor v UTF-8 kódovaní, 1,3 MB]
  • Zoznam bibliografií všetkých textov spracovaných v SNK [textový súbor v UTF-8 kódovaní, 2,8 MB]
  • Zoznam prekladov v SNK

Frekvenčné štatistiky korpusov

K dispozícii sú nasledujúce frekvenčné štatistiky jednotlivých korpusov a podkorpusov:

  • Všeobecná charakteristika korpusov
  • Frekvenčné zoznamy lem, tvarov slov a slovných druhov z verejne prístupných korpusov SNK
  • Atribúty a štruktúrne značky vo verejne prístupných korpusoch SNK

Prístupné sú aj štatistiky predchádzajúcich verzií: prim-7.0, prim-6.1, prim-6.0, prim-5.0, prim-4.0, prim-3.0 a prim-2.1.