hLAVNÝ KORPUS PISANÝCH TEXTOV
Slovenský národný korpus vo verzii prim-7.0 obsahuje verejne prístupné podkorpusy:
- prim-7.0-public-all – všetky verejne prístupné texty SNK (65,1 % publicistické, 15,1 % umelecké, 9,5 % odborné a 10,3 % iné texty), 1 250 382 876 tokenov, 971 799 239 slov
- prim-7.0-public-sane – bez textov s nesprávnou diakritikou, spred roka 1955, z oblastí mimo Slovenska a z lingvistických časopisov, 1 089 102 930 tokenov, 848 547 025 slov
- prim-7.0-public-vyv – vyvážený podkorpus (33,3 % publicistické, 33,3 % umelecké, 33,3 % odborné texty), 340 708 046 tokenov, 266 732 524 slov
- prim-7.0-public-inf – podkorpus publicistických (informatívnych) textov, 771 248 707 tokenov, 597 141 681 slov
- prim-7.0-public-prf – podkorpus vedeckých, odborných a populárno-náučných textov, 114 081 861 tokenov, 89 152 482 slov
- prim-7.0-public-img – podkorpus umeleckých textov, 187 749 798 tokenov, 149 220 076 slov
- prim-7.0-public-sk – podkorpus pôvodných slovenských textov, 806 707 046 tokenov, 629 681 531 slov
- prim-7.0-public-img-sk – podkorpus pôvodných slovenských umeleckých textov, 65 009 205 tokenov, 51 839 437 slov
- r 1955 – 989-4.0 – osobitný korpus textov z rokov 1955 – 1989 (7,4 % publicistické, 69,3 % umelecké, 16,6 % odborné a 6,7 % iné texty), 67 392 068 tokenov, 53 998 092 slov Každý text je doplnený o podrobnú bibliografickú a štýlovo-žánrovú anotáciu, všetky jednotky v texte sú lematizované a morfologicky anotované
Štatistiky korpusu prim-7.0
- Zoznam konglomerátov v SNK [textový súbor v UTF-8 kódovaní, 908 kB]
- Zoznam bibliografií všetkých textov spracovaných v SNK [textový súbor v UTF-8 kódovaní, 2,3 MB] (v zjednodušenej podobe tu)
- Zoznam prekladov v SNK
Podiel textov v korpuse
Podiely dokumentov, viet a tokenov podľa nasledujúcich atribútov:
Frekvenčné štatistiky korpusu
K dispozícii sú nasledujúce frekvenčné štatistiky jednotlivých podkorpusov verzie prim-7.0:
- Dĺžky textov podľa počtu viet: PNG, SVG
- Dĺžky textov podľa počtu tokenov: PNG, SVG
- Frekvencie lem a slov
- Frekvencie bigramov slov, trigramov slov a tetragramov slov
- Jazykové modely