HLAVNÝ KORPUS PÍSANÝCH TEXTOV SNK
Slovenský národný korpus vo verzii prim-3.0 obsahuje verejne prístupné podkorpusy:
- prim-3.0-public-all – všetky verejne prístupné texty SNK (60,6 % publicistické, 17,5 % umelecké, 11,6 % odborné a 10,3 % iné texty), 339 063 215 tokenov
- prim-3.0-public-inf – podkorpus publicistických (informatívnych) textov, 181 537 375 tokenov
- prim-3.0-public-prf – podkorpus vedeckých a odborných textov, 68 161 562 tokenov
- prim-3.0-public-img – podkorpus umeleckých textov, 66 397 636 tokenov
- prim-3.0-public-skimg – podkorpus pôvodných slovenských umeleckých textov, 16 416 520 tokenov
- prim-3.0-public-sane – vyčistený podkorpus bez textov nezodpovedajúcich niektorým kritériám (správna diakritika, súčasný spisovný jazyk, nelingvistické texty), 319 644 966 tokenov
- prim-3.0-vyv – vyvážený podkorpus (60 % publicistika, 20 % umelecké, 20 % odborné texty), 199 822 572 tokenov
Štatistiky korpusu prim-3.0
- Zoznam konglomerátov v SNK [textový súbor v UTF-8 kódovaní, 236 kB]
- Zoznam bibliografií všetkých textov spracovaných v SNK [textový súbor v UTF-8 kódovaní, 545 kB] (v zjednodušenej podobe tu)
- Zoznam prekladov v SNK
Podiel textov v korpuse
Podiely dokumentov, viet a tokenov podľa nasledujúcich atribútov:
Frekvenčné štatistiky korpusu
K dispozícii sú nasledujúce frekvenčné štatistiky jednotlivých podkorpusov verzie prim-3.0:
- Dĺžky textov podľa počtu viet: PNG, SVG
- Dĺžky textov podľa počtu tokenov: PNG, SVG
- Frekvencie lem a slov
- Frekvencie bigramov slov a trigramov slov
Prístupné sú aj štatistiky predchádzajúcej verzie: prim-2.1.