korpus | rozsah − počet tokenov / počet slov | lemma | word | word non case sensitive | 2-gramy | 3-gramy | 4-gramy | slovné druhy |
prim-10.0-public-all | 1 688 mil. tokenov / 1 355 mil. slov | top1000 celý_súbor (kompresia_.bz2, 20,4_MB) | top1000 celý_súbor (kompresia_.bz2, 27,5_MB) | top1000 celý_súbor (kompresia_.bz2, 22,3_MB) | top1000 celý_súbor (kompresia_.bz2, 562_MB) | top1000 celý_súbor (kompresia_.bz2, 1,8_GB) | top1000 celý_súbor (kompresia_.bz2, 2,9_GB) | slovné_druhy |
prim-10.0-public-sane | 1 650 mil. tokenov / 1 323 mil. slov | top1000 celý_súbor (kompresia_.bz2, 19,9_MB) | top1000 celý_súbor (kompresia_.bz2, 26,6_MB) | top1000 celý_súbor (kompresia_.bz2, 21,9_MB) | top1000 celý_súbor (kompresia_.bz2, 551_MB) | top1000 celý_súbor (kompresia_.bz2, 1,8_GB) | top1000 celý_súbor (kompresia_.bz2, 2,9_GB) | slovné_druhy |
prim-10.0-public-inf | 1 163 mil. tokenov / 932 mil. slov | top1000 celý_súbor (kompresia_.bz2, 14,0_MB) | top1000 celý_súbor (kompresia_.bz2, 19,4_MB) | top1000 celý_súbor (kompresia_.bz2, 15,7_MB) | top1000 celý_súbor (kompresia_.bz2, 399_MB) | top1000 celý_súbor (kompresia_.bz2, 1,3_GB) | top1000 celý_súbor (kompresia_.bz2, 2,1_GB) | slovné_druhy |
prim-10.0-public-prf | 189 mil. tokenov / 153 mil. slov | top1000 celý_súbor (kompresia_.bz2, 6,3_MB) | top1000 celý_súbor (kompresia_.bz2, 9,5_MB) | top1000 celý_súbor (kompresia_.bz2, 7,8_MB) | top1000 celý_súbor (kompresia_.bz2, 114_MB) | top1000 celý_súbor (kompresia_.bz2, 279_MB) | top1000 celý_súbor (kompresia_.bz2, 380_MB) | slovné_druhy |
prim-10.0-public-img | 283 mil. tokenov / 226 mil. slov | top1000 celý_súbor (kompresia_.bz2, 4,7_MB) | top1000 celý_súbor (kompresia_.bz2, 8,4_MB) | top1000 celý_súbor (kompresia_.bz2, 6,9_MB) | top1000 celý_súbor (kompresia_.bz2, 133_MB) | top1000 celý_súbor (kompresia_.bz2, 354_MB) | top1000 celý_súbor (kompresia_.bz2, 487_MB) | slovné_druhy |
prim-10.0-public-img-sk | 97 mil. tokenov / 78 mil. slov | top1000 celý_súbor (kompresia_.bz2, 2,5_MB) | top1000 celý_súbor (kompresia_.bz2, 5,1_MB) | top1000 celý_súbor (kompresia_.bz2, 4,1_MB) | top1000 celý_súbor (kompresia_.bz2, 62,2_MB) | top1000 celý_súbor (kompresia_.bz2, 147_MB) | top1000 celý_súbor (kompresia_.bz2, 189_MB) | slovné_druhy |
r1955az1989-7.0 | 109 mil. tokenov / 87 mil. slov | top1000 celý_súbor (kompresia_.bz2, 3,1_MB) | top1000 celý_súbor (kompresia_.bz2, 5,9_MB) | top1000 celý_súbor (kompresia_.bz2, 4,9_MB) | top1000 celý_súbor (kompresia_.bz2, 72,3_MB) | top1000 celý_súbor (kompresia_.bz2, 169_MB) | top1000 celý_súbor (kompresia_.bz2, 217_MB) | slovné_druhy |
prim-9.0-public-all | 1 652 mil. tokenov / 1 282 mil. slov | top1000 celý_súbor (kompresia_.bz2, 20,4_MB) | top1000 celý_súbor (kompresia_.bz2, 27,5_MB) | top1000 celý_súbor (kompresia_.bz2, 22,3_MB) | top1000 celý_súbor (kompresia_.bz2, 562_MB) | top1000 celý_súbor (kompresia_.bz2, 1,8_GB) | top1000 celý_súbor (kompresia_.bz2, 2,9_GB) | slovné_druhy |
prim-9.0-public-sane | 1 621 mil. tokenov / 1 257 mil. slov | top1000 celý_súbor (kompresia_.bz2, 19,9_MB) | top1000 celý_súbor (kompresia_.bz2, 26,6_MB) | top1000 celý_súbor (kompresia_.bz2, 21,9_MB) | top1000 celý_súbor (kompresia_.bz2, 551_MB) | top1000 celý_súbor (kompresia_.bz2, 1,8_GB) | top1000 celý_súbor (kompresia_.bz2, 2,9_GB) | slovné_druhy |
prim-9.0-public-inf | 1 194 mil. tokenov / 920 mil. slov | top1000 celý_súbor (kompresia_.bz2, 14,0_MB) | top1000 celý_súbor (kompresia_.bz2, 19,4_MB) | top1000 celý_súbor (kompresia_.bz2, 15,7_MB) | top1000 celý_súbor (kompresia_.bz2, 399_MB) | top1000 celý_súbor (kompresia_.bz2, 1,3_GB) | top1000 celý_súbor (kompresia_.bz2, 2,1_GB) | slovné_druhy |
prim-9.0-public-prf | 150 mil. tokenov / 117 mil. slov | top1000 celý_súbor (kompresia_.bz2, 6,3_MB) | top1000 celý_súbor (kompresia_.bz2, 9,5_MB) | top1000 celý_súbor (kompresia_.bz2, 7,8_MB) | top1000 celý_súbor (kompresia_.bz2, 114_MB) | top1000 celý_súbor (kompresia_.bz2, 279_MB) | top1000 celý_súbor (kompresia_.bz2, 380_MB) | slovné_druhy |
prim-9.0-public-img | 263 mil. tokenov / 208 mil. slov | top1000 celý_súbor (kompresia_.bz2, 4,7_MB) | top1000 celý_súbor (kompresia_.bz2, 8,4_MB) | top1000 celý_súbor (kompresia_.bz2, 6,9_MB) | top1000 celý_súbor (kompresia_.bz2, 133_MB) | top1000 celý_súbor (kompresia_.bz2, 354_MB) | top1000 celý_súbor (kompresia_.bz2, 487_MB) | slovné_druhy |
prim-9.0-public-img-sk | 93 mil. tokenov / 74 mil. slov | top1000 celý_súbor (kompresia_.bz2, 2,5_MB) | top1000 celý_súbor (kompresia_.bz2, 5,1_MB) | top1000 celý_súbor (kompresia_.bz2, 4,1_MB) | top1000 celý_súbor (kompresia_.bz2, 62,2_MB) | top1000 celý_súbor (kompresia_.bz2, 147_MB) | top1000 celý_súbor (kompresia_.bz2, 189_MB) | slovné_druhy |
r1955az1989-6.0 | 99 mil. tokenov / 79 mil. slov | top1000 celý_súbor (kompresia_.bz2, 3,1_MB) | top1000 celý_súbor (kompresia_.bz2, 5,9_MB) | top1000 celý_súbor (kompresia_.bz2, 4,9_MB) | top1000 celý_súbor (kompresia_.bz2, 72,3_MB) | top1000 celý_súbor (kompresia_.bz2, 169_MB) | top1000 celý_súbor (kompresia_.bz2, 217_MB) | slovné_druhy |
prim-8.0-public-all | 1 477 mil. tokenov / 1 160 mil. slov | top1000 celý_súbor (kompresia_.bz2, 18,7_MB) | top1000 celý_súbor (kompresia_.bz2, 25,7_MB) | top1000 celý_súbor (kompresia_.bz2, 20,8_MB) | top1000 celý_súbor (kompresia_.bz2, 521_MB) | top1000 celý_súbor (kompresia_.bz2, 1,7_GB) | top1000 celý_súbor (kompresia_.bz2, 2,7_GB) | slovné_druhy |
prim-8.0-public-sane | 1 369 mil. tokenov / 1 076 mil. slov | top1000 celý_súbor (kompresia_.bz2, 16,9_MB) | top1000 celý_súbor (kompresia_.bz2, 23,7_MB) | top1000 celý_súbor (kompresia_.bz2, 19,2_MB) | top1000 celý_súbor (kompresia_.bz2, 489_MB) | top1000 celý_súbor (kompresia_.bz2, 1,6_GB) | top1000 celý_súbor (kompresia_.bz2, 2,5_GB) | slovné_druhy |
prim-8.0-public-inf | 1 010 mil. tokenov / 791 mil. slov | top1000 celý_súbor (kompresia_.bz2, 11,8_MB) | top1000 celý_súbor (kompresia_.bz2, 17,1_MB) | top1000 celý_súbor (kompresia_.bz2, 13,8_MB) | top1000 celý_súbor (kompresia_.bz2, 355_MB) | top1000 celý_súbor (kompresia_.bz2, 1,2_GB) | top1000 celý_súbor (kompresia_.bz2, 1,8_GB) | slovné_druhy |
prim-8.0-public-prf | 122 mil. tokenov / 96 mil. slov | top1000 celý_súbor (kompresia_.bz2, 5,2_MB) | top1000 celý_súbor (kompresia_.bz2, 8,2_MB) | top1000 celý_súbor (kompresia_.bz2, 6,7_MB) | top1000 celý_súbor (kompresia_.bz2, 97,3_MB) | top1000 celý_súbor (kompresia_.bz2, 235_MB) | top1000 celý_súbor (kompresia_.bz2, 315_MB) | slovné_druhy |
prim-8.0-public-img | 224 mil. tokenov / 178 mil. slov | top1000 celý_súbor (kompresia_.bz2, 4,2_MB) | top1000 celý_súbor (kompresia_.bz2, 7,7_MB) | top1000 celý_súbor (kompresia_.bz2, 6,4_MB) | top1000 celý_súbor (kompresia_.bz2, 118_MB) | top1000 celý_súbor (kompresia_.bz2, 309_MB) | top1000 celý_súbor (kompresia_.bz2, 422_MB) | slovné_druhy |
prim-8.0-public-img-sk | 83 mil. tokenov / 66 mil. slov | top1000 celý_súbor (kompresia_.bz2, 2,2_MB) | top1000 celý_súbor (kompresia_.bz2, 4,7_MB) | top1000 celý_súbor (kompresia_.bz2, 3,8_MB) | top1000 celý_súbor (kompresia_.bz2, 55,7_MB) | top1000 celý_súbor (kompresia_.bz2, 130_MB) | top1000 celý_súbor (kompresia_.bz2, 167_MB) | slovné_druhy |
r1955az1989-5.0 | 84 mil. tokenov / 67 mil. slov | top1000 celý_súbor (kompresia_.bz2, 2,8_MB) | top1000 celý_súbor (kompresia_.bz2, 5,4_MB) | top1000 celý_súbor (kompresia_.bz2, 4,5_MB) | top1000 celý_súbor (kompresia_.bz2, 64,4_MB) | top1000 celý_súbor (kompresia_.bz2, 148_MB) | top1000 celý_súbor (kompresia_.bz2, 189_MB) | slovné_druhy |
prim-7.0-public-all | 1 250 mil. tokenov / 972 mil. slov | top1000 celý_súbor (kompresia .gz, 14,7_MB) | top1000 celý_súbor (kompresia_.gz, 24,3_MB) | top1000 celý_súbor (kompresia_.bz2, 19,7_MB) | top1000 celý_súbor (kompresia_.bz2, 518_MB) | top1000 celý_súbor (kompresia_.bz2, 2,1_GB) | top1000 celý_súbor (kompresia_.bz2, 4,4_GB) | slovné_druhy |
prim-7.0-public-sane | 1 089 mil. tokenov / 849 mil. slov | top1000 celý_súbor (kompresia_.gz, 12,8_MB) | top1000 celý_súbor (kompresia_.gz, 21,6_MB) | top1000 celý_súbor (kompresia_.bz2, 17,6_MB) | top1000 celý_súbor (kompresia_.bz2, 427_MB) | top1000 celý_súbor (kompresia_.bz2, 1,3_GB) | top1000 celý_súbor (kompresia_.bz2, 2,1_GB) | slovné_druhy |
prim-7.0-public-inf | 771 mil. tokenov / 597 mil. slov | top1000 celý_súbor (kompresia_.gz, 8,8_MB) | top1000 celý_súbor (kompresia_.gz, 15,3_MB) | top1000 celý_súbor (kompresia_.bz2, 12,2_MB) | top1000 celý_súbor (kompresia_.bz2, 301_MB) | top1000 celý_súbor (kompresia_.bz2, 972_MB) | top1000 celý_súbor (kompresia_.bz2, 1,5_GB) | slovné_druhy |
prim-7.0-public-prf | 114 mil. tokenov / 89 mil. slov | top1000 celý_súbor (kompresia_.gz, 4,5_MB) | top1000 celý_súbor (kompresia_.gz, 8,0_MB) | top1000 celý_súbor (kompresia_.bz2, 6,6_MB) | top1000 celý_súbor (kompresia_.bz2, 92,3_MB) | top1000 celý_súbor (kompresia_.bz2, 220_MB) | top1000 celý_súbor (kompresia_.bz2, 294_MB) | slovné_druhy |
prim-7.0-public-img | 188 mil. tokenov / 149 mil. slov | top1000 celý_súbor (kompresia_.gz, 3,3_MB) | top1000 celý_súbor (kompresia_.gz, 7,0_MB) | top1000 celý_súbor (kompresia_.bz2, 5,8_kB) | top1000 celý_súbor (kompresia_.bz2, 104_MB) | top1000 celý_súbor (kompresia_.bz2, 268_MB) | top1000 celý_súbor (kompresia_.bz2, 362_MB) | slovné_druhy |
prim-7.0-public-img-sk | 65 mil. tokenov / 52 mil. slov | top1000 celý_súbor (kompresia_.gz, 1,8_MB) | top1000 celý_súbor (kompresia_.gz, 4,1_MB) | top1000 celý_súbor (kompresia_.bz2, 3,4_MB) | top1000 celý_súbor (kompresia_.bz2, 46,8_MB) | top1000 celý_súbor (kompresia_.bz2, 107_MB) | top1000 celý_súbor (kompresia_.bz2, 136_MB) | slovné_druhy |
r1955az1989-4.0 | 67 mil. tokenov / 54 mil. slov | top1000 celý_súbor (kompresia_.gz, 2,3_MB) | top1000 celý_súbor (kompresia_.gz, 4,9_MB) | top1000 celý_súbor (kompresia_.bz2, 4,1_MB) | top1000 celý_súbor (kompresia_.bz2, 55,8_MB) | top1000 celý_súbor (kompresia_.bz2, 125_MB) | top1000 celý_súbor (kompresia_.bz2, 160_MB) | slovné_druhy |
prim-6.1-public-all | 830 mil. tokenov / 656 mil. slov | top1000 celý_súbor (kompresia_.gz, 11,5_MB) | top1000 celý_súbor (kompresia_.gz, 19,8_MB) | top1000 celý_súbor (kompresia_.bz2, 16,0_MB) | top1000 celý_súbor (kompresia_.bz2, 399_MB) | top1000 celý_súbor (kompresia_.bz2, 1,6_GB) | top1000 celý_súbor (kompresia_.bz2, 3,1_GB) | slovné_druhy |
prim-6.1-public-inf | 541 mil. tokenov / 425 mil. slov | top1000 celý_súbor (kompresia_.gz, 7,1_MB) | top1000 celý_súbor (kompresia_.gz, 12,7_MB) | top1000 celý_súbor (kompresia_.bz2, 10,1_MB) | top1000 celý_súbor (kompresia_.bz2, 237_MB) | top1000 celý_súbor (kompresia_.bz2, 740_MB) | top1000 celý_súbor (kompresia_.bz2, 1,1_GB) | slovné_druhy |
prim-6.1-public-prf | 106 mil. tokenov / 84 mil. slov | top1000 celý_súbor (kompresia_.gz, 4,1_MB) | top1000 celý_súbor (kompresia_.gz, 7,6_MB) | top1000 celý_súbor (kompresia_.bz2, 6,2_MB) | top1000 celý_súbor (kompresia_.bz2, 87,7_MB) | top1000 celý_súbor (kompresia_.bz2, 209_MB) | top1000 celý_súbor (kompresia_.bz2, 281_MB) | slovné_druhy |
prim-6.1-public-img | 114 mil. tokenov / 91 mil. slov | top1000 celý_súbor (kompresia_.gz, 2,7_MB) | top1000 celý_súbor (kompresia_.gz, 5,8_MB) | top1000 celý_súbor (kompresia_.bz2, 4,8_MB) | top1000 celý_súbor (kompresia_.bz2, 74,9_MB) | top1000 celý_súbor (kompresia_.bz2, 180_MB) | top1000 celý_súbor (kompresia_.bz2, 236_MB) | slovné_druhy |
prim-6.1-public-img-sk | 35 mil. tokenov / 28 mil. slov | top1000 celý_súbor (kompresia_.gz, 1,3_MB) | top1000 celý_súbor (kompresia_.gz, 3,1_MB) | top1000 celý_súbor (kompresia_.bz2, 2,6_MB) | top1000 celý_súbor (kompresia_.bz2, 30,2_MB) | top1000 celý_súbor (kompresia_.bz2, 64,3_MB) | top1000 celý_súbor (kompresia_.bz2, 79,1_MB) | slovné_druhy |
r55az89-3.0 | 63 mil. tokenov / 51 mil. slov | top1000 celý_súbor (kompresia_.bz2, 2,5_MB) | top1000 celý_súbor (kompresia_.bz2, 5,0_MB) | top1000 celý_súbor (kompresia_.bz2, 4,2_MB) | top1000 celý_súbor (kompresia_.bz2, 55,0_MB) | top1000 celý_súbor (kompresia_.bz2, 122_MB) | top1000 celý_súbor (kompresia_.bz2, 156_MB) | slovné_druhy |