corpus | size − number of tokens / number of words | lemma | word | word non case sensitive | 2-grams | 3-grams | 4-grams | parts of speech |
prim-10.0-public-all | 1 688 million tokens / 1 355 million words | top1000 celý_súbor (kompresia_.bz2, 20,4_MB) | top1000 celý_súbor (kompresia_.bz2, 27,5_MB) | top1000 celý_súbor (kompresia_.bz2, 22,3_MB) | top1000 celý_súbor (kompresia_.bz2, 562_MB) | top1000 celý_súbor (kompresia_.bz2, 1,8_GB) | top1000 celý_súbor (kompresia_.bz2, 2,9_GB) | slovné_druhy |
prim-10.0-public-sane | 1 650 million tokens / 1 323 million words | top1000 celý_súbor (kompresia_.bz2, 19,9_MB) | top1000 celý_súbor (kompresia_.bz2, 26,6_MB) | top1000 celý_súbor (kompresia_.bz2, 21,9_MB) | top1000 celý_súbor (kompresia_.bz2, 551_MB) | top1000 celý_súbor (kompresia_.bz2, 1,8_GB) | top1000 celý_súbor (kompresia_.bz2, 2,9_GB) | slovné_druhy |
prim-10.0-public-inf | 1 163 million tokens / 932 million words | top1000 celý_súbor (kompresia_.bz2, 14,0_MB) | top1000 celý_súbor (kompresia_.bz2, 19,4_MB) | top1000 celý_súbor (kompresia_.bz2, 15,7_MB) | top1000 celý_súbor (kompresia_.bz2, 399_MB) | top1000 celý_súbor (kompresia_.bz2, 1,3_GB) | top1000 celý_súbor (kompresia_.bz2, 2,1_GB) | slovné_druhy |
prim-10.0-public-prf | 189 million tokens / 153 million words | top1000 celý_súbor (kompresia_.bz2, 6,3_MB) | top1000 celý_súbor (kompresia_.bz2, 9,5_MB) | top1000 celý_súbor (kompresia_.bz2, 7,8_MB) | top1000 celý_súbor (kompresia_.bz2, 114_MB) | top1000 celý_súbor (kompresia_.bz2, 279_MB) | top1000 celý_súbor (kompresia_.bz2, 380_MB) | slovné_druhy |
prim-10.0-public-img | 283 million tokens / 226 million words | top1000 celý_súbor (kompresia_.bz2, 4,7_MB) | top1000 celý_súbor (kompresia_.bz2, 8,4_MB) | top1000 celý_súbor (kompresia_.bz2, 6,9_MB) | top1000 celý_súbor (kompresia_.bz2, 133_MB) | top1000 celý_súbor (kompresia_.bz2, 354_MB) | top1000 celý_súbor (kompresia_.bz2, 487_MB) | slovné_druhy |
prim-10.0-public-img-sk | 97 million tokens / 78 million words | top1000 celý_súbor (kompresia_.bz2, 2,5_MB) | top1000 celý_súbor (kompresia_.bz2, 5,1_MB) | top1000 celý_súbor (kompresia_.bz2, 4,1_MB) | top1000 celý_súbor (kompresia_.bz2, 62,2_MB) | top1000 celý_súbor (kompresia_.bz2, 147_MB) | top1000 celý_súbor (kompresia_.bz2, 189_MB) | slovné_druhy |
r1955az1989-7.0 | 109 million tokens / 87 million words | top1000 celý_súbor (kompresia_.bz2, 3,1_MB) | top1000 celý_súbor (kompresia_.bz2, 5,9_MB) | top1000 celý_súbor (kompresia_.bz2, 4,9_MB) | top1000 celý_súbor (kompresia_.bz2, 72,3_MB) | top1000 celý_súbor (kompresia_.bz2, 169_MB) | top1000 celý_súbor (kompresia_.bz2, 217_MB) | slovné_druhy |
prim-9.0-public-all | 1 652 million tokens / 1 282 million words | top1000 celý_súbor (kompresia_.bz2, 20,4_MB) | top1000 celý_súbor (kompresia_.bz2, 27,5_MB) | top1000 celý_súbor (kompresia_.bz2, 22,3_MB) | top1000 celý_súbor (kompresia_.bz2, 562_MB) | top1000 celý_súbor (kompresia_.bz2, 1,8_GB) | top1000 celý_súbor (kompresia_.bz2, 2,9_GB) | slovné_druhy |
prim-9.0-public-sane | 1 621 million tokens / 1 257 million words | top1000 celý_súbor (kompresia_.bz2, 19,9_MB) | top1000 celý_súbor (kompresia_.bz2, 26,6_MB) | top1000 celý_súbor (kompresia_.bz2, 21,9_MB) | top1000 celý_súbor (kompresia_.bz2, 551_MB) | top1000 celý_súbor (kompresia_.bz2, 1,8_GB) | top1000 celý_súbor (kompresia_.bz2, 2,9_GB) | slovné_druhy |
prim-9.0-public-inf | 1 194 million tokens / 920 million words | top1000 celý_súbor (kompresia_.bz2, 14,0_MB) | top1000 celý_súbor (kompresia_.bz2, 19,4_MB) | top1000 celý_súbor (kompresia_.bz2, 15,7_MB) | top1000 celý_súbor (kompresia_.bz2, 399_MB) | top1000 celý_súbor (kompresia_.bz2, 1,3_GB) | top1000 celý_súbor (kompresia_.bz2, 2,1_GB) | slovné_druhy |
prim-9.0-public-prf | 150 million tokens / 117 million words | top1000 celý_súbor (kompresia_.bz2, 6,3_MB) | top1000 celý_súbor (kompresia_.bz2, 9,5_MB) | top1000 celý_súbor (kompresia_.bz2, 7,8_MB) | top1000 celý_súbor (kompresia_.bz2, 114_MB) | top1000 celý_súbor (kompresia_.bz2, 279_MB) | top1000 celý_súbor (kompresia_.bz2, 380_MB) | slovné_druhy |
prim-9.0-public-img | 263 million tokens / 208 million words | top1000 celý_súbor (kompresia_.bz2, 4,7_MB) | top1000 celý_súbor (kompresia_.bz2, 8,4_MB) | top1000 celý_súbor (kompresia_.bz2, 6,9_MB) | top1000 celý_súbor (kompresia_.bz2, 133_MB) | top1000 celý_súbor (kompresia_.bz2, 354_MB) | top1000 celý_súbor (kompresia_.bz2, 487_MB) | slovné_druhy |
prim-9.0-public-img-sk | 93 million tokens / 74 million words | top1000 celý_súbor (kompresia_.bz2, 2,5_MB) | top1000 celý_súbor (kompresia_.bz2, 5,1_MB) | top1000 celý_súbor (kompresia_.bz2, 4,1_MB) | top1000 celý_súbor (kompresia_.bz2, 62,2_MB) | top1000 celý_súbor (kompresia_.bz2, 147_MB) | top1000 celý_súbor (kompresia_.bz2, 189_MB) | slovné_druhy |
r1955az1989-6.0 | 99 million tokens / 79 million words | top1000 celý_súbor (kompresia_.bz2, 3,1_MB) | top1000 celý_súbor (kompresia_.bz2, 5,9_MB) | top1000 celý_súbor (kompresia_.bz2, 4,9_MB) | top1000 celý_súbor (kompresia_.bz2, 72,3_MB) | top1000 celý_súbor (kompresia_.bz2, 169_MB) | top1000 celý_súbor (kompresia_.bz2, 217_MB) | slovné_druhy |
prim-8.0-public-all | 1 477 million tokens / 1 160 million words | top1000 celý_súbor (kompresia_.bz2, 18,7_MB) | top1000 celý_súbor (kompresia_.bz2, 25,7_MB) | top1000 celý_súbor (kompresia_.bz2, 20,8_MB) | top1000 celý_súbor (kompresia_.bz2, 521_MB) | top1000 celý_súbor (kompresia_.bz2, 1,7_GB) | top1000 celý_súbor (kompresia_.bz2, 2,7_GB) | slovné_druhy |
prim-8.0-public-sane | 1 369 million tokens / 1 076 million words | top1000 celý_súbor (kompresia_.bz2, 16,9_MB) | top1000 celý_súbor (kompresia_.bz2, 23,7_MB) | top1000 celý_súbor (kompresia_.bz2, 19,2_MB) | top1000 celý_súbor (kompresia_.bz2, 489_MB) | top1000 celý_súbor (kompresia_.bz2, 1,6_GB) | top1000 celý_súbor (kompresia_.bz2, 2,5_GB) | slovné_druhy |
prim-8.0-public-inf | 1 010 million tokens / 791 million words | top1000 celý_súbor (kompresia_.bz2, 11,8_MB) | top1000 celý_súbor (kompresia_.bz2, 17,1_MB) | top1000 celý_súbor (kompresia_.bz2, 13,8_MB) | top1000 celý_súbor (kompresia_.bz2, 355_MB) | top1000 celý_súbor (kompresia_.bz2, 1,2_GB) | top1000 celý_súbor (kompresia_.bz2, 1,8_GB) | slovné_druhy |
prim-8.0-public-prf | 122 million tokens / 96 million words | top1000 celý_súbor (kompresia_.bz2, 5,2_MB) | top1000 celý_súbor (kompresia_.bz2, 8,2_MB) | top1000 celý_súbor (kompresia_.bz2, 6,7_MB) | top1000 celý_súbor (kompresia_.bz2, 97,3_MB) | top1000 celý_súbor (kompresia_.bz2, 235_MB) | top1000 celý_súbor (kompresia_.bz2, 315_MB) | slovné_druhy |
prim-8.0-public-img | 224 million tokens / 178 million words | top1000 celý_súbor (kompresia_.bz2, 4,2_MB) | top1000 celý_súbor (kompresia_.bz2, 7,7_MB) | top1000 celý_súbor (kompresia_.bz2, 6,4_MB) | top1000 celý_súbor (kompresia_.bz2, 118_MB) | top1000 celý_súbor (kompresia_.bz2, 309_MB) | top1000 celý_súbor (kompresia_.bz2, 422_MB) | slovné_druhy |
prim-8.0-public-img-sk | 83 million tokens / 66 million words | top1000 celý_súbor (kompresia_.bz2, 2,2_MB) | top1000 celý_súbor (kompresia_.bz2, 4,7_MB) | top1000 celý_súbor (kompresia_.bz2, 3,8_MB) | top1000 celý_súbor (kompresia_.bz2, 55,7_MB) | top1000 celý_súbor (kompresia_.bz2, 130_MB) | top1000 celý_súbor (kompresia_.bz2, 167_MB) | slovné_druhy |
r1955az1989-5.0 | 84 million tokens / 67 million words | top1000 celý_súbor (kompresia_.bz2, 2,8_MB) | top1000 celý_súbor (kompresia_.bz2, 5,4_MB) | top1000 celý_súbor (kompresia_.bz2, 4,5_MB) | top1000 celý_súbor (kompresia_.bz2, 64,4_MB) | top1000 celý_súbor (kompresia_.bz2, 148_GB) | top1000 celý_súbor (kompresia_.bz2, 189_GB) | slovné_druhy |
prim-7.0-public-all | 1 250 million tokens / 972 million words | top1000 celý_súbor (kompresia .gz, 14,7_MB) | top1000 celý_súbor (kompresia_.gz, 24,3_MB) | top1000 celý_súbor (kompresia_.bz2, 19,7_MB) | top1000 celý_súbor (kompresia_.bz2, 518_MB) | top1000 celý_súbor (kompresia_.bz2, 2,1_GB) | top1000 celý_súbor (kompresia_.bz2, 4,4_GB) | slovné_druhy |
prim-7.0-public-sane | 1 089 million tokens / 849 milion words | top1000 celý_súbor (kompresia_.gz, 12,8_MB) | top1000 celý_súbor (kompresia_.gz, 21,6_MB) | top1000 celý_súbor (kompresia_.bz2, 17,6_MB) | top1000 celý_súbor (kompresia_.bz2, 427_MB) | top1000 celý_súbor (kompresia_.bz2, 1,3_GB) | top1000 celý_súbor (kompresia_.bz2, 2,1_GB) | slovné_druhy |
prim-7.0-public-inf | 771 million tokens / 597 milion words | top1000 celý_súbor (kompresia_.gz, 8,8_MB) | top1000 celý_súbor (kompresia_.gz, 15,3_MB) | top1000 celý_súbor (kompresia_.bz2, 12,2_MB) | top1000 celý_súbor (kompresia_.bz2, 333_MB) | top1000 celý_súbor (kompresia_.bz2, 1,0_GB) | top1000 celý_súbor (kompresia_.bz2, 1,5_GB) | slovné_druhy |
prim-7.0-public-prf | 114 million tokens / 89 million words | top1000 celý_súbor (kompresia_.gz, 4,5_MB) | top1000 celý_súbor (kompresia_.gz, 8,0_MB) | top1000 celý_súbor (kompresia_.bz2, 6,6_MB) | top1000 celý_súbor (kompresia_.bz2, 99,8_MB) | top1000 celý_súbor (kompresia_.bz2, 229_MB) | top1000 celý_súbor (kompresia_.bz2, 303_MB) | slovné_druhy |
prim-7.0-public-img | 188 million tokens / 149 million words | top1000 celý_súbor (kompresia_.gz, 3,3_MB) | top1000 celý_súbor (kompresia_.gz, 7,0_MB) | top1000 celý_súbor (kompresia_.bz2, 5,8_kB) | top1000 celý_súbor (kompresia_.bz2, 112_MB) | top1000 celý_súbor (kompresia_.bz2, 280_MB) | top1000 celý_súbor (kompresia_.bz2, 374_MB) | slovné_druhy |
prim-7.0-public-img-sk | 65 million tokens / 52 million words | top1000 celý_súbor (kompresia_.gz, 1,8_MB) | top1000 celý_súbor (kompresia_.gz, 4,1_MB) | top1000 celý_súbor (kompresia_.bz2, 3,4_MB) | top1000 celý_súbor (kompresia_.bz2, 50,4_MB) | top1000 celý_súbor (kompresia_.bz2, 111_MB) | top1000 celý_súbor (kompresia_.bz2, 140_MB) | slovné_druhy |
r1955az1989-4.0 | 67 million tokens / 54 million words | top1000 celý_súbor (kompresia_.gz, 4,9_MB) | top1000 celý_súbor (kompresia_.gz, 2,3_MB) | top1000 celý_súbor (kompresia_.bz2, 4,1_MB) | top1000 celý_súbor (kompresia_.bz2, 60_MB) | top1000 celý_súbor (kompresia_.bz2, 131_MB) | top1000 celý_súbor (kompresia_.bz2, 164_MB) | slovné_druhy |
prim-6.1-public-all | 830 million tokens / 656 million word | top1000 celý_súbor (kompresia_.gz, 11,5_MB) | top1000 celý_súbor (kompresia_.gz, 19,8_MB) | top1000 celý_súbor (kompresia_.bz2, 16,0_MB) | top1000 celý_súbor (kompresia_.bz2, 399_MB) | top1000 celý_súbor (kompresia_.bz2, 1,6_GB) | top1000 celý_súbor (kompresia_.bz2, 3,1_GB) | slovné_druhy |
prim-6.1-public-inf | 541 million tokens / 425 million words | top1000 celý_súbor (kompresia_.gz, 7,1_MB) | top1000 celý_súbor (kompresia_.gz, 12,7_MB) | top1000 celý_súbor (kompresia_.bz2, 10,1_MB) | top1000 celý_súbor (kompresia_.bz2, 261_MB) | top1000 celý_súbor (kompresia_.bz2, 780_MB) | top1000 celý_súbor (kompresia_.bz2, 1,2_GB) | slovné_druhy |
prim-6.1-public-prf | 106 million tokens / 84 million words | top1000 celý_súbor (kompresia_.gz, 4,1_MB) | top1000 celý_súbor (kompresia_.gz, 7,6_MB) | top1000 celý_súbor (kompresia_.bz2, 6,2_MB) | top1000 celý_súbor (kompresia_.bz2, 95,1_MB) | top1000 celý_súbor (kompresia_.bz2, 219_MB) | top1000 celý_súbor (kompresia_.bz2, 290_MB) | slovné_druhy |
prim-6.1-public-img | 114 million tokens / 91 million words | top1000 celý_súbor (kompresia_.gz, 2,7_MB) | top1000 celý_súbor (kompresia_.gz, 5,8_MB) | top1000 celý_súbor (kompresia_.bz2, 4,8_MB) | top1000 celý_súbor (kompresia_.bz2, 80,6_MB) | top1000 celý_súbor (kompresia_.bz2, 188_MB) | top1000 celý_súbor (kompresia_.bz2, 244_MB) | slovné_druhy |
prim-6.1-public-img-sk | 35 million tokens / 28 million words | top1000 celý_súbor (kompresia_.gz, 1,3_MB) | top1000 celý_súbor (kompresia_.gz, 3,1_MB) | top1000 celý_súbor (kompresia_.bz2, 2,6_MB) | top1000 celý_súbor (kompresia_.bz2, 32,5_MB) | top1000 celý_súbor (kompresia_.bz2, 67,1_MB) | top1000 celý_súbor (kompresia_.bz2, 81,6_MB) | slovné_druhy |
r55az89-3.0 | 63 million tokens / 51 million words | top1000 celý_súbor (kompresia_.bz2, 2,5_MB) | top1000 celý_súbor (kompresia_.bz2, 5,0_MB) | top1000 celý_súbor (kompresia_.bz2, 4,2_MB) | top1000 celý_súbor (kompresia_.bz2, 59,1_MB) | top1000 celý_súbor (kompresia_.bz2, 128_MB) | top1000 celý_súbor (kompresia_.bz2, 161_MB) | slovné_druhy |