→po slovensky

Frequency lists of lemmata, word forms and parts of speech from the publicly available SNC corpora

1. Written corpora − synchronous, general

corpus

size − number of tokens / number of words

lemma

word

word non case sensitive

2-grams

3-grams

4-grams

parts of speech

prim-8.0-public-all

1 477 million tokens / 1 160 million words

top1000
celý_súbor (kompresia_.bz2, 18,7_MB)

top1000
celý_súbor (kompresia_.bz2, 25,7_MB)

top1000
celý_súbor (kompresia_.bz2, 20,8_MB)

top1000
celý_súbor (kompresia_.bz2, 521_MB)

top1000
celý_súbor (kompresia_.bz2, 1,7_GB)

top1000
celý_súbor (kompresia_.bz2, 2,7_GB)

slovné_druhy

prim-8.0-public-sane

1 369 million tokens / 1 076 million words

top1000
celý_súbor (kompresia_.bz2, 16,9_MB)

top1000
celý_súbor (kompresia_.bz2, 23,7_MB)

top1000
celý_súbor (kompresia_.bz2, 19,2_MB)

top1000
celý_súbor (kompresia_.bz2, 489_MB)

top1000
celý_súbor (kompresia_.bz2, 1,6_GB)

top1000
celý_súbor (kompresia_.bz2, 2,5_GB)

slovné_druhy

prim-8.0-public-inf

1 010 million tokens / 791 million words

top1000
celý_súbor (kompresia_.bz2, 11,8_MB)

top1000
celý_súbor (kompresia_.bz2, 17,1_MB)

top1000
celý_súbor (kompresia_.bz2, 13,8_MB)

top1000
celý_súbor (kompresia_.bz2, 355_MB)

top1000
celý_súbor (kompresia_.bz2, 1,2_GB)

top1000
celý_súbor (kompresia_.bz2, 1,8_GB)

slovné_druhy

prim-8.0-public-prf

122 million tokens / 96 million words

top1000
celý_súbor (kompresia_.bz2, 5,2_MB)

top1000
celý_súbor (kompresia_.bz2, 8,2_MB)

top1000
celý_súbor (kompresia_.bz2, 6,7_MB)

top1000
celý_súbor (kompresia_.bz2, 97,3_MB)

top1000
celý_súbor (kompresia_.bz2, 235_MB)

top1000
celý_súbor (kompresia_.bz2, 315_MB)

slovné_druhy

prim-8.0-public-img

224 million tokens / 178 million words

top1000
celý_súbor (kompresia_.bz2, 4,2_MB)

top1000
celý_súbor (kompresia_.bz2, 7,7_MB)

top1000
celý_súbor (kompresia_.bz2, 6,4_MB)

top1000
celý_súbor (kompresia_.bz2, 118_MB)

top1000
celý_súbor (kompresia_.bz2, 309_MB)

top1000
celý_súbor (kompresia_.bz2, 422_MB)

slovné_druhy

prim-8.0-public-img-sk

83 million tokens / 66 million words

top1000
celý_súbor (kompresia_.bz2, 2,2_MB)

top1000
celý_súbor (kompresia_.bz2, 4,7_MB)

top1000
celý_súbor (kompresia_.bz2, 3,8_MB)

top1000
celý_súbor (kompresia_.bz2, 55,7_MB)

top1000
celý_súbor (kompresia_.bz2, 130_MB)

top1000
celý_súbor (kompresia_.bz2, 167_MB)

slovné_druhy

r1955az1989-5.0

84 million tokens / 67 million words

top1000
celý_súbor (kompresia_.bz2, 2,8_MB)

top1000
celý_súbor (kompresia_.bz2, 5,4_MB)

top1000
celý_súbor (kompresia_.bz2, 4,5_MB)

top1000
celý_súbor (kompresia_.bz2, 64,4_MB)

top1000
celý_súbor (kompresia_.bz2, 148_GB)

top1000
celý_súbor (kompresia_.bz2, 189_GB)

slovné_druhy

prim-7.0-public-all

1 250 million tokens / 972 million words

top1000
celý_súbor (kompresia .gz, 14,7_MB)

top1000
celý_súbor (kompresia_.gz, 24,3_MB)

top1000
celý_súbor (kompresia_.bz2, 19,7_MB)

top1000
celý_súbor (kompresia_.bz2, 518_MB)

top1000
celý_súbor (kompresia_.bz2, 2,1_GB)

top1000
celý_súbor (kompresia_.bz2, 4,4_GB)

slovné_druhy

prim-7.0-public-sane

1 089 million tokens / 849 milion words

top1000
celý_súbor (kompresia_.gz, 12,8_MB)

top1000
celý_súbor (kompresia_.gz, 21,6_MB)

top1000
celý_súbor (kompresia_.bz2, 17,6_MB)

top1000
celý_súbor (kompresia_.bz2, 427_MB)

top1000
celý_súbor (kompresia_.bz2, 1,3_GB)

top1000
celý_súbor (kompresia_.bz2, 2,1_GB)

slovné_druhy

prim-7.0-public-inf

771 million tokens / 597 milion words

top1000
celý_súbor (kompresia_.gz, 8,8_MB)

top1000
celý_súbor (kompresia_.gz, 15,3_MB)

top1000
celý_súbor (kompresia_.bz2, 12,2_MB)

top1000
celý_súbor (kompresia_.bz2, 333_MB)

top1000
celý_súbor (kompresia_.bz2, 1,0_GB)

top1000
celý_súbor (kompresia_.bz2, 1,5_GB)

slovné_druhy

prim-7.0-public-prf

114 million tokens / 89 million words

top1000
celý_súbor (kompresia_.gz, 4,5_MB)

top1000
celý_súbor (kompresia_.gz, 8,0_MB)

top1000
celý_súbor (kompresia_.bz2, 6,6_MB)

top1000
celý_súbor (kompresia_.bz2, 99,8_MB)

top1000
celý_súbor (kompresia_.bz2, 229_MB)

top1000
celý_súbor (kompresia_.bz2, 303_MB)

slovné_druhy

prim-7.0-public-img

188 million tokens / 149 million words

top1000
celý_súbor (kompresia_.gz, 3,3_MB)

top1000
celý_súbor (kompresia_.gz, 7,0_MB)

top1000
celý_súbor (kompresia_.bz2, 5,8_kB)

top1000
celý_súbor (kompresia_.bz2, 112_MB)

top1000
celý_súbor (kompresia_.bz2, 280_MB)

top1000
celý_súbor (kompresia_.bz2, 374_MB)

slovné_druhy

prim-7.0-public-img-sk

65 million tokens / 52 million words

top1000
celý_súbor (kompresia_.gz, 1,8_MB)

top1000
celý_súbor (kompresia_.gz, 4,1_MB)

top1000
celý_súbor (kompresia_.bz2, 3,4_MB)

top1000
celý_súbor (kompresia_.bz2, 50,4_MB)

top1000
celý_súbor (kompresia_.bz2, 111_MB)

top1000
celý_súbor (kompresia_.bz2, 140_MB)

slovné_druhy

r1955az1989-4.0

67 million tokens / 54 million words

top1000
celý_súbor (kompresia_.gz, 4,9_MB)

top1000
celý_súbor (kompresia_.gz, 2,3_MB)

top1000
celý_súbor (kompresia_.bz2, 4,1_MB)

top1000
celý_súbor (kompresia_.bz2, 60_MB)

top1000
celý_súbor (kompresia_.bz2, 131_MB)

top1000
celý_súbor (kompresia_.bz2, 164_MB)

slovné_druhy

prim-6.1-public-all

830 million tokens / 656 million word

top1000
celý_súbor (kompresia_.gz, 11,5_MB)

top1000
celý_súbor (kompresia_.gz, 19,8_MB)

top1000
celý_súbor (kompresia_.bz2, 16,0_MB)

top1000
celý_súbor (kompresia_.bz2, 399_MB)

top1000
celý_súbor (kompresia_.bz2, 1,6_GB)

top1000
celý_súbor (kompresia_.bz2, 3,1_GB)

slovné_druhy

prim-6.1-public-inf

541 million tokens / 425 million words

top1000
celý_súbor (kompresia_.gz, 7,1_MB)

top1000
celý_súbor (kompresia_.gz, 12,7_MB)

top1000
celý_súbor (kompresia_.bz2, 10,1_MB)

top1000
celý_súbor (kompresia_.bz2, 261_MB)

top1000
celý_súbor (kompresia_.bz2, 780_MB)

top1000
celý_súbor (kompresia_.bz2, 1,2_GB)

slovné_druhy

prim-6.1-public-prf

106 million tokens / 84 million words

top1000
celý_súbor (kompresia_.gz, 4,1_MB)

top1000
celý_súbor (kompresia_.gz, 7,6_MB)

top1000
celý_súbor (kompresia_.bz2, 6,2_MB)

top1000
celý_súbor (kompresia_.bz2, 95,1_MB)

top1000
celý_súbor (kompresia_.bz2, 219_MB)

top1000
celý_súbor (kompresia_.bz2, 290_MB)

slovné_druhy

prim-6.1-public-img

114 million tokens / 91 million words

top1000
celý_súbor (kompresia_.gz, 2,7_MB)

top1000
celý_súbor (kompresia_.gz, 5,8_MB)

top1000
celý_súbor (kompresia_.bz2, 4,8_MB)

top1000
celý_súbor (kompresia_.bz2, 80,6_MB)

top1000
celý_súbor (kompresia_.bz2, 188_MB)

top1000
celý_súbor (kompresia_.bz2, 244_MB)

slovné_druhy

prim-6.1-public-img-sk

35 million tokens / 28 million words

top1000
celý_súbor (kompresia_.gz, 1,3_MB)

top1000
celý_súbor (kompresia_.gz, 3,1_MB)

top1000
celý_súbor (kompresia_.bz2, 2,6_MB)

top1000
celý_súbor (kompresia_.bz2, 32,5_MB)

top1000
celý_súbor (kompresia_.bz2, 67,1_MB)

top1000
celý_súbor (kompresia_.bz2, 81,6_MB)

slovné_druhy

r55az89-3.0

63 million tokens / 51 million words

top1000
celý_súbor (kompresia_.bz2, 2,5_MB)

top1000
celý_súbor (kompresia_.bz2, 5,0_MB)

top1000
celý_súbor (kompresia_.bz2, 4,2_MB)

top1000
celý_súbor (kompresia_.bz2, 59,1_MB)

top1000
celý_súbor (kompresia_.bz2, 128_MB)

top1000
celý_súbor (kompresia_.bz2, 161_MB)

slovné_druhy

2. Written corpora − synchronous, specialised

corpus

size − number of tokens / number of words

lemma

word

word non case sensitive

2-grams

3-grams

4-grams

parts of speech

blf-2.0

66 million tokens / 54 million words

top1000
celý_súbor (kompresia_.bz2, 1,7_MB)

top1000
celý_súbor (kompresia_.bz2, 3,4_MB)

top1000
celý_súbor (kompresia_.bz2, 2,8_kB)

top1000
celý_súbor (kompresia_.bz2, 45_MB)

top1000
celý_súbor (kompresia_.bz2, 109_MB)

top1000
celý_súbor (kompresia_.bz2, 147_MB)

slovné_druhy

cw-2014-all

1.6 million tokens / 1.2 million words

top1000
celý_súbor (kompresia_.bz2, 242_kB)

top1000
celý_súbor (kompresia_.bz2, 459_kB)

top1000
celý_súbor (kompresia_.bz2, 377_kB)

top1000
celý_súbor (kompresia_.bz2, 1,9_MB)

top1000
celý_súbor (kompresia_.bz2, 2,8_MB)

top1000
celý_súbor (kompresia_.bz2, 3,2_MB)

slovné_druhy

ecn-2.0-public

165 million tokens / 140 million words

top1000
celý_súbor (kompresia_.bz2, 2,8_kB)

top1000
celý_súbor (kompresia_.bz2, 5,1_MB)

top1000
celý_súbor (kompresia_.bz2, 4,2_MB)

top1000
celý_súbor (kompresia_.bz2, 100_MB)

top1000
celý_súbor (kompresia_.bz2, 282_MB)

top1000
celý_súbor (kompresia_.bz2, 416_MB)

slovné_druhy

ecn-1.0-public

20 million tokens / 17 million words

top1000
celý_súbor (kompresia_.bz2, 779_kB)

top1000
celý_súbor (kompresia_.bz2, 1,7_MB)

top1000
celý_súbor (kompresia_.bz2, 1,4_kB)

top1000
celý_súbor (kompresia_.bz2, 19,9_MB)

top1000
celý_súbor (kompresia_.bz2, 44,1_MB)

top1000
celý_súbor (kompresia_.bz2, 58,1_MB)

slovné_druhy

judikat-1.0

1.5 million tokens / 1.3 million words

top1000
celý_súbor (kompresia_.bz2, 72,6_kB)

top1000
celý_súbor (kompresia_.bz2, 166_kB)

top1000
celý_súbor (kompresia_.bz2, 150_kB)

top1000
celý_súbor (kompresia_.bz2, 1,2_MB)

top1000
celý_súbor (kompresia_.bz2, 2,4_MB)

top1000
celý_súbor (kompresia_.bz2, 3,0_MB)

slovné_druhy

legal-1.1

49 million tokens / 40 million words

top1000
celý_súbor (kompresia_.bz2, 1,3_MB)

top1000
celý_súbor (kompresia_.bz2, 1,7_MB)

top1000
celý_súbor (kompresia_.bz2, 1,4_MB)

top1000
celý_súbor (kompresia_.bz2, 17,7_MB)

top1000
celý_súbor (kompresia_.bz2, 44,6_MB)

top1000
celý_súbor (kompresia_.bz2, 66,1_MB)

slovné_druhy

prim-7.0-frk

253 million tokens / 203 million words

top1000
celý_súbor (kompresia_.bz2, 7,2_MB)

top1000
celý_súbor (kompresia_.bz2, 10,6_MB)

top1000
celý_súbor (kompresia_.bz2, 8,7_MB)

top1000
celý_súbor (kompresia_.bz2, 164_MB)

top1000
celý_súbor (kompresia_.bz2, 437_MB)

top1000
celý_súbor (kompresia_.bz2, 612_MB)

slovné_druhy

r-mak-6.0

1.2 million tokens / 978 000 words

top1000
celý_súbor (kompresia_.bz2, 238_kB)

top1000
celý_súbor (kompresia_.bz2, 537_kB)

top1000
celý_súbor (kompresia_.bz2, 475_kB)

top1000
celý_súbor (kompresia_.bz2, 2,4_MB)

top1000
celý_súbor (kompresia_.bz2, 3,7_MB)

top1000
celý_súbor (kompresia_.bz2, 4,1_MB)

slovné_druhy

r-mak-5.0

1.2 million tokens / 978 000 words

top1000
celý_súbor (kompresia_.bz2, 238_kB)

top1000
celý_súbor (kompresia_.bz2, 537_kB)

top1000
celý_súbor (kompresia_.bz2, 476_kB)

top1000
celý_súbor (kompresia_.bz2, 2,4_MB)

top1000
celý_súbor (kompresia_.bz2, 3,7_MB)

top1000
celý_súbor (kompresia_.bz2, 4,1_MB)

slovné_druhy

r-mak-4.0

1.2 million tokens / 977 000 words

top1000
celý_súbor (kompresia_.bz2, 232_kB)

top1000
celý_súbor (kompresia_.bz2, 536_kB)

top1000
celý_súbor (kompresia_.bz2, 474_kB)

top1000
celý_súbor (kompresia_.bz2, 2,4_MB)

top1000
celý_súbor (kompresia_.bz2, 3,6_MB)

top1000
celý_súbor (kompresia_.bz2, 4,0_MB)

slovné_druhy

3. Written corpora of texts before the year 1955

corpus

size − number of tokens / number of words

lemma

word

word non case sensitive

2-grams

3-grams

4-grams

parts of speech

r864az1843-1.0

2.1 million tokens / 1.6 million words

---

top1000
celý_súbor (kompresia_.bz2, 823_kB)

top1000
celý_súbor (kompresia_.bz2, 733_kB)

top1000
celý_súbor (kompresia_.bz2, 3,7_MB)

top1000
celý_súbor (kompresia_.bz2, 5,5_MB)

top1000
celý_súbor (kompresia_.bz2, 5,7_MB)

---

r1843az1954-1.0

24 million tokens / 19 million words

---

top1000
celý_súbor (kompresia_.bz2, 3,0_MB)

top1000
celý_súbor (kompresia_.bz2, 2,6_MB)

top1000
celý_súbor (kompresia_.bz2, 25,5_MB)

top1000
celý_súbor (kompresia_.bz2, 48,2_MB)

top1000
celý_súbor (kompresia_.bz2, 55,5_MB)

---

4. Historical corpus

corpus

size − number of tokens / number of words

lemma

word

word non case sensitive

2-grams

3-grams

4-grams

parts of speech

hist-4.0

918 000 tokens / 668 000 words

---

top1000
celý_súbor (kompresia_.bz2, 528_kB)

top1000
celý_súbor (kompresia_.bz2, 483_kB

top1000
celý_súbor (kompresia_.bz2, 1,6_MB)

top1000
celý_súbor (kompresia_.bz2, 2,1_MB)

top1000
celý_súbor (kompresia_.bz2, 2,1_MB)

---

hist-3.0

836 000 tokens / 600 000 words

---

top1000
celý_súbor (kompresia_.bz2, 484_kB)

top1000
celý_súbor (kompresia_.bz2, 443_kB

top1000
celý_súbor (kompresia_.bz2, 1,5_MB)

top1000
celý_súbor (kompresia_.bz2, 2,0_MB)

top1000
celý_súbor (kompresia_.bz2, 1,9_MB)

---

5. Spoken corpora − synchronous, standard

corpus

size − number of tokens / number of words

lemma

word

word non case sensitive

2-grams

3-grams

4-grams

parts of speech

s-hovor-6.0

6.6 million tokens / 5.5 million words

top1000
celý_súbor (kompresia_.bz2, 378_kB)

top1000
celý_súbor (kompresia_.bz2, 814_kB)

top1000
celý_súbor (kompresia_.bz2, 726_kB

top1000
celý_súbor (kompresia_.bz2, 5,4_MB)

top1000
celý_súbor (kompresia_.bz2, 11,4_MB)

top1000
celý_súbor (kompresia_.bz2, 14,2_MB)

slovné_druhy

s-hovor-5.0

5.7 million tokens / 4.7 million words

top1000
celý_súbor (kompresia_.bz2, 351_kB)

top1000
celý_súbor (kompresia_.bz2, 753_kB)

top1000
celý_súbor (kompresia_.bz2, 670_kB

top1000
celý_súbor (kompresia_.bz2, 5,1_MB)

top1000
celý_súbor (kompresia_.bz2, 10,4_MB)

top1000
celý_súbor (kompresia_.bz2, 12,7_MB)

slovné_druhy

6. Corpora of dialects of the SNC

corpus

size − number of tokens / number of words

lemma

word

word non case sensitive

2-grams

3-grams

4-grams

parts pf speech

dialekt-3.0

495 000 tokens / 403 000 words

---

top1000
celý_súbor (kompresia_.bz2, 292_kB)

top1000
celý_súbor (kompresia_.bz2, 269_kB)

top1000
celý_súbor (kompresia_.bz2, 775_kB)

top1000
celý_súbor (kompresia_.bz2, 1,0_MB)

top1000
celý_súbor (kompresia_.bz2, 967_kB)

---

dialekt-2.0

329 000 tokens / 252 000 words

---

top1000
celý_súbor (kompresia_.bz2, 202_kB)

top1000
celý_súbor (kompresia_.bz2, 186_kB)

top1000
celý_súbor (kompresia_.bz2, 527_kB)

top1000
celý_súbor (kompresia_.bz2, 690_kB)

top1000
celý_súbor (kompresia_.bz2, 634_kB)

---