→po slovensky

Frequency lists of lemmata, word forms and parts of speech from the publicly available SNC corpora

1. Written corpora − synchronous, general

corpus

size − number of tokens / number of words

lemma

word

word non case sensitive

2-grams

3-grams

4-grams

parts of speech

prim-7.0-public-all

1 250 million tokens / 972 million words

top1000
celý_súbor (kompresia .gz, 14,7_MB)

top1000
celý_súbor (kompresia_.gz, 24,3_MB)

top1000
celý_súbor (kompresia_.bz2, 19,7_MB)

top1000
celý_súbor (kompresia_.bz2, 518_MB)

top1000
celý_súbor (kompresia_.bz2, 2,1_GB)

top1000
celý_súbor (kompresia_.bz2, 4,4_GB)

slovné_druhy

prim-7.0-public-inf

771 million tokens / 597 milion words

top1000
celý_súbor (kompresia_.gz, 8,8_MB)

top1000
celý_súbor (kompresia_.gz, 15,3_MB)

top1000
celý_súbor (kompresia_.bz2, 12,2_MB)

top1000
celý_súbor (kompresia_.bz2, 333_MB)

top1000
celý_súbor (kompresia_.bz2, 1,0_GB)

top1000
celý_súbor (kompresia_.bz2, 1,5_GB)

slovné_druhy

prim-7.0-public-prf

114 million tokens / 89 million words

top1000
celý_súbor (kompresia_.gz, 4,5_MB)

top1000
celý_súbor (kompresia_.gz, 8,0_MB)

top1000
celý_súbor (kompresia_.bz2, 6,6_MB)

top1000
celý_súbor (kompresia_.bz2, 99,8_MB)

top1000
celý_súbor (kompresia_.bz2, 229_MB)

top1000
celý_súbor (kompresia_.bz2, 303_MB)

slovné_druhy

prim-7.0-public-img

188 million tokens / 149 million words

top1000
celý_súbor (kompresia_.gz, 3,3_MB)

top1000
celý_súbor (kompresia_.gz, 7,0_MB)

top1000
celý_súbor (kompresia_.bz2, 5,8_kB)

top1000
celý_súbor (kompresia_.bz2, 112_MB)

top1000
celý_súbor (kompresia_.bz2, 280_MB)

top1000
celý_súbor (kompresia_.bz2, 374_MB)

slovné_druhy

prim-7.0-public-img-sk

65 million tokens / 52 million words

top1000
celý_súbor (kompresia_.gz, 1,8_MB)

top1000
celý_súbor (kompresia_.gz, 4,1_MB)

top1000
celý_súbor (kompresia_.bz2, 3,4_MB)

top1000
celý_súbor (kompresia_.bz2, 50,4_MB)

top1000
celý_súbor (kompresia_.bz2, 111_MB)

top1000
celý_súbor (kompresia_.bz2, 140_MB)

slovné_druhy

r1955az1989-4.0

67 million tokens / 54 million words

top1000
celý_súbor (kompresia_.gz, 4,9_MB)

top1000
celý_súbor (kompresia_.gz, 2,3_MB)

top1000
celý_súbor (kompresia_.bz2, 4,1_MB)

top1000
celý_súbor (kompresia_.bz2, 60_MB)

top1000
celý_súbor (kompresia_.bz2, 131_MB)

top1000
celý_súbor (kompresia_.bz2, 164_MB)

slovné_druhy

prim-6.1-public-all

830 million tokens / 656 million word

top1000
celý_súbor (kompresia_.gz, 11,5_MB)

top1000
celý_súbor (kompresia_.gz, 19,8_MB)

top1000
celý_súbor (kompresia_.bz2, 16,0_MB)

top1000
celý_súbor (kompresia_.bz2, 399_MB)

top1000
celý_súbor (kompresia_.bz2, 1,6_GB)

top1000
celý_súbor (kompresia_.bz2, 3,1_GB)

slovné_druhy

prim-6.1-public-inf

541 million tokens / 425 million words

top1000
celý_súbor (kompresia_.gz, 7,1_MB)

top1000
celý_súbor (kompresia_.gz, 12,7_MB)

top1000
celý_súbor (kompresia_.bz2, 10,1_MB)

top1000
celý_súbor (kompresia_.bz2, 261_MB)

top1000
celý_súbor (kompresia_.bz2, 780_MB)

top1000
celý_súbor (kompresia_.bz2, 1,2_GB)

slovné_druhy

prim-6.1-public-prf

106 million tokens / 84 million words

top1000
celý_súbor (kompresia_.gz, 4,1_MB)

top1000
celý_súbor (kompresia_.gz, 7,6_MB)

top1000
celý_súbor (kompresia_.bz2, 6,2_MB)

top1000
celý_súbor (kompresia_.bz2, 95,1_MB)

top1000
celý_súbor (kompresia_.bz2, 219_MB)

top1000
celý_súbor (kompresia_.bz2, 290_MB)

slovné_druhy

prim-6.1-public-img

114 million tokens / 91 million words

top1000
celý_súbor (kompresia_.gz, 2,7_MB)

top1000
celý_súbor (kompresia_.gz, 5,8_MB)

top1000
celý_súbor (kompresia_.bz2, 4,8_MB)

top1000
celý_súbor (kompresia_.bz2, 80,6_MB)

top1000
celý_súbor (kompresia_.bz2, 188_MB)

top1000
celý_súbor (kompresia_.bz2, 244_MB)

slovné_druhy

prim-6.1-public-img-sk

35 million tokens / 28 million words

top1000
celý_súbor (kompresia_.gz, 1,3_MB)

top1000
celý_súbor (kompresia_.gz, 3,1_MB)

top1000
celý_súbor (kompresia_.bz2, 2,6_MB)

top1000
celý_súbor (kompresia_.bz2, 32,5_MB)

top1000
celý_súbor (kompresia_.bz2, 67,1_MB)

top1000
celý_súbor (kompresia_.bz2, 81,6_MB)

slovné_druhy

r55az89-3.0

63 million tokens / 51 million words

top1000
celý_súbor (kompresia_.bz2, 2,5_MB)

top1000
celý_súbor (kompresia_.bz2, 5,0_MB)

top1000
celý_súbor (kompresia_.bz2, 4,2_MB)

top1000
celý_súbor (kompresia_.bz2, 59,1_MB)

top1000
celý_súbor (kompresia_.bz2, 128_MB)

top1000
celý_súbor (kompresia_.bz2, 161_MB)

slovné_druhy

2. Written corpora − synchronous, specialised

corpus

size − number of tokens / number of words

lemma

word

word non case sensitive

2-grams

3-grams

4-grams

parts of speech

cw-2014-all

1.6 million tokens / 1.2 million words

top1000
celý_súbor (kompresia_.bz2, 242_kB)

top1000
celý_súbor (kompresia_.bz2, 459_kB)

top1000
celý_súbor (kompresia_.bz2, 377_kB)

top1000
celý_súbor (kompresia_.bz2, 1,9_MB)

top1000
celý_súbor (kompresia_.bz2, 2,8_MB)

top1000
celý_súbor (kompresia_.bz2, 3,2_MB)

slovné_druhy

ecn-2.0-public

165 million tokens / 140 million words

top1000
celý_súbor (kompresia_.bz2, 2,8_kB)

top1000
celý_súbor (kompresia_.bz2, 5,1_MB)

top1000
celý_súbor (kompresia_.bz2, 4,2_MB)

top1000
celý_súbor (kompresia_.bz2, 100_MB)

top1000
celý_súbor (kompresia_.bz2, 282_MB)

top1000
celý_súbor (kompresia_.bz2, 416_MB)

slovné_druhy

ecn-1.0-public

20 million tokens / 17 million words

top1000
celý_súbor (kompresia_.bz2, 779_kB)

top1000
celý_súbor (kompresia_.bz2, 1,7_MB)

top1000
celý_súbor (kompresia_.bz2, 1,4_kB)

top1000
celý_súbor (kompresia_.bz2, 19,9_MB)

top1000
celý_súbor (kompresia_.bz2, 44,1_MB)

top1000
celý_súbor (kompresia_.bz2, 58,1_MB)

slovné_druhy

blf-2.0

66 miliónov tokenov / 54 million words

top1000
celý_súbor (kompresia_.bz2, 1,7_MB)

top1000
celý_súbor (kompresia_.bz2, 3,4_MB)

top1000
celý_súbor (kompresia_.bz2, 2,8_kB)

top1000
celý_súbor (kompresia_.bz2, 45_MB)

top1000
celý_súbor (kompresia_.bz2, 109_MB)

top1000
celý_súbor (kompresia_.bz2, 147_MB)

slovné_druhy

legal-1.1

49 million tokens / 40 million words

top1000
celý_súbor (kompresia_.bz2, 1,3_MB)

top1000
celý_súbor (kompresia_.bz2, 1,7_MB)

top1000
celý_súbor (kompresia_.bz2, 1,4_MB)

top1000
celý_súbor (kompresia_.bz2, 17,7_MB)

top1000
celý_súbor (kompresia_.bz2, 44,6_MB)

top1000
celý_súbor (kompresia_.bz2, 66,1_MB)

slovné_druhy

judikat-1.0

1.5 million tokens / 1.3 million words

top1000
celý_súbor (kompresia_.bz2, 72,6_kB)

top1000
celý_súbor (kompresia_.bz2, 166_kB)

top1000
celý_súbor (kompresia_.bz2, 150_kB)

top1000
celý_súbor (kompresia_.bz2, 1,2_MB)

top1000
celý_súbor (kompresia_.bz2, 2,4_MB)

top1000
celý_súbor (kompresia_.bz2, 3,0_MB)

slovné_druhy

r-mak-5.0

1.2 million tokens / 978 000 words

top1000
celý_súbor (kompresia_.bz2, 238_kB)

top1000
celý_súbor (kompresia_.bz2, 537_kB)

top1000
celý_súbor (kompresia_.bz2, 476_kB)

top1000
celý_súbor (kompresia_.bz2, 2,4_MB)

top1000
celý_súbor (kompresia_.bz2, 3,7_MB)

top1000
celý_súbor (kompresia_.bz2, 4,1_MB)

slovné_druhy

r-mak-4.0

1.2 million tokens / 977 000 words

top1000
celý_súbor (kompresia_.bz2, 232_kB)

top1000
celý_súbor (kompresia_.bz2, 536_kB)

top1000
celý_súbor (kompresia_.bz2, 474_kB)

top1000
celý_súbor (kompresia_.bz2, 2,4_MB)

top1000
celý_súbor (kompresia_.bz2, 3,6_MB)

top1000
celý_súbor (kompresia_.bz2, 4,0_MB)

slovné_druhy

3. Written corpora of texts before the year 1955

corpus

size − number of tokens / number of words

lemma

word

word non case sensitive

2-grams

3-grams

4-grams

parts of speech

r864az1843-1.0

2.1 million tokens

---

top1000
celý_súbor (kompresia_.bz2, 823_kB)

top1000
celý_súbor (kompresia_.bz2, 733_kB)

top1000
celý_súbor (kompresia_.bz2, 3,7_MB)

top1000
celý_súbor (kompresia_.bz2, 5,5_MB)

top1000
celý_súbor (kompresia_.bz2, 5,7_MB)

---

r1843az1954-1.0

24 million tokens

---

top1000
celý_súbor (kompresia_.bz2, 3,0_MB)

top1000
celý_súbor (kompresia_.bz2, 2,6_MB)

top1000
celý_súbor (kompresia_.bz2, 25,5_MB)

top1000
celý_súbor (kompresia_.bz2, 48,2_MB)

top1000
celý_súbor (kompresia_.bz2, 55,5_MB)

---

4. Historical corpus

corpus

size − number of tokens / number of words

lemma

word

word non case sensitive

2-grams

3-grams

4-grams

parts of speech

hist-3.0

836 000 tokens

---

top1000
celý_súbor (kompresia_.bz2, 484_kB)

top1000
celý_súbor (kompresia_.bz2, 443_kB

top1000
celý_súbor (kompresia_.bz2, 1,5_MB)

top1000
celý_súbor (kompresia_.bz2, 2,0_MB)

top1000
celý_súbor (kompresia_.bz2, 1,9_MB)

---

5. Spoken corpora − synchronous, standard

corpus

size − number of tokens / number of words

lemma

word

word non case sensitive

2-grams

3-grams

4-grams

parts of speech

s-hovor-5.0

5.7 million tokens

top1000
celý_súbor (kompresia_.bz2, 351_kB)

top1000
celý_súbor (kompresia_.bz2, 753_kB)

top1000
celý_súbor (kompresia_.bz2, 670_kB

top1000
celý_súbor (kompresia_.bz2, 5,1_MB)

top1000
celý_súbor (kompresia_.bz2, 10,4_MB)

top1000
celý_súbor (kompresia_.bz2, 12,7_MB)

slovné_druhy

6. Corpora of dialects of the SNC

corpus

size Corpora of dialects of the SNC

lemma

word

word non case sensitive

2-grams

3-grams

4-grams

parts pf speech

dialekt-2.0

329 000 tokens

---

top1000
celý_súbor (kompresia_.bz2, 202_kB)

top1000
celý_súbor (kompresia_.bz2, 186_kB)

top1000
celý_súbor (kompresia_.bz2, 550_kB)

top1000
celý_súbor (kompresia_.bz2, 709_kB)

top1000
celý_súbor (kompresia_.bz2, 646_kB)

---