→English

Frekvenčné zoznamy lem, tvarov slov a slovných druhov z verejne prístupných korpusov SNK

1. Korpusy písaných textov − synchrónne, všeobecné

korpus

rozsah − počet tokenov / počet slov

lemma

word

word non case sensitive

2-gramy

3-gramy

4-gramy

slovné druhy

prim-7.0-public-all

1 250 mil. tokenov / 972 mil. slov

top1000
celý_súbor (kompresia .gz, 14,7_MB)

top1000
celý_súbor (kompresia_.gz, 24,3_MB)

top1000
celý_súbor (kompresia_.bz2, 19,7_MB)

top1000
celý_súbor (kompresia_.bz2, 518_MB)

top1000
celý_súbor (kompresia_.bz2, 2,1_GB)

top1000
celý_súbor (kompresia_.bz2, 4,4_GB)

slovné_druhy

prim-7.0-public-inf

771 mil. tokenov / 597 mil. slov

top1000
celý_súbor (kompresia_.gz, 8,8_MB)

top1000
celý_súbor (kompresia_.gz, 15,3_MB)

top1000
celý_súbor (kompresia_.bz2, 12,2_MB)

top1000
celý_súbor (kompresia_.bz2, 301_MB)

top1000
celý_súbor (kompresia_.bz2, 972_MB)

top1000
celý_súbor (kompresia_.bz2, 1,5_GB)

slovné_druhy

prim-7.0-public-prf

114 mil. tokenov / 89 mil. slov

top1000
celý_súbor (kompresia_.gz, 4,5_MB)

top1000
celý_súbor (kompresia_.gz, 8,0_MB)

top1000
celý_súbor (kompresia_.bz2, 6,6_MB)

top1000
celý_súbor (kompresia_.bz2, 92,3_MB)

top1000
celý_súbor (kompresia_.bz2, 220_MB)

top1000
celý_súbor (kompresia_.bz2, 294_MB)

slovné_druhy

prim-7.0-public-img

188 mil. tokenov / 149 mil. slov

top1000
celý_súbor (kompresia_.gz, 3,3_MB)

top1000
celý_súbor (kompresia_.gz, 7,0_MB)

top1000
celý_súbor (kompresia_.bz2, 5,8_kB)

top1000
celý_súbor (kompresia_.bz2, 104_MB)

top1000
celý_súbor (kompresia_.bz2, 268_MB)

top1000
celý_súbor (kompresia_.bz2, 362_MB)

slovné_druhy

prim-7.0-public-img-sk

65 mil. tokenov / 52 mil. slov

top1000
celý_súbor (kompresia_.gz, 1,8_MB)

top1000
celý_súbor (kompresia_.gz, 4,1_MB)

top1000
celý_súbor (kompresia_.bz2, 3,4_MB)

top1000
celý_súbor (kompresia_.bz2, 46,8_MB)

top1000
celý_súbor (kompresia_.bz2, 107_MB)

top1000
celý_súbor (kompresia_.bz2, 136_MB)

slovné_druhy

r1955az1989-4.0

67 mil. tokenov / 54 mil. slov

top1000
celý_súbor (kompresia_.gz, 4,9_MB)

top1000
celý_súbor (kompresia_.gz, 2,3_MB)

top1000
celý_súbor (kompresia_.bz2, 4,1_MB)

top1000
celý_súbor (kompresia_.bz2, 55,8_MB)

top1000
celý_súbor (kompresia_.bz2, 125_MB)

top1000
celý_súbor (kompresia_.bz2, 160_MB)

slovné_druhy

prim-6.1-public-all

830 mil. tokenov / 656 mil. slov

top1000
celý_súbor (kompresia_.gz, 11,5_MB)

top1000
celý_súbor (kompresia_.gz, 19,8_MB)

top1000
celý_súbor (kompresia_.bz2, 16,0_MB)

top1000
celý_súbor (kompresia_.bz2, 399_MB)

top1000
celý_súbor (kompresia_.bz2, 1,6_GB)

top1000
celý_súbor (kompresia_.bz2, 3,1_GB)

slovné_druhy

prim-6.1-public-inf

541 mil. tokenov / 425 mil. slov

top1000
celý_súbor (kompresia_.gz, 7,1_MB)

top1000
celý_súbor (kompresia_.gz, 12,7_MB)

top1000
celý_súbor (kompresia_.bz2, 10,1_MB)

top1000
celý_súbor (kompresia_.bz2, 237_MB)

top1000
celý_súbor (kompresia_.bz2, 740_MB)

top1000
celý_súbor (kompresia_.bz2, 1,1_GB)

slovné_druhy

prim-6.1-public-prf

106 mil. tokenov / 84 mil. slov

top1000
celý_súbor (kompresia_.gz, 4,1_MB)

top1000
celý_súbor (kompresia_.gz, 7,6_MB)

top1000
celý_súbor (kompresia_.bz2, 6,2_MB)

top1000
celý_súbor (kompresia_.bz2, 87,7_MB)

top1000
celý_súbor (kompresia_.bz2, 209_MB)

top1000
celý_súbor (kompresia_.bz2, 281_MB)

slovné_druhy

prim-6.1-public-img

114 mil. tokenov / 91 mil. slov

top1000
celý_súbor (kompresia_.gz, 2,7_MB)

top1000
celý_súbor (kompresia_.gz, 5,8_MB)

top1000
celý_súbor (kompresia_.bz2, 4,8_MB)

top1000
celý_súbor (kompresia_.bz2, 74,9_MB)

top1000
celý_súbor (kompresia_.bz2, 180_MB)

top1000
celý_súbor (kompresia_.bz2, 236_MB)

slovné_druhy

prim-6.1-public-img-sk

35 mil. tokenov / 28 mil. slov

top1000
celý_súbor (kompresia_.gz, 1,3_MB)

top1000
celý_súbor (kompresia_.gz, 3,1_MB)

top1000
celý_súbor (kompresia_.bz2, 2,6_MB)

top1000
celý_súbor (kompresia_.bz2, 30,2_MB)

top1000
celý_súbor (kompresia_.bz2, 64,3_MB)

top1000
celý_súbor (kompresia_.bz2, 79,1_MB)

slovné_druhy

r55az89-3.0

63 mil. tokenov / 51 mil. slov

top1000
celý_súbor (kompresia_.bz2, 2,5_MB)

top1000
celý_súbor (kompresia_.bz2, 5,0_MB)

top1000
celý_súbor (kompresia_.bz2, 4,2_MB)

top1000
celý_súbor (kompresia_.bz2, 55,0_MB)

top1000
celý_súbor (kompresia_.bz2, 122_MB)

top1000
celý_súbor (kompresia_.bz2, 156_MB)

slovné_druhy

2. Korpusy písaných textov − synchrónne, špecializované

korpus

rozsah − počet tokenov / počet slov

lemma

word

word non case sensitive

2-gramy

3-gramy

4-gramy

slovné druhy

blf-2.0

66 mil. tokenov / 54 mil. slov

top1000
celý_súbor (kompresia_.bz2, 1,7_MB)

top1000
celý_súbor (kompresia_.bz2, 3,4_MB)

top1000
celý_súbor (kompresia_.bz2, 2,8_kB)

top1000
celý_súbor (kompresia_.bz2, 41,3_MB)

top1000
celý_súbor (kompresia_.bz2, 104_MB)

top1000
celý_súbor (kompresia_.bz2, 142_MB)

slovné_druhy

cw-2014-all

1,6 mil. tokenov / 1,2 mil. slov

top1000
celý_súbor (kompresia_.bz2, 242_kB)

top1000
celý_súbor (kompresia_.bz2, 459_kB)

top1000
celý_súbor (kompresia_.bz2, 377_kB)

top1000
celý_súbor (kompresia_.bz2, 1,7_MB)

top1000
celý_súbor (kompresia_.bz2, 2,7_MB)

top1000
celý_súbor (kompresia_.bz2, 3,1_MB)

slovné_druhy

ecn-2.0-public

165 mil. tokenov / 140 mil. slov

top1000
celý_súbor (kompresia_.bz2, 2,8_kB)

top1000
celý_súbor (kompresia_.bz2, 5,1_MB)

top1000
celý_súbor (kompresia_.bz2, 4,2_MB)

top1000
celý_súbor (kompresia_.bz2, 92,3_MB)

top1000
celý_súbor (kompresia_.bz2, 270_MB)

top1000
celý_súbor (kompresia_.bz2, 404_MB)

slovné_druhy

ecn-1.0-public

20 mil. tokenov / 17 mil. slov

top1000
celý_súbor (kompresia_.bz2, 779_kB)

top1000
celý_súbor (kompresia_.bz2, 1,7_MB)

top1000
celý_súbor (kompresia_.bz2, 1,4_kB)

top1000
celý_súbor (kompresia_.bz2, 18,5_MB)

top1000
celý_súbor (kompresia_.bz2, 42,4_MB)

top1000
celý_súbor (kompresia_.bz2, 56,4_MB)

slovné_druhy

judikat-1.0

1,5 mil. tokenov / 1,3 mil. slov

top1000
celý_súbor (kompresia_.bz2, 72,6_kB)

top1000
celý_súbor (kompresia_.bz2, 166_kB)

top1000
celý_súbor (kompresia_.bz2, 150_kB)

top1000
celý_súbor (kompresia_.bz2, 1,2_MB)

top1000
celý_súbor (kompresia_.bz2, 2,3_MB)

top1000
celý_súbor (kompresia_.bz2, 3,0_MB)

slovné_druhy

legal-1.1

49 mil. tokenov / 40 mil. slov

top1000
celý_súbor (kompresia_.bz2, 1,3_MB)

top1000
celý_súbor (kompresia_.bz2, 1,7_MB)

top1000
celý_súbor (kompresia_.bz2, 1,4_MB)

top1000
celý_súbor (kompresia_.bz2, 16,4_MB)

top1000
celý_súbor (kompresia_.bz2, 42,7_MB)

top1000
celý_súbor (kompresia_.bz2, 64,0_MB)

slovné_druhy

r-mak-5.0

1,2 mil. tokenov / 978 000 slov

top1000
celý_súbor (kompresia_.bz2, 238_kB)

top1000
celý_súbor (kompresia_.bz2, 537_kB)

top1000
celý_súbor (kompresia_.bz2, 476_kB)

top1000
celý_súbor (kompresia_.bz2, 2,3_MB)

top1000
celý_súbor (kompresia_.bz2, 3,6_MB)

top1000
celý_súbor (kompresia_.bz2, 4,0_MB)

slovné_druhy

r-mak-4.0

1,2 mil. tokenov / 977 000 slov

top1000
celý_súbor (kompresia_.bz2, 232_kB)

top1000
celý_súbor (kompresia_.bz2, 536_kB)

top1000
celý_súbor (kompresia_.bz2, 474_kB)

top1000
celý_súbor (kompresia_.bz2, 2,3_MB)

top1000
celý_súbor (kompresia_.bz2, 3,5_MB)

top1000
celý_súbor (kompresia_.bz2, 3,9_MB)

slovné_druhy

3. Korpusy písaných textov spred roka 1954

korpus

rozsah − počet tokenov / počet slov

lemma

word

word non case sensitive

2-gramy

3-gramy

4-gramy

slovné druhy

r864az1843-1.0

2,1 mil. tokenov

---

top1000
celý_súbor (kompresia_.bz2, 823_kB)

top1000
celý_súbor (kompresia_.bz2, 733_kB)

top1000
celý_súbor (kompresia_.bz2, 3,5_MB)

top1000
celý_súbor (kompresia_.bz2, 5,3_MB)

top1000
celý_súbor (kompresia_.bz2, 5,6_MB)

---

r1843az1954-1.0

24 mil. tokenov

---

top1000
celý_súbor (kompresia_.bz2, 3,0_MB)

top1000
celý_súbor (kompresia_.bz2, 2,6_MB)

top1000
celý_súbor (kompresia_.bz2, 24,1_MB)

top1000
celý_súbor (kompresia_.bz2, 46,6_MB)

top1000
celý_súbor (kompresia_.bz2, 54,1_MB)

---

4. Historický korpus

korpus

rozsah − počet tokenov / počet slov

lemma

word

word non case sensitive

2-gramy

3-gramy

4-gramy

slovné druhy

hist-4.0

918 000 tokenov

---

top1000
celý_súbor (kompresia_.bz2, 528_kB)

top1000
celý_súbor (kompresia_.bz2, 483_kB

top1000
celý_súbor (kompresia_.bz2, 1,6_MB)

top1000
celý_súbor (kompresia_.bz2, 2,1_MB)

top1000
celý_súbor (kompresia_.bz2, 2,1_MB)

---

hist-3.0

836 000 tokenov

---

top1000
celý_súbor (kompresia_.bz2, 484_kB)

top1000
celý_súbor (kompresia_.bz2, 443_kB

top1000
celý_súbor (kompresia_.bz2, 1,5_MB)

top1000
celý_súbor (kompresia_.bz2, 1,9_MB)

top1000
celý_súbor (kompresia_.bz2, 1,9_MB)

---

5. Korpusy hovorených prejavov − synchrónne, štandardné

korpus

rozsah − počet tokenov / počet slov

lemma

word

word non case sensitive

2-gramy

3-gramy

4-gramy

slovné druhy

s-hovor-5.0

5,7 mil. tokenov

top1000
celý_súbor (kompresia_.bz2, 351_kB)

top1000
celý_súbor (kompresia_.bz2, 753_kB)

top1000
celý_súbor (kompresia_.bz2, 670_kB

top1000
celý_súbor (kompresia_.bz2, 4,8_MB)

top1000
celý_súbor (kompresia_.bz2, 10,0_MB)

top1000
celý_súbor (kompresia_.bz2, 12,4_MB)

slovné_druhy

6. Korpusy nárečí SNK

korpus

rozsah počet tokenov / počet slov

lemma

word

word non case sensitive

2-gramy

3-gramy

4-gramy

slovné druhy

dialekt-2.0

329 000 tokenov

---

top1000
celý_súbor (kompresia_.bz2, 202_kB)

top1000
celý_súbor (kompresia_.bz2, 186_kB)

top1000
celý_súbor (kompresia_.bz2, 527_kB)

top1000
celý_súbor (kompresia_.bz2, 690_kB)

top1000
celý_súbor (kompresia_.bz2, 634_kB)

---