Verejne prístupné korpusy SNK

Obsah

1. Korpusy a podkorpusy písaných textov − synchrónne, všeobecné

verzia hlavného korpusu a podkorpusov
rozsah
počet tokenov / počet slov
lematizácia, morfologická anotáciarok zverejneniacharakteristika korpusov a podkorpusov

prim-10.0-juls-all

1 961 mil. tokenov / 1 572 mil. slov

áno

interný korpus

hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955

prim-10.0-public-all

1 688 mil. tokenov / 1 355 mil. slov

áno

2022

hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 s licenciou na on-line vyhľadávanie (71,0 % publicistické, 16,8 % umelecké, 11,3 % odborné, 0,9 % iné texty)

prim-10.0-juls-sane

1 921 mil. tokenov / 1 540 mil. slov

áno

– interný korpus

hlavný korpus bez textov, ktoré sú s nesprávnou diakritikou, z oblastí mimo Slovenska a pod.

prim-10.0-public-sane

1 650 mil. tokenov / 1 323 mil. slov

áno

2022

hlavný korpus textov s licenciou na on-line vyhľadávanie bez textov, ktoré sú s nesprávnou diakritikou, z oblastí mimo Slovenska a pod. – z neho sa tvoria podkorpusy

prim-10.0-public-vyv

572 mil. tokenov / 459 mil. slov

áno

2022

štýlovo vyvážený podkorpus (33,3 % publicistické, 33,3 % umelecké, 33,3 % odborné texty)

prim-10.0-public-inf

1 163 mil. tokenov / 932 mil. slov

áno

2022

podkorpus publicistických textov

prim-10.0-public-prf

189 mil. tokenov / 153 mil. slov

áno

2022

podkorpus vedeckých, odborných a populárno-náučných textov

prim-10.0-public-img

283 mil. tokenov / 226 mil. slov

áno

2022

podkorpus umeleckých textov

prim-10.0-public-sk

1 361 mil. tokenov / 1 093 mil. slov

áno

2022

podkorpus pôvodných slovenských textov

prim-10.0-public-img-sk

97 mil. tokenov / 78 mil. slov

áno

2022

podkorpus pôvodných slovenských umeleckých textov

r1955az1989-7.0

109 mil. tokenov / 87 mil. slov

áno

2022

podkorpus textov z rokov 1955 – 1989 (4,0 % publicistické, 81,2 % umelecké, 11,1 % odborné, 3,7 % iné texty)

prim-9.0-juls-all

1 870 mil. tokenov / 1 455 mil. slov

áno

– interný korpus

hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955

prim-9.0-public-all

1 652 mil. tokenov / 1 282 mil. slov

áno

2020

hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 s licenciou na on-line vyhľadávanie (74,0 % publicistické, 16,0 % umelecké, 9,2 % odborné, 0,9 % iné texty)

prim-9.0-juls-sane

1 838 mil. tokenov / 1 429 mil. slov

áno

– interný korpus

hlavný korpus bez textov, ktoré sú s nesprávnou diakritikou, z oblastí mimo Slovenska a pod.

prim-9.0-public-sane

1 621 mil. tokenov / 1 257 mil. slov

áno

2020

hlavný korpus textov s licenciou na on-line vyhľadávanie bez textov, ktoré sú s nesprávnou diakritikou, z oblastí mimo Slovenska a pod. – z neho sa tvoria podkorpusy

prim-9.0-public-vyv

454 mil. tokenov / 355 mil. slov

áno

2020

štýlovo vyvážený podkorpus (33,3 % publicistické, 33,3 % umelecké, 33,3 % odborné texty)

prim-9.0-public-inf

1 194 mil. tokenov / 920 mil. slov

áno

2020

podkorpus publicistických textov

prim-9.0-public-prf

150 mil. tokenov / 117 mil. slov

áno

2020

podkorpus vedeckých, odborných a populárno-náučných textov

prim-9.0-public-img

263 mil. tokenov / 208 mil. slov

áno

2020

podkorpus umeleckých textov

prim-9.0-public-sk

1 258 mil. tokenov / 977 mil. slov

áno

2020

podkorpus pôvodných slovenských textov

prim-9.0-public-img-sk

93 mil. tokenov / 74 mil. slov

áno

2020

podkorpus pôvodných slovenských umeleckých textov

r1955az1989-6.0

99 mil. tokenov / 79 mil. slov

áno

2020

podkorpus textov z rokov 1955 – 1989 (4,5 % publicistické, 78,6 % umelecké, 12,4 % odborné, 4,4 % iné texty)

prim-8.0-juls-all

1 647 mil. tokenov / 1 295 mil. slov

áno

– interný korpus

hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955

prim-8.0-public-all

1 477 mil. tokenov / 1 160 mil. slov

áno

2018

hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 s licenciou na on-line vyhľadávanie (71,1 % publicistické, 15,4 % umelecké, 8,5 % odborné, 5,0 % iné texty)

prim-8.0-juls-sane

1 518 mil. tokenov / 1 195 mil. slov

áno

– interný korpus

hlavný korpus bez textov, ktoré sú s nesprávnou diakritikou, z oblastí mimo Slovenska, z lingvistických časopisov, zo študentských referátov a pod.

prim-8.0-public-sane

1 369 mil. tokenov / 1 076 mil. slov

áno

2018

hlavný korpus textov s licenciou na on-line vyhľadávanie bez textov, ktoré sú s nesprávnou diakritikou, z oblastí mimo Slovenska, z lingvistických časopisov, zo študentských referátov a pod. – z neho sa tvoria podkorpusy

prim-8.0-public-vyv

377 mil. tokenov / 298 mil. slov

áno

2018

štýlovo vyvážený podkorpus (33,3 % publicistické, 33,3 % umelecké, 33,3 % odborné texty)

prim-8.0-public-inf

1 010 mil. tokenov / 791 mil. slov

áno

2018

podkorpus publicistických textov

prim-8.0-public-prf

122 mil. tokenov / 96 mil. slov

áno

2018

podkorpus vedeckých, odborných a populárno-náučných textov

prim-8.0-public-img

224 mil. tokenov / 178 mil. slov

áno

2018

podkorpus umeleckých textov

prim-8.0-public-sk

1 043 mil. tokenov / 822 mil. slov

áno

2018

podkorpus pôvodných slovenských textov

prim-8.0-public-img-sk

83 mil. tokenov / 66 mil. slov

áno

2018

podkorpus pôvodných slovenských umeleckých textov

r1955az1989-5.0

84 mil. tokenov / 67 mil. slov

áno

2018

podkorpus textov z rokov 1955 – 1989 (5,3 % publicistické, 75,3 % umelecké, 14,0 % odborné, 5,4 % iné texty)

prim-7.0-juls-all

1 437 mil. tokenov / 1 119 mil. slov

áno

– interný korpus

hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955

prim-7.0-public-all

1 250 mil. tokenov / 972 mil. slov

áno

2015

hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 s licenciou na on-line vyhľadávanie (65,1 % publicistické, 15,1 % umelecké, 9,5 % odborné, 10,3 % iné texty)

prim-7.0-juls-sane

1 202 mil. tokenov / 938 mil. slov

áno

– interný korpus

hlavný korpus bez textov, ktoré sú s nesprávnou diakritikou, z oblastí mimo Slovenska, z lingvistických časopisov, zo študentských referátov a pod.

prim-7.0-public-sane

1 089 mil. tokenov / 849 mil. slov

áno

2015

hlavný korpus textov s licenciou na on-line vyhľadávanie bez textov, ktoré sú s nesprávnou diakritikou, z oblastí mimo Slovenska, z lingvistických časopisov, zo študentských referátov a pod. – z neho sa tvoria podkorpusy

prim-7.0-public-vyv

341 mil. tokenov / 267 mil. slov

áno

2015

štýlovo vyvážený podkorpus (33,3 % publicistické, 33,3 % umelecké, 33,3 % odborné texty)

prim-7.0-public-inf

771 mil. tokenov / 597 mil. slov

áno

2015

podkorpus publicistických textov

prim-7.0-public-prf

114 mil. tokenov / 89 mil. slov

áno

2015

podkorpus vedeckých, odborných a populárno-náučných textov

prim-7.0-public-img

188 mil. tokenov / 149 mil. slov

áno

2015

podkorpus umeleckých textov

prim-7.0-public-sk

807 mil. tokenov / 630 mil. slov

áno

2015

podkorpus pôvodných slovenských textov

prim-7.0-public-img-sk

65 mil. tokenov / 52 mil. slov

áno

2015

podkorpus pôvodných slovenských umeleckých textov

r1955az1989-4.0

67 mil. tokenov / 54 mil. slov

áno

2015

podkorpus textov z rokov 1955 – 1989 (7,4 % publicistické, 69,3 % umelecké, 16,6 % odborné, 6,7 % iné texty)

prim-6.1-public-all

830 mil. tokenov / 656 mil. slov

áno

2013

hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 s licenciou na on-line vyhľadávanie (68,8 % publicistické, 13,9 % umelecké, 15,3 % odborné, 2 % iné texty)

r55az89-3.0

63 mil. tokenov / 51 mil. slov

áno

2013

podkorpus textov z rokov 1955 – 1989 (11,9 % publicistické, 55,5 % umelecké, 24,1 % odborné, 8,5 % iné texty)

prim-6.0-public-all

1 155 mil. tokenov / 939 mil. slov

áno

2013

hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 s licenciou na on-line vyhľadávanie (77,8 % publicistické, 9,8 % umelecké, 11 % odborné, 1,4 % iné texty)

prim-5.0-public-all

719 mil. tokenov / 599 mil. slov

áno

2011

hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 s licenciou na on-line vyhľadávanie (73 % publicistické, 14 % umelecké, 12 % odborné, 1 % iné texty)

r55az89-2.0

44 mil. tokenov / 35 mil. slov

áno

2011

podkorpus textov z rokov 1955 – 1989

prim-4.0-public-all

526 mil. tokenov / 429 mil. slov

áno

2009

hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 s licenciou na on-line vyhľadávanie (65 % publicistické, 17 % umelecké, 16 % odborné, 2 % iné texty)

r55az89-1.0

40 mil. tokenov / 32 mil. slov

áno

2009

podkorpus textov z rokov 1955 – 1989

prim-3.0-public-all

339 mil. tokenov / 276 mil. slov

áno

2007

hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 s licenciou na on-line vyhľadávanie (57 % publicistické, 21,5 % umelecké, 18,5 % odborné, 3 % iné texty)

prim-2.1-public-all

294 mil. tokenov / 229 mil. slov

áno

2006

hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 s licenciou na on-line vyhľadávanie (63 % publicistické, 20 % umelecké, 12 % odborné, 5 % iné texty)

prim-2.0-public-all

250 mil. tokenov

pilotná

2005

hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 s licenciou na on-line vyhľadávanie

prim-1.0-public-all

182 mil. tokenov

testovacia

2004

hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 s licenciou na on-line vyhľadávanie

prim-0.2-public-all

170 mil. tokenov

nie

2003

hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 s licenciou na on-line vyhľadávanie

prim-0.1-public-all

30 mil. tokenov

nie

2003

hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 s licenciou na on-line vyhľadávanie

2. Korpusy písaných textov − synchrónne, webové

verzia korpusu
rozsah
počet tokenov / počet slov
lematizácia, morfologická anotáciarok zverejneniacharakteristika korpusu

web-6.0

4 373 mil. tokenov / 3 639 mil. slov

áno

2022

korpus slovenských textov dostupných na webe

web-5.0

4 042 mil. tokenov / 3 326 mil. slov

áno

2020

korpus slovenských textov dostupných na webe

web-4.0

2 963 mil. tokenov / 2 440 mil. slov

áno

2018

korpus slovenských textov dostupných na webe

web-3.0

2 372 mil. tokenov / 1 993 mil. slov

áno

2015

korpus slovenských textov dostupných na webe

web-2.0

1 046 mil. tokenov / 839 mil. slov

áno

2012

korpus slovenských textov dostupných na webe

web-1.0

952 mil. tokenov / 773 mil. slov

áno

2011

korpus slovenských textov dostupných na webe

wiki-2019-08

51 mil. tokenov / 38 mil. slov

áno

2020

korpus slovenských textov z Wikipédie (k 1. 8. 2019)

wiki-2018-03

47 mil. tokenov / 35 mil. slov

áno

2018

korpus slovenských textov z Wikipédie a Necyklopédie (k 15. 3. 2018)

wiki-2017-02

45 mil. tokenov / 34 mil. slov

áno

2017

korpus slovenských textov z Wikipédie a Necyklopédie (k 28. 2. 2017)

wiki-2016-02

43 mil. tokenov / 34 mil. slov

áno

2016

korpus slovenských textov z Wikipédie a Necyklopédie (k 26. 2. 2016)

wiki-2015-02

40 mil. tokenov / 32 mil. slov

áno

2015

korpus slovenských textov z Wikipédie a Necyklopédie (k 28. 2. 2015)

3. Korpusy písaných textov − synchrónne, spojené

verzia korpusu
rozsah
počet tokenov / počet slov
lematizácia, morfologická anotáciarok zverejneniacharakteristika korpusu

omnia-2.0-public

2 239 mil. tokenov

áno

2013

Korpus omnia-2.0-public – sú to spojené korpusy prim-6.0-public-all, s-hovor-4.0, legal-1.1, web-1.1, web-1.2 po odstránení duplicitných textov alebo duplicitných častí textov (deduplikácia) a s malými úpravami v tokenizácii (slová so spojovníkom sú ako jeden token) a v lematizácii (negované tvary sú v rámci afirmatívnej lemy) pripravil zo zdrojov SNK V. Benko primárne pre potreby pracovníkov oddelenia súčasnej lexikológie a lexikografie JÚĽŠ SAV.

4. Korpusy písaných textov − paralelné

verzia korpusu
rozsah
počet tokenov / počet slov
lematizácia, morfologická anotáciarok zverejnenia (rok zverejnenia prvej verzie)charakteristika korpusu

par-sken-all-4.0

556 mil. tokenov / 436 mil. slov

áno, obidva jazyky

2015 (2010)

slovensko-anglický paralelný korpus: 261 mil. tokenov v slovenskej časti, 295 mil. tokenov v anglickej časti

par-sken-fic-4.0

200 mil. tokenov / 160 mil. slov

áno, obidva jazyky

2015

slovensko-anglický paralelný korpus, podkorpus beletrie: 92 mil. tokenov v slovenskej časti, 108 mil. tokenov v anglickej časti

par-skbg-free-0.1

163 mil. tokenov / 108 mil. slov

áno, obidva jazyky

2014

slovensko-bulharský paralelný korpus: 78 mil. tokenov v slovenskej časti, 85 mil. tokenov v bulharskej časti

par-skcs-all-4.0

418 mil. tokenov / 306 mil. slov

áno, obidva jazyky

2016 (2010)

slovensko-český paralelný korpus: 209 mil. tokenov v slovenskej časti, 209 mil. tokenov v českej časti

par-skcs-fic-5.0

31,5 mil. tokenov / 25,0 mil. slov

áno, obidva jazyky

2018 (2010)

slovensko-český paralelný korpus, podkorpus beletrie: 15,7 mil. tokenov v slovenskej časti, 15,8 mil. tokenov v českej časti

par-skfr-all-3.0

449 mil. tokenov / 332 mil. slov

áno, obidva jazyky

2016 (2006)

slovensko-francúzsky paralelný korpus: 217 mil. tokenov v slovenskej časti, 233 mil. tokenov vo francúzskej časti

par-skfr-fic-3.0

9,9 mil. tokenov / 8,3 mil. slov

áno, obidva jazyky

2016 (2006)

slovensko-francúzsky paralelný korpus, podkorpus beletrie: 4,3 mil. tokenov v slovenskej časti, 5,5 mil. tokenov v francúzskej časti

par-skla-3.0

5,0 mil. tokenov / 4,1 mil. slov

áno, obidva jazyky

2018 (2012)

slovensko-latinský paralelný korpus: 2,7 mil. tokenov v slovenskej časti, 2,3 mil. tokenov v latinskej časti

par-skhu-all-1.0

99 mil. tokenov / 75 mil. slov

áno, obidva jazyky

2015 (2014)

slovensko-maďarský paralelný korpus: 51 mil. tokenov v slovenskej časti, 48 mil. tokenov v maďarskej časti

par-skhu-fic-1.0

4,0 mil. tokenov / 3,2 mil. slov

áno, obidva jazyky

2015

slovensko-maďarský paralelný korpus, podkorpus beletrie: 2,0 mil. tokenov v slovenskej časti, 1,9 mil. tokenov v maďarskej časti

par-skde-all-3.0

468 mil. tokenov / 318 mil. slov

áno, obidva jazyky

2022 (2014)

slovensko-nemecký paralelný korpus: 230 mil. tokenov v slovenskej časti, 238 mil. tokenov v nemeckej časti

par-skde-fic-3.0

29,7 mil. tokenov / 24,1 mil. slov

áno, obidva jazyky

2022

slovensko-nemecký paralelný korpus, podkorpus beletrie: 13,7 mil. tokenov v slovenskej časti, 16,0 mil. tokenov v nemeckej časti

par-skde-all-2.0

446 mil. tokenov / 300 mil. slov

áno, obidva jazyky

2016 (2014)

slovensko-nemecký paralelný korpus: 220 mil. tokenov v slovenskej časti, 226 mil. tokenov v nemeckej časti

par-skde-fic-2.0

7,6 mil. tokenov / 6,2 mil. slov

áno, obidva jazyky

2016

slovensko-nemecký paralelný korpus, podkorpus beletrie: 3,5 mil. tokenov v slovenskej časti, 4,1 mil. tokenov v nemeckej časti

par-skpl-1.0

8,2 mil. tokenov / 6,5 mil. slov

áno, obidva jazyky

2018 (2018)

slovensko-poľský paralelný korpus: 4,1 mil. tokenov v slovenskej časti, 4,1 mil. tokenov v poľskej časti

par-skro-1.1

1,3 mil. tokenov / 1,0 mil. slov

áno, obidva jazyky

2017 (2016)

slovensko-rumunský paralelný korpus: 603 111 tokenov v slovenskej časti, 688 867 tokenov v rumunskej časti

par-skru-2.0

8,5 mil. tokenov / 6,6 mil. slov

áno, obidva jazyky

2014 (2005)

slovensko-ruský paralelný korpus: 4,2 mil. tokenov v slovenskej časti, 4,2 mil. tokenov v ruskej časti

par-skes-2.0

35,6 mil. tokenov / 29,4 mil. slov

áno, obidva jazyky

2022 (2019)

slovensko-španielsky paralelný korpus: 16,7 mil. tokenov v slovenskej časti, 18,9 mil. tokenov v španielskej časti

par-skes-1.0

11,5 mil. tokenov / 9,6 mil. slov

áno, obidva jazyky

2019 (2019)

slovensko-španielsky paralelný korpus: 5,5 mil. tokenov v slovenskej časti, 6,0 mil. tokenov v španielskej časti

5. Korpusy písaných textov − synchrónne, akvizičné

verzia korpusu
rozsah
počet tokenov / počet slov
lematizácia, morfologická anotáciarok zverejneniacharakteristika korpusu

errkorp-pilot

137 393 tokenov / 112 271 slov

áno

2022

Korpus textov študentov učiacich sa slovenčinu ako cudzí jazyk

6. Korpusy písaných textov − synchrónne, špecializované

verzia korpusu
rozsah
počet tokenov / počet slov
lematizácia, morfologická anotáciarok zverejneniacharakteristika korpusu

blf-2.0

66 mil. tokenov / 54 mil. slov

áno

2014

korpus náboženských textov

blf-1.0

15 mil. tokenov / 12 mil. slov

áno

2008

korpus náboženských textov

cw-2014-all

1,6 mil. tokenov / 1,2 mil. slov

áno

2014

korpus copywriterských textov

ecn-2.0-public

165 mil. tokenov / 140 mil. slov

áno

2016

korpus ekonomických textov (3,8 % odborných a 96,2 % publicistických textov z ekonómie, bankovníctva, obchodu, manažmentu a tovaroznalectva)

ecn-1.0-public

20 mil. tokenov / 17 mil. slov

áno

2014

korpus ekonomických textov (81,4 % odborných a 18,6 % publicistických textov z ekonómie, bankovníctva, obchodu, manažmentu a tovaroznalectva)

gov-web-1.0

11,7 mil. tokenov / 9,6 mil. slov

áno

2019

korpus textov štátnej správy

hum-1.0-public

39 mil. tokenov / 30 mil. slov

áno

2016

korpus humanitných textov

judikat-1.0

1,5 mil. tokenov / 1,3 mil. slov

áno

2015

korpus textov súdnych rozhodnutí

legal-1.1

49 mil. tokenov / 40 mil. slov

áno

2013

korpus právnych textov (deduplikovaný)

legal-1.0

147 mil. tokenov / 114 mil. slov

áno

2011

korpus právnych textov

od-justice-1.0

4 149 mil. tokenov

áno

2019

korpus textov súdnych rozhodnutí (korpus z projektu OpenData)

prim-7.0-frk

253 mil. tokenov / 203 mil. slov

 

áno

2018

Z referenčného korpusu prim-7.0-frk boli napočítané hodnoty pre Frekvenčný slovník slovenčiny na báze Slovenského národného korpusu a vybrané doklady uvedené v publikácii Skloňovanie podstatných mien v slovenčine s korpusovými príkladmi.

r-mak-6.0

1 199 794 tokenov / 977 871 slov

áno

2017

ručne morfologicky anotovaný korpus SNK (30,6 % publicistické, 50,2 % umelecké, 19,2 % odborné texty)

r-mak-5.0

1 200 088 tokenov / 977 871 slov

áno

2016

ručne morfologicky anotovaný korpus SNK (28,5 % publicistické, 44,5 % umelecké, 27 % odborné texty)

r-mak-4.0

1 199 224 tokenov / 976 877 slov

áno

2013

ručne morfologicky anotovaný korpus SNK (36,2 % publicistické, 44,9 % umelecké, 18,9 % odborné texty)

r-mak-3.0

1 207 813 tokenov / 983 714 slov

áno

2008

ručne morfologicky anotovaný korpus SNK (36,7 % publicistické, 44,3 % umelecké, 19,0 % odborné texty)

r-mak-2.0

511 432 tokenov / 410 177 slov

áno

2007

ručne morfologicky anotovaný korpus SNK (28,9 % publicistické, 58,1 % umelecké, 13,0 % odborné texty)

r-mak-1.0

322 498 tokenov / 256 647 slov

áno

2006

ručne morfologicky anotovaný korpus SNK (41,8 % publicistické, 57,9 % umelecké, 0,2 % odborné texty)

7. Korpusy písaných textov spred roka 1955 (prevažne texty kníh zo Zlatého fondu SME)

verzia korpusu
rozsah
počet tokenov / počet slov
lematizácia, morfologická anotáciarok zverejneniacharakteristika korpusu

r864az1843-1.0

2,1 mil. tokenov / 1,6 mil. slov

nie

2015

korpus textov z r. 864 – 1843: prepis do súčasnej slovenčiny, pravopis podľa roka príslušného vydania

r1843az1954-1.0

24 mil. tokenov / 19 mil. slov

nie

2015

korpus textov z r. 1843 – 1954: prepis do súčasnej slovenčiny, pravopis podľa roka príslušného vydania

8. Korpusy hovorených prejavov − synchrónne, štandardné

verzia korpusu a podkorpusov
rozsah
počet tokenov / počet slov
lematizácia, morfologická anotáciarok zverejneniacharakteristika korpusu

s-hovor-7.0

7,9 mil. tokenov

áno

2022

Slovenský hovorený korpus: prehovory a ich prepisy v štandardnej slovenčine z celého územia Slovenska

s-hovor-7.0-sane

4,2 mil. tokenov

áno

2022

podkorpus Slovenského hovoreného korpusu: prehovory a ich prepisy bez nahrávok poskytnutých ÚPN

s-hovor-7.0-upn

3,6 mil. tokenov

áno

2022

podkorpus Slovenského hovoreného korpusu: prehovory a ich prepisy z projektu Oral history realizovaného Ústavom pamäti národa (ÚPN)

s-hovor-6.0

6,6 mil. tokenov / 5,5 mil. slov

áno

2017

Slovenský hovorený korpus: prehovory a ich prepisy v štandardnej slovenčine z celého územia Slovenska

s-hovor-6.0-sane

3,7 mil. tokenov / 3,0 mil. slov

áno

2017

podkorpus Slovenského hovoreného korpusu: prehovory a ich prepisy bez nahrávok poskytnutých ÚPN

s-hovor-6.0-upn

2,9 mil. tokenov / 2,4 mil. slov

áno

2017

podkorpus Slovenského hovoreného korpusu: prehovory a ich prepisy z projektu Oral history realizovaného Ústavom pamäti národa (ÚPN)

s-hovor-5.0

5,7 mil. tokenov / 4,7 mil. slov

áno

2015

Slovenský hovorený korpus: prehovory a ich prepisy v štandardnej slovenčine z celého územia Slovenska

s-hovor-5.0-sane

3,6 mil. tokenov / 3,0 mil. slov

áno

2015

podkorpus Slovenského hovoreného korpusu: prehovory a ich prepisy bez nahrávok poskytnutých ÚPN

s-hovor-5.0-upn

2,1 mil. tokenov / 1,8 mil. slov

áno

2015

podkorpus Slovenského hovoreného korpusu: prehovory a ich prepisy z projektu Oral history realizovaného Ústavom pamäti národa (ÚPN)

s-hovor-4.0

2,6 mil. tokenov / 2,2 mil. slov

áno

2012

Slovenský hovorený korpus: prehovory a ich prepisy v štandardnej slovenčine z celého územia Slovenska

s-hovor-4.0-sane

1,6 mil. tokenov / 1,3 mil. slov

áno

2012

podkorpus Slovenského hovoreného korpusu: prehovory a ich prepisy bez nahrávok poskytnutých ÚPN

s-hovor-4.0-upn

1,0 mil. tokenov / 0,9 mil. slov

áno

2012

podkorpus Slovenského hovoreného korpusu: prehovory a ich prepisy z projektu Oral history realizovaného Ústavom pamäti národa (ÚPN)

s-hovor-3.0

2,1 mil. tokenov / 1,4 mil. slov

áno

2011

Slovenský hovorený korpus: prehovory a ich prepisy v štandardnej slovenčine z celého územia Slovenska

s-hovor-2.0

678 592 tokenov / 560 933 slov

áno

2010

Slovenský hovorený korpus: prehovory a ich prepisy v štandardnej slovenčine z celého územia Slovenska

s-hovor-1.0

127 714 tokenov / 104 458 slov

áno

2008

Slovenský hovorený korpus: prehovory a ich prepisy v štandardnej slovenčine z celého územia Slovenska

9. Korpusy nárečí SNK

verzia korpusu
rozsah
počet tokenov / počet slov
lematizácia, morfologická anotáciarok zverejneniacharakteristika korpusu

dialekt-5.0

980 643 tokenov / 786 312 slov

nie

2022

Korpus nárečí Slovenského národného korpusu: publikované textové prepisy alebo transkribované záznamy nárečových prehovorov z nárečových oblastí z územia celého Slovenska

dialekt-4.0

711 766 tokenov / 571 352 slov

nie

2018

Korpus nárečí Slovenského národného korpusu: publikované textové prepisy alebo transkribované záznamy nárečových prehovorov z nárečových oblastí z územia celého Slovenska

dialekt-3.0

494 722 tokenov / 403 180 slov

nie

2016

Korpus nárečí Slovenského národného korpusu: publikované textové prepisy alebo transkribované záznamy nárečových prehovorov z nárečových oblastí z územia celého Slovenska

dialekt-2.0

328 907 tokenov / 252 166 slov

nie

2015

Korpus nárečí Slovenského národného korpusu: publikované textové prepisy alebo transkribované záznamy nárečových prehovorov z nárečových oblastí z územia celého Slovenska

dialekt-1.0

73 855 tokenov / 54 598 slov

nie

2014

Korpus nárečí Slovenského národného korpusu: publikované textové prepisy alebo transkribované záznamy nárečových prehovorov z nárečových oblastí z územia celého Slovenska

10. Historický korpus

verzia korpusu
rozsah
počet tokenov / počet slov
lematizácia, morfologická anotáciarok zverejneniacharakteristika korpusu

hist-6.0

916 743 tokenov / 720 492 slov

nie

2022

historický korpus slovenčiny: pramenné materiály (v pôvodnom pravopise)

hist-5.0

997 809 tokenov / 731 498 slov

nie

2020

historický korpus slovenčiny: pramenné materiály (v pôvodnom pravopise)

hist-4.0

917 586 tokenov / 668 245 slov

nie

2016

historický korpus slovenčiny: pramenné materiály (v pôvodnom pravopise)

hist-3.0

836 393 tokenov / 600 410 slov

nie

2015

historický korpus slovenčiny: pramenné materiály (v pôvodnom pravopise)

hist-2.0

551 973 tokenov / 422 166 slov

nie

2014

historický korpus slovenčiny: pramenné materiály (v pôvodnom pravopise)

hist-1.0

370 758 tokenov

nie

2012

historický korpus slovenčiny: pramenné materiály (v pôvodnom pravopise)