Obsah
- 1. Korpusy a podkorpusy písaných textov − synchrónne, všeobecné
- 2. Korpusy písaných textov − synchrónne, webové
- 3. Korpusy písaných textov − synchrónne, spojené
- 4. Korpusy písaných textov − paralelné
- 5. Korpusy písaných textov − synchrónne, akvizičné
- 6. Korpusy písaných textov − synchrónne, špecializované
- 7. Korpusy písaných textov spred roka 1955 (prevažne texty kníh zo Zlatého fondu SME)
- 8. Korpusy hovorených prejavov − synchrónne, štandardné
- 9. Korpusy nárečí SNK
- 10. Historický korpus
1. Korpusy a podkorpusy písaných textov − synchrónne, všeobecné
verzia hlavného korpusu a podkorpusov | rozsah počet tokenov / počet slov | lematizácia, morfologická anotácia | rok zverejnenia | charakteristika korpusov a podkorpusov |
1 961 mil. tokenov / 1 572 mil. slov | áno | – interný korpus | hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 | |
1 688 mil. tokenov / 1 355 mil. slov | áno | 2022 | hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 s licenciou na on-line vyhľadávanie (71,0 % publicistické, 16,8 % umelecké, 11,3 % odborné, 0,9 % iné texty) | |
1 921 mil. tokenov / 1 540 mil. slov | áno | – interný korpus | hlavný korpus bez textov, ktoré sú s nesprávnou diakritikou, z oblastí mimo Slovenska a pod. | |
1 650 mil. tokenov / 1 323 mil. slov | áno | 2022 | hlavný korpus textov s licenciou na on-line vyhľadávanie bez textov, ktoré sú s nesprávnou diakritikou, z oblastí mimo Slovenska a pod. – z neho sa tvoria podkorpusy | |
572 mil. tokenov / 459 mil. slov | áno | 2022 | štýlovo vyvážený podkorpus (33,3 % publicistické, 33,3 % umelecké, 33,3 % odborné texty) | |
1 163 mil. tokenov / 932 mil. slov | áno | 2022 | podkorpus publicistických textov | |
189 mil. tokenov / 153 mil. slov | áno | 2022 | podkorpus vedeckých, odborných a populárno-náučných textov | |
283 mil. tokenov / 226 mil. slov | áno | 2022 | podkorpus umeleckých textov | |
1 361 mil. tokenov / 1 093 mil. slov | áno | 2022 | podkorpus pôvodných slovenských textov | |
97 mil. tokenov / 78 mil. slov | áno | 2022 | podkorpus pôvodných slovenských umeleckých textov | |
109 mil. tokenov / 87 mil. slov | áno | 2022 | podkorpus textov z rokov 1955 – 1989 (4,0 % publicistické, 81,2 % umelecké, 11,1 % odborné, 3,7 % iné texty) | |
1 870 mil. tokenov / 1 455 mil. slov | áno | – interný korpus | hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 | |
1 652 mil. tokenov / 1 282 mil. slov | áno | 2020 | hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 s licenciou na on-line vyhľadávanie (74,0 % publicistické, 16,0 % umelecké, 9,2 % odborné, 0,9 % iné texty) | |
1 838 mil. tokenov / 1 429 mil. slov | áno | – interný korpus | hlavný korpus bez textov, ktoré sú s nesprávnou diakritikou, z oblastí mimo Slovenska a pod. | |
1 621 mil. tokenov / 1 257 mil. slov | áno | 2020 | hlavný korpus textov s licenciou na on-line vyhľadávanie bez textov, ktoré sú s nesprávnou diakritikou, z oblastí mimo Slovenska a pod. – z neho sa tvoria podkorpusy | |
454 mil. tokenov / 355 mil. slov | áno | 2020 | štýlovo vyvážený podkorpus (33,3 % publicistické, 33,3 % umelecké, 33,3 % odborné texty) | |
1 194 mil. tokenov / 920 mil. slov | áno | 2020 | podkorpus publicistických textov | |
150 mil. tokenov / 117 mil. slov | áno | 2020 | podkorpus vedeckých, odborných a populárno-náučných textov | |
263 mil. tokenov / 208 mil. slov | áno | 2020 | podkorpus umeleckých textov | |
1 258 mil. tokenov / 977 mil. slov | áno | 2020 | podkorpus pôvodných slovenských textov | |
93 mil. tokenov / 74 mil. slov | áno | 2020 | podkorpus pôvodných slovenských umeleckých textov | |
99 mil. tokenov / 79 mil. slov | áno | 2020 | podkorpus textov z rokov 1955 – 1989 (4,5 % publicistické, 78,6 % umelecké, 12,4 % odborné, 4,4 % iné texty) | |
1 647 mil. tokenov / 1 295 mil. slov | áno | – interný korpus | hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 | |
1 477 mil. tokenov / 1 160 mil. slov | áno | 2018 | hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 s licenciou na on-line vyhľadávanie (71,1 % publicistické, 15,4 % umelecké, 8,5 % odborné, 5,0 % iné texty) | |
1 518 mil. tokenov / 1 195 mil. slov | áno | – interný korpus | hlavný korpus bez textov, ktoré sú s nesprávnou diakritikou, z oblastí mimo Slovenska, z lingvistických časopisov, zo študentských referátov a pod. | |
1 369 mil. tokenov / 1 076 mil. slov | áno | 2018 | hlavný korpus textov s licenciou na on-line vyhľadávanie bez textov, ktoré sú s nesprávnou diakritikou, z oblastí mimo Slovenska, z lingvistických časopisov, zo študentských referátov a pod. – z neho sa tvoria podkorpusy | |
377 mil. tokenov / 298 mil. slov | áno | 2018 | štýlovo vyvážený podkorpus (33,3 % publicistické, 33,3 % umelecké, 33,3 % odborné texty) | |
1 010 mil. tokenov / 791 mil. slov | áno | 2018 | podkorpus publicistických textov | |
122 mil. tokenov / 96 mil. slov | áno | 2018 | podkorpus vedeckých, odborných a populárno-náučných textov | |
224 mil. tokenov / 178 mil. slov | áno | 2018 | podkorpus umeleckých textov | |
1 043 mil. tokenov / 822 mil. slov | áno | 2018 | podkorpus pôvodných slovenských textov | |
83 mil. tokenov / 66 mil. slov | áno | 2018 | podkorpus pôvodných slovenských umeleckých textov | |
84 mil. tokenov / 67 mil. slov | áno | 2018 | podkorpus textov z rokov 1955 – 1989 (5,3 % publicistické, 75,3 % umelecké, 14,0 % odborné, 5,4 % iné texty) | |
1 437 mil. tokenov / 1 119 mil. slov | áno | – interný korpus | hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 | |
1 250 mil. tokenov / 972 mil. slov | áno | 2015 | hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 s licenciou na on-line vyhľadávanie (65,1 % publicistické, 15,1 % umelecké, 9,5 % odborné, 10,3 % iné texty) | |
1 202 mil. tokenov / 938 mil. slov | áno | – interný korpus | hlavný korpus bez textov, ktoré sú s nesprávnou diakritikou, z oblastí mimo Slovenska, z lingvistických časopisov, zo študentských referátov a pod. | |
1 089 mil. tokenov / 849 mil. slov | áno | 2015 | hlavný korpus textov s licenciou na on-line vyhľadávanie bez textov, ktoré sú s nesprávnou diakritikou, z oblastí mimo Slovenska, z lingvistických časopisov, zo študentských referátov a pod. – z neho sa tvoria podkorpusy | |
341 mil. tokenov / 267 mil. slov | áno | 2015 | štýlovo vyvážený podkorpus (33,3 % publicistické, 33,3 % umelecké, 33,3 % odborné texty) | |
771 mil. tokenov / 597 mil. slov | áno | 2015 | podkorpus publicistických textov | |
114 mil. tokenov / 89 mil. slov | áno | 2015 | podkorpus vedeckých, odborných a populárno-náučných textov | |
188 mil. tokenov / 149 mil. slov | áno | 2015 | podkorpus umeleckých textov | |
807 mil. tokenov / 630 mil. slov | áno | 2015 | podkorpus pôvodných slovenských textov | |
65 mil. tokenov / 52 mil. slov | áno | 2015 | podkorpus pôvodných slovenských umeleckých textov | |
67 mil. tokenov / 54 mil. slov | áno | 2015 | podkorpus textov z rokov 1955 – 1989 (7,4 % publicistické, 69,3 % umelecké, 16,6 % odborné, 6,7 % iné texty) | |
830 mil. tokenov / 656 mil. slov | áno | 2013 | hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 s licenciou na on-line vyhľadávanie (68,8 % publicistické, 13,9 % umelecké, 15,3 % odborné, 2 % iné texty) | |
63 mil. tokenov / 51 mil. slov | áno | 2013 | podkorpus textov z rokov 1955 – 1989 (11,9 % publicistické, 55,5 % umelecké, 24,1 % odborné, 8,5 % iné texty) | |
1 155 mil. tokenov / 939 mil. slov | áno | 2013 | hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 s licenciou na on-line vyhľadávanie (77,8 % publicistické, 9,8 % umelecké, 11 % odborné, 1,4 % iné texty) | |
719 mil. tokenov / 599 mil. slov | áno | 2011 | hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 s licenciou na on-line vyhľadávanie (73 % publicistické, 14 % umelecké, 12 % odborné, 1 % iné texty) | |
44 mil. tokenov / 35 mil. slov | áno | 2011 | podkorpus textov z rokov 1955 – 1989 | |
526 mil. tokenov / 429 mil. slov | áno | 2009 | hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 s licenciou na on-line vyhľadávanie (65 % publicistické, 17 % umelecké, 16 % odborné, 2 % iné texty) | |
40 mil. tokenov / 32 mil. slov | áno | 2009 | podkorpus textov z rokov 1955 – 1989 | |
339 mil. tokenov / 276 mil. slov | áno | 2007 | hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 s licenciou na on-line vyhľadávanie (57 % publicistické, 21,5 % umelecké, 18,5 % odborné, 3 % iné texty) | |
294 mil. tokenov / 229 mil. slov | áno | 2006 | hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 s licenciou na on-line vyhľadávanie (63 % publicistické, 20 % umelecké, 12 % odborné, 5 % iné texty) | |
prim-2.0-public-all | 250 mil. tokenov | pilotná | 2005 | hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 s licenciou na on-line vyhľadávanie |
prim-1.0-public-all | 182 mil. tokenov | testovacia | 2004 | hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 s licenciou na on-line vyhľadávanie |
prim-0.2-public-all | 170 mil. tokenov | nie | 2003 | hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 s licenciou na on-line vyhľadávanie |
prim-0.1-public-all | 30 mil. tokenov | nie | 2003 | hlavný korpus obsahujúci všetky aktuálne získané a korpusovo spracované texty publikované alebo napísané po r. 1955 s licenciou na on-line vyhľadávanie |
2. Korpusy písaných textov − synchrónne, webové
verzia korpusu | rozsah počet tokenov / počet slov | lematizácia, morfologická anotácia | rok zverejnenia | charakteristika korpusu |
4 373 mil. tokenov / 3 639 mil. slov | áno | 2022 | korpus slovenských textov dostupných na webe | |
4 042 mil. tokenov / 3 326 mil. slov | áno | 2020 | korpus slovenských textov dostupných na webe | |
2 963 mil. tokenov / 2 440 mil. slov | áno | 2018 | korpus slovenských textov dostupných na webe | |
2 372 mil. tokenov / 1 993 mil. slov | áno | 2015 | korpus slovenských textov dostupných na webe | |
1 046 mil. tokenov / 839 mil. slov | áno | 2012 | korpus slovenských textov dostupných na webe | |
952 mil. tokenov / 773 mil. slov | áno | 2011 | korpus slovenských textov dostupných na webe | |
51 mil. tokenov / 38 mil. slov | áno | 2020 | korpus slovenských textov z Wikipédie (k 1. 8. 2019) | |
47 mil. tokenov / 35 mil. slov | áno | 2018 | korpus slovenských textov z Wikipédie a Necyklopédie (k 15. 3. 2018) | |
45 mil. tokenov / 34 mil. slov | áno | 2017 | korpus slovenských textov z Wikipédie a Necyklopédie (k 28. 2. 2017) | |
43 mil. tokenov / 34 mil. slov | áno | 2016 | korpus slovenských textov z Wikipédie a Necyklopédie (k 26. 2. 2016) | |
40 mil. tokenov / 32 mil. slov | áno | 2015 | korpus slovenských textov z Wikipédie a Necyklopédie (k 28. 2. 2015) |
3. Korpusy písaných textov − synchrónne, spojené
verzia korpusu | rozsah počet tokenov / počet slov | lematizácia, morfologická anotácia | rok zverejnenia | charakteristika korpusu |
2 239 mil. tokenov | áno | 2013 | Korpus omnia-2.0-public – sú to spojené korpusy prim-6.0-public-all, s-hovor-4.0, legal-1.1, web-1.1, web-1.2 po odstránení duplicitných textov alebo duplicitných častí textov (deduplikácia) a s malými úpravami v tokenizácii (slová so spojovníkom sú ako jeden token) a v lematizácii (negované tvary sú v rámci afirmatívnej lemy) pripravil zo zdrojov SNK V. Benko primárne pre potreby pracovníkov oddelenia súčasnej lexikológie a lexikografie JÚĽŠ SAV. |
4. Korpusy písaných textov − paralelné
verzia korpusu | rozsah počet tokenov / počet slov | lematizácia, morfologická anotácia | rok zverejnenia (rok zverejnenia prvej verzie) | charakteristika korpusu |
556 mil. tokenov / 436 mil. slov | áno, obidva jazyky | 2015 (2010) | slovensko-anglický paralelný korpus: 261 mil. tokenov v slovenskej časti, 295 mil. tokenov v anglickej časti | |
200 mil. tokenov / 160 mil. slov | áno, obidva jazyky | 2015 | slovensko-anglický paralelný korpus, podkorpus beletrie: 92 mil. tokenov v slovenskej časti, 108 mil. tokenov v anglickej časti | |
163 mil. tokenov / 108 mil. slov | áno, obidva jazyky | 2014 | slovensko-bulharský paralelný korpus: 78 mil. tokenov v slovenskej časti, 85 mil. tokenov v bulharskej časti | |
418 mil. tokenov / 306 mil. slov | áno, obidva jazyky | 2016 (2010) | slovensko-český paralelný korpus: 209 mil. tokenov v slovenskej časti, 209 mil. tokenov v českej časti | |
31,5 mil. tokenov / 25,0 mil. slov | áno, obidva jazyky | 2018 (2010) | slovensko-český paralelný korpus, podkorpus beletrie: 15,7 mil. tokenov v slovenskej časti, 15,8 mil. tokenov v českej časti | |
449 mil. tokenov / 332 mil. slov | áno, obidva jazyky | 2016 (2006) | slovensko-francúzsky paralelný korpus: 217 mil. tokenov v slovenskej časti, 233 mil. tokenov vo francúzskej časti | |
9,9 mil. tokenov / 8,3 mil. slov | áno, obidva jazyky | 2016 (2006) | slovensko-francúzsky paralelný korpus, podkorpus beletrie: 4,3 mil. tokenov v slovenskej časti, 5,5 mil. tokenov v francúzskej časti | |
5,0 mil. tokenov / 4,1 mil. slov | áno, obidva jazyky | 2018 (2012) | slovensko-latinský paralelný korpus: 2,7 mil. tokenov v slovenskej časti, 2,3 mil. tokenov v latinskej časti | |
99 mil. tokenov / 75 mil. slov | áno, obidva jazyky | 2015 (2014) | slovensko-maďarský paralelný korpus: 51 mil. tokenov v slovenskej časti, 48 mil. tokenov v maďarskej časti | |
4,0 mil. tokenov / 3,2 mil. slov | áno, obidva jazyky | 2015 | slovensko-maďarský paralelný korpus, podkorpus beletrie: 2,0 mil. tokenov v slovenskej časti, 1,9 mil. tokenov v maďarskej časti | |
468 mil. tokenov / 318 mil. slov | áno, obidva jazyky | 2022 (2014) | slovensko-nemecký paralelný korpus: 230 mil. tokenov v slovenskej časti, 238 mil. tokenov v nemeckej časti | |
29,7 mil. tokenov / 24,1 mil. slov | áno, obidva jazyky | 2022 | slovensko-nemecký paralelný korpus, podkorpus beletrie: 13,7 mil. tokenov v slovenskej časti, 16,0 mil. tokenov v nemeckej časti | |
446 mil. tokenov / 300 mil. slov | áno, obidva jazyky | 2016 (2014) | slovensko-nemecký paralelný korpus: 220 mil. tokenov v slovenskej časti, 226 mil. tokenov v nemeckej časti | |
7,6 mil. tokenov / 6,2 mil. slov | áno, obidva jazyky | 2016 | slovensko-nemecký paralelný korpus, podkorpus beletrie: 3,5 mil. tokenov v slovenskej časti, 4,1 mil. tokenov v nemeckej časti | |
8,2 mil. tokenov / 6,5 mil. slov | áno, obidva jazyky | 2018 (2018) | slovensko-poľský paralelný korpus: 4,1 mil. tokenov v slovenskej časti, 4,1 mil. tokenov v poľskej časti | |
1,3 mil. tokenov / 1,0 mil. slov | áno, obidva jazyky | 2017 (2016) | slovensko-rumunský paralelný korpus: 603 111 tokenov v slovenskej časti, 688 867 tokenov v rumunskej časti | |
8,5 mil. tokenov / 6,6 mil. slov | áno, obidva jazyky | 2014 (2005) | slovensko-ruský paralelný korpus: 4,2 mil. tokenov v slovenskej časti, 4,2 mil. tokenov v ruskej časti | |
35,6 mil. tokenov / 29,4 mil. slov | áno, obidva jazyky | 2022 (2019) | slovensko-španielsky paralelný korpus: 16,7 mil. tokenov v slovenskej časti, 18,9 mil. tokenov v španielskej časti | |
11,5 mil. tokenov / 9,6 mil. slov | áno, obidva jazyky | 2019 (2019) | slovensko-španielsky paralelný korpus: 5,5 mil. tokenov v slovenskej časti, 6,0 mil. tokenov v španielskej časti |
5. Korpusy písaných textov − synchrónne, akvizičné
verzia korpusu | rozsah počet tokenov / počet slov | lematizácia, morfologická anotácia | rok zverejnenia | charakteristika korpusu |
137 393 tokenov / 112 271 slov | áno | 2022 | Korpus textov študentov učiacich sa slovenčinu ako cudzí jazyk |
6. Korpusy písaných textov − synchrónne, špecializované
verzia korpusu | rozsah počet tokenov / počet slov | lematizácia, morfologická anotácia | rok zverejnenia | charakteristika korpusu |
66 mil. tokenov / 54 mil. slov | áno | 2014 | korpus náboženských textov | |
15 mil. tokenov / 12 mil. slov | áno | 2008 | korpus náboženských textov | |
1,6 mil. tokenov / 1,2 mil. slov | áno | 2014 | korpus copywriterských textov | |
165 mil. tokenov / 140 mil. slov | áno | 2016 | korpus ekonomických textov (3,8 % odborných a 96,2 % publicistických textov z ekonómie, bankovníctva, obchodu, manažmentu a tovaroznalectva) | |
20 mil. tokenov / 17 mil. slov | áno | 2014 | korpus ekonomických textov (81,4 % odborných a 18,6 % publicistických textov z ekonómie, bankovníctva, obchodu, manažmentu a tovaroznalectva) | |
11,7 mil. tokenov / 9,6 mil. slov | áno | 2019 | korpus textov štátnej správy | |
39 mil. tokenov / 30 mil. slov | áno | 2016 | korpus humanitných textov | |
1,5 mil. tokenov / 1,3 mil. slov | áno | 2015 | korpus textov súdnych rozhodnutí | |
49 mil. tokenov / 40 mil. slov | áno | 2013 | korpus právnych textov (deduplikovaný) | |
147 mil. tokenov / 114 mil. slov | áno | 2011 | korpus právnych textov | |
4 149 mil. tokenov | áno | 2019 | korpus textov súdnych rozhodnutí (korpus z projektu OpenData) | |
253 mil. tokenov / 203 mil. slov | áno | 2018 | Z referenčného korpusu prim-7.0-frk boli napočítané hodnoty pre Frekvenčný slovník slovenčiny na báze Slovenského národného korpusu a vybrané doklady uvedené v publikácii Skloňovanie podstatných mien v slovenčine s korpusovými príkladmi. | |
1 199 794 tokenov / 977 871 slov | áno | 2017 | ručne morfologicky anotovaný korpus SNK (30,6 % publicistické, 50,2 % umelecké, 19,2 % odborné texty) | |
1 200 088 tokenov / 977 871 slov | áno | 2016 | ručne morfologicky anotovaný korpus SNK (28,5 % publicistické, 44,5 % umelecké, 27 % odborné texty) | |
1 199 224 tokenov / 976 877 slov | áno | 2013 | ručne morfologicky anotovaný korpus SNK (36,2 % publicistické, 44,9 % umelecké, 18,9 % odborné texty) | |
1 207 813 tokenov / 983 714 slov | áno | 2008 | ručne morfologicky anotovaný korpus SNK (36,7 % publicistické, 44,3 % umelecké, 19,0 % odborné texty) | |
511 432 tokenov / 410 177 slov | áno | 2007 | ručne morfologicky anotovaný korpus SNK (28,9 % publicistické, 58,1 % umelecké, 13,0 % odborné texty) | |
322 498 tokenov / 256 647 slov | áno | 2006 | ručne morfologicky anotovaný korpus SNK (41,8 % publicistické, 57,9 % umelecké, 0,2 % odborné texty) |
7. Korpusy písaných textov spred roka 1955 (prevažne texty kníh zo Zlatého fondu SME)
verzia korpusu | rozsah počet tokenov / počet slov | lematizácia, morfologická anotácia | rok zverejnenia | charakteristika korpusu |
2,1 mil. tokenov / 1,6 mil. slov | nie | 2015 | korpus textov z r. 864 – 1843: prepis do súčasnej slovenčiny, pravopis podľa roka príslušného vydania | |
24 mil. tokenov / 19 mil. slov | nie | 2015 | korpus textov z r. 1843 – 1954: prepis do súčasnej slovenčiny, pravopis podľa roka príslušného vydania |
8. Korpusy hovorených prejavov − synchrónne, štandardné
verzia korpusu a podkorpusov | rozsah počet tokenov / počet slov | lematizácia, morfologická anotácia | rok zverejnenia | charakteristika korpusu |
7,9 mil. tokenov | áno | 2022 | Slovenský hovorený korpus: prehovory a ich prepisy v štandardnej slovenčine z celého územia Slovenska | |
4,2 mil. tokenov | áno | 2022 | podkorpus Slovenského hovoreného korpusu: prehovory a ich prepisy bez nahrávok poskytnutých ÚPN | |
3,6 mil. tokenov | áno | 2022 | podkorpus Slovenského hovoreného korpusu: prehovory a ich prepisy z projektu Oral history realizovaného Ústavom pamäti národa (ÚPN) | |
6,6 mil. tokenov / 5,5 mil. slov | áno | 2017 | Slovenský hovorený korpus: prehovory a ich prepisy v štandardnej slovenčine z celého územia Slovenska | |
3,7 mil. tokenov / 3,0 mil. slov | áno | 2017 | podkorpus Slovenského hovoreného korpusu: prehovory a ich prepisy bez nahrávok poskytnutých ÚPN | |
2,9 mil. tokenov / 2,4 mil. slov | áno | 2017 | podkorpus Slovenského hovoreného korpusu: prehovory a ich prepisy z projektu Oral history realizovaného Ústavom pamäti národa (ÚPN) | |
5,7 mil. tokenov / 4,7 mil. slov | áno | 2015 | Slovenský hovorený korpus: prehovory a ich prepisy v štandardnej slovenčine z celého územia Slovenska | |
3,6 mil. tokenov / 3,0 mil. slov | áno | 2015 | podkorpus Slovenského hovoreného korpusu: prehovory a ich prepisy bez nahrávok poskytnutých ÚPN | |
2,1 mil. tokenov / 1,8 mil. slov | áno | 2015 | podkorpus Slovenského hovoreného korpusu: prehovory a ich prepisy z projektu Oral history realizovaného Ústavom pamäti národa (ÚPN) | |
2,6 mil. tokenov / 2,2 mil. slov | áno | 2012 | Slovenský hovorený korpus: prehovory a ich prepisy v štandardnej slovenčine z celého územia Slovenska | |
1,6 mil. tokenov / 1,3 mil. slov | áno | 2012 | podkorpus Slovenského hovoreného korpusu: prehovory a ich prepisy bez nahrávok poskytnutých ÚPN | |
1,0 mil. tokenov / 0,9 mil. slov | áno | 2012 | podkorpus Slovenského hovoreného korpusu: prehovory a ich prepisy z projektu Oral history realizovaného Ústavom pamäti národa (ÚPN) | |
2,1 mil. tokenov / 1,4 mil. slov | áno | 2011 | Slovenský hovorený korpus: prehovory a ich prepisy v štandardnej slovenčine z celého územia Slovenska | |
678 592 tokenov / 560 933 slov | áno | 2010 | Slovenský hovorený korpus: prehovory a ich prepisy v štandardnej slovenčine z celého územia Slovenska | |
127 714 tokenov / 104 458 slov | áno | 2008 | Slovenský hovorený korpus: prehovory a ich prepisy v štandardnej slovenčine z celého územia Slovenska |
9. Korpusy nárečí SNK
verzia korpusu | rozsah počet tokenov / počet slov | lematizácia, morfologická anotácia | rok zverejnenia | charakteristika korpusu |
980 643 tokenov / 786 312 slov | nie | 2022 | Korpus nárečí Slovenského národného korpusu: publikované textové prepisy alebo transkribované záznamy nárečových prehovorov z nárečových oblastí z územia celého Slovenska | |
711 766 tokenov / 571 352 slov | nie | 2018 | Korpus nárečí Slovenského národného korpusu: publikované textové prepisy alebo transkribované záznamy nárečových prehovorov z nárečových oblastí z územia celého Slovenska | |
494 722 tokenov / 403 180 slov | nie | 2016 | Korpus nárečí Slovenského národného korpusu: publikované textové prepisy alebo transkribované záznamy nárečových prehovorov z nárečových oblastí z územia celého Slovenska | |
328 907 tokenov / 252 166 slov | nie | 2015 | Korpus nárečí Slovenského národného korpusu: publikované textové prepisy alebo transkribované záznamy nárečových prehovorov z nárečových oblastí z územia celého Slovenska | |
73 855 tokenov / 54 598 slov | nie | 2014 | Korpus nárečí Slovenského národného korpusu: publikované textové prepisy alebo transkribované záznamy nárečových prehovorov z nárečových oblastí z územia celého Slovenska |
10. Historický korpus
verzia korpusu | rozsah počet tokenov / počet slov | lematizácia, morfologická anotácia | rok zverejnenia | charakteristika korpusu |
916 743 tokenov / 720 492 slov | nie | 2022 | historický korpus slovenčiny: pramenné materiály (v pôvodnom pravopise) | |
997 809 tokenov / 731 498 slov | nie | 2020 | historický korpus slovenčiny: pramenné materiály (v pôvodnom pravopise) | |
917 586 tokenov / 668 245 slov | nie | 2016 | historický korpus slovenčiny: pramenné materiály (v pôvodnom pravopise) | |
836 393 tokenov / 600 410 slov | nie | 2015 | historický korpus slovenčiny: pramenné materiály (v pôvodnom pravopise) | |
551 973 tokenov / 422 166 slov | nie | 2014 | historický korpus slovenčiny: pramenné materiály (v pôvodnom pravopise) | |
370 758 tokenov | nie | 2012 | historický korpus slovenčiny: pramenné materiály (v pôvodnom pravopise) |