→English

Atribúty a štruktúrne značky vo verejne prístupných korpusoch SNK

1. Korpusy písaných textov − synchrónne, všeobecné

korpus

rozsah − počet tokenov / počet slov

lematizácia, morfologická anotácia

rok zverejnenia

charakteristika korpusu

atribúty

štruktúry

prim-8.0-public-all

1 477 mil. tokenov / 1 160 mil. slov

áno

2018

všetky verejne prístupné texty SNK (71,1 % publicistické, 15,4 % umelecké, 8,5 % odborné, 5,0 % iné texty)

word, lemma, tag, prec, word_lc lemma_lc

doc, s, p, g, noise, hi

prim-8.0-public-sane

1 369 mil. tokenov / 1 076 mil. slov

áno

2018

bez textov s nesprávnou diakritikou, spred roka 1955, z oblastí mimo Slovenska a z lingvistických časopisov

word, lemma, tag, prec, word_lc, lemma_lc

doc, s, p, g, noise, hi

prim-8.0-public-vyv

377 mil. tokenov / 298 mil. slov

áno

2018

vyvážený podkorpus (33,3 % publicistické, 33,3 % umelecké, 33,3 % odborné texty)

word, lemma, tag, prec, word_lc, lemma_lc

doc, s, p, g, noise, hi

prim-8.0-public-inf

1 010 mil. tokenov / 791 mil. slov

áno

2018

podkorpus publicistických (informatívnych) textov

word, lemma, tag, prec, word_lc, lemma_lc

doc, s, p, g, noise, hi

prim-8.0-public-prf

122 mil. tokenov / 96 mil. slov

áno

2018

podkorpus vedeckých, odborných a populárno-náučných textov

word, lemma, tag, prec, word_lc, lemma_lc

doc, s, p, g, hi

prim-8.0-public-img

224 mil. tokenov / 178 mil. slov

áno

2018

podkorpus umeleckých textov

word, lemma, tag, prec, word_lc, lemma_lc

doc, s, p, g, hi

prim-8.0-public-sk

1 043 mil. tokenov / 822 mil. slov

áno

2018

podkorpus pôvodných slovenských textov

word, lemma, tag, prec, word_lc, lemma_lc

doc, s, p, g, hi

prim-8.0-public-img-sk

83 mil. tokenov / 66 mil. slov

áno

2018

podkorpus pôvodných slovenských umeleckých textov

word, lemma, tag, prec, word_lc, lemma_lc

doc, s, p, g, hi

r1955az1989-5.0

84 mil. tokenov / 67 mil. slov

áno

2018

osobitný korpus textov z rokov 1955 – 1989 (5,3 % publicistické, 75,3 % umelecké, 14,0 % odborné, 5,4 % iné texty)

word, lemma, tag, prec, word_lc, lemma_lc

doc, s, p, g, hi

prim-7.0-public-all

1 250 mil. tokenov / 972 mil. slov

áno

2015

všetky verejne prístupné texty SNK (65,1 % publicistické, 15,1 % umelecké, 9,5 % odborné, 10,3 % iné texty)

word, lemma, tag, prec

doc, s, p, g

prim-7.0-public-sane

1 089 mil. tokenov / 849 mil. slov

áno

2015

bez textov s nesprávnou diakritikou, spred roka 1955, z oblastí mimo Slovenska a z lingvistických časopisov

word, lemma, tag, prec

doc, s, p, g

prim-7.0-public-vyv

341 mil. tokenov / 267 mil. slov

áno

2015

vyvážený podkorpus (33,3 % publicistické, 33,3 % umelecké, 33,3 % odborné texty)

word, lemma, tag, prec

doc, s, p, g

prim-7.0-public-inf

771 mil. tokenov / 597 mil. slov

áno

2015

podkorpus publicistických (informatívnych) textov

word, lemma, tag, prec

doc, s, p, g

prim-7.0-public-prf

114 mil. tokenov / 89 mil. slov

áno

2015

podkorpus vedeckých, odborných a populárno-náučných textov

word, lemma, tag, prec

doc, s, p, g

prim-7.0-public-img

188 mil. tokenov / 149 mil. slov

áno

2015

podkorpus umeleckých textov

word, lemma, tag, prec

doc, s, p, g

prim-7.0-public-sk

807 mil. tokenov / 630 mil. slov

áno

2015

podkorpus pôvodných slovenských textov

word, lemma, tag, prec

doc, s, p, g

prim-7.0-public-img-sk

65 mil. tokenov / 52 mil. slov

áno

2015

podkorpus pôvodných slovenských umeleckých textov

word, lemma, tag, prec

doc, s, p, g

r1955az1989-4.0

67 mil. tokenov / 54 mil. slov

áno

2015

osobitný korpus textov z rokov 1955 – 1989 (7,4 % publicistické, 69,3 % umelecké, 16,6 % odborné, 6,7 % iné texty)

word, lemma, tag, prec

doc, s, p, g

prim-6.1-public-all

830 mil. tokenov / 656 mil. slov

áno

2013

všetky verejne prístupné texty SNK: 68,8 % publicistické, 13,9 % umelecké, 15,3 % odborné, 2 % iné texty

word, lemma, tag, prec

doc, s, p, g

prim-6.1-public-sane

773 mil. tokenov / 610 mil. slov

áno

2013

bez textov s nesprávnou diakritikou, spred roka 1955, z oblastí mimo Slovenska a z lingvistických časopisov

word, lemma, tag, prec

doc, s, p, g

prim-6.1-public-vyv

317 mil. tokenov / 252 mil. slov

áno

2013

vyvážený; podkorpus: 33,3 % publicistické, 33,3 % umelecké, 33,3 % odborné texty

word, lemma, tag, prec

doc, s, p, g

prim-6.1-public-inf

541 mil. tokenov / 425 mil. slov

áno

2013

podkorpus publicistických (informatívnych) textov

word, lemma, tag, prec

doc, s, p, g

prim-6.1-public-prf

106 mil. tokenov / 84 mil. slov

áno

2013

podkorpus vedeckých, odborných a populárno-náučných textov

word, lemma, tag, prec

doc, s, p, g

prim-6.1-public-img

114 mil. tokenov / 91 mil. slov

áno

2013

podkorpus umeleckých textov

word, lemma, tag, prec

doc, s, p, g

prim-6.1-public-sk

558 mil. tokenov / 441 mil. slov

áno

2013

podkorpus pôvodných slovenských textov

word, lemma, tag, prec

doc, s, p, g

prim-6.1-public-img-sk

35 mil. tokenov / 28 mil. slov

áno

2013

podkorpus pôvodných slovenských umeleckých textov

word, lemma, tag, prec

doc, s, p, g

r55az89-3.0

63 mil. tokenov / 51 mil. slov

áno

2013

osobitný korpus textov z rokov 1955 – 1989: 11,9 % publicistika, 55,5 % umelecké, 24,1 % odborné, 8,5 % iné texty

word, lemma, tag, prec

doc, s, p, g

prim-6.0-public-all

1 155 mil. tokenov / 939 mil. slov

áno

2013

všetky verejne prístupné texty SNK: 77,8 % publicistické, 9,8 % umelecké, 11 % odborné, 1,4 % iné texty

word, lemma, tag, prec

doc, s, p, g

prim-5.0-public-all

719 mil. tokenov / 599 mil. slov

áno

2011

všetky verejne prístupné texty SNK: 73 % publicistické, 14 % umelecké, 12 % odborné, 1 % iné texty

word, lemma, tag, prec

doc, s, p, br, noise, picture, head, hi, equation, table

prim-4.0-public-all

526 mil. tokenov / 429 mil. slov

áno

2009

všetky verejne prístupné texty SNK: 65 % publicistické, 17 % umelecké, 16 % odborné, 2 % iné texty

word, lemma, tag, prec

doc, s, p, br, noise, picture, head, hi, equation, table

prim-3.0-public-all

339 mil. tokenov / 276 mil. slov

áno

2007

všetky verejne prístupné texty SNK: 57 % publicistické, 21,5 % umelecké, 18,5 % odborné, 3 % iné texty

word, lemma, tag, hlemma, htag

doc, s, p, br, noise, picture, head, hi, equation, table

prim-2.1-public-all

294 mil. tokenov / 240 mil. slov

áno

2006

všetky verejne prístupné texty SNK: 63 % publicistické, 20 % umelecké, 12 % odborné, 5 % iné texty

word, lemma, tag, hlemma, htag

doc, s, p, br, noise, picture, head, hi, equation, table

web-4.0

2 963 mil. tokenov / 2 440 mil. slov

áno

2018

korpus slovenských textov dostupných na webe

word, lemma, tag, prec, word_lc, lemma_lc

doc, p, s, g, pgap, sgap

web-3.0

2 372 mil. tokenov / 1 993 mil. slov

áno

2015

korpus slovenských textov dostupných na webe

word, lemma, tag, prec

doc, p, s, g, gap

wiki-2018-03

47 mil. tokenov / 35 mil. slov

áno

2018

korpus slovenských textov z Wikipédie a Necyklopédie

word, lemma, tag, prec

doc, s, p

wiki-2017-02

45 mil. tokenov / 34 mil. slov

áno

2017

korpus slovenských textov z Wikipédie a Necyklopédie

word, lemma, tag, prec

doc, s, p

wiki-2016-02

43 mil. tokenov / 34 mil. slov

áno

2016

korpus slovenských textov z Wikipédie a Necyklopédie

word, lemma, tag, prec

doc, s, p

wiki-2015-02

40 mil. tokenov / 32 mil. slov

áno

2015

korpus slovenských textov z Wikipédie a Necyklopédie

word, lemma, tag, prec

doc, s, p

prim-7.0-frk

253 mil. tokenov / 203 mil. slov

áno

2018

Z referenčného korpusu prim-7.0-frk boli napočítané hodnoty pre Frekvenčný slovník slovenčiny na báze Slovenského národného korpusu a vybrané doklady uvedené v publikácii Skloňovanie podstatných mien v slovenčine s korpusovými príkladmi.

word, lemma, tag, prec

doc, s, p, g

r-mak-6.0

1,2 mil. tokenov / 978 000 slov

áno

2017

ručne morfologicky anotovaný korpus SNK: 30,6 % publicistické, 50,2 % umelecké, 19,2 % odborné texty

word, lemma, tag

doc, s, p, br, noise, picture, head, hi, equation, table

r-mak-5.0

1,2 mil. tokenov / 978 000 slov

áno

2016

ručne morfologicky anotovaný korpus SNK: 28,5 % publicistické, 44,5 % umelecké, 27 % odborné texty

word, lemma, tag

doc, s, p, br, noise, picture, head, hi, equation, table

r-mak-4.0

1,2 mil. tokenov / 977 000 slov

áno

2013

ručne morfologicky anotovaný korpus SNK: 36,2 % publicistické, 44,9 % umelecké, 18,9 % odborné texty

word, lemma, tag

doc, s, p, hi

2. Korpusy písaných textov − synchrónne, špecializované

korpus

rozsah − počet tokenov / počet slov

lematizácia, morfologická anotácia

rok zverejnenia

charakteristika korpusu

atribúty

štruktúry

blf-2.0

66 mil. tokenov / 54 mil. slov

áno

2014

korpus náboženských textov

word, lemma, tag, prec

doc, s, p, g

cw-2014-all

1,6 mil. tokenov / 1,2 mil. slov

áno

2014

korpus copywriterských textov

word, lemma, tag, prec

doc, s, p, g

ecn-2.0-public

165 mil. tokenov / 140 mil. slov

áno

2016

korpus ekonomických textov: 3,76 % odborných a 96,24 % publicistických textov z ekonómie, bankovníctva, obchodu, manažmentu a tovaroznalectva

word, lemma, tag, prec

doc, s, p, g

ecn-1.0-public

20 mil. tokenov / 17 mil. slov

áno

2014

korpus ekonomických textov: 81,4 % odborných a 18,6 % publicistických textov z ekonómie, bankovníctva, obchodu, manažmentu a tovaroznalectva

word, lemma, tag, prec

doc, s, p, g

hum-1.0-public

39 mil. tokenov / 30 mil. slov

áno

2016

korpus humanitných textov

word, lemma, tag, prec

doc, s, p, g

judikat-1.0

1,5 mil. tokenov / 1,3 mil. slov

áno

2015

korpus súdnych rozhodnutí

word, lemma, tag, prec

doc, s, p

legal-1.1

49 mil. tokenov / 40 mil. slov

áno

korpus právnych textov (deduplikovaný)

word, lemma, tag, ftag, rgtag

doc, p, s, s0, g

legal-1.0

147 mil. tokenov / 114 mil. slov

áno

2011

korpus právnych textov

3. Korpusy písaných textov − paralelné

korpus

rozsah − počet tokenov / počet slov

lematizácia, morfologická anotácia

rok zverejnenia
(zverejnenie prvej verzie)

charakteristika korpusu

atribúty

štruktúry

par-skbg-free-0.1

163 mil. tokenov / 108 mil. slov

áno,
obidva jazyky

2014
(2014)

slovensko-bulharský paralelný korpus: 78 mil. tokenov v slovenskej časti, 85 mil. tokenov v bulharskej časti

word, lemma, tag

doc, s

par-skcs-all-4.0

418 mil. tokenov / 306 mil. slov

áno,
obidva jazyky

2016
(2010)

slovensko-český paralelný korpus: 209 mil. tokenov v slovenskej časti, 209 mil. tokenov v českej časti

word, lemma, tag

doc, s

par-skcs-fic-5.0

31,5 mil. tokenov / 25,0 mil. slov

áno,
obidva jazyky

2018
(2010)

slovensko-český paralelný korpus, podkorpus beletrie: 15,7 mil. tokenov v slovenskej časti, 15,8 mil. tokenov v českej časti

word, lemma, tag

doc, s

par-skde-all-2.0

446 mil. tokenov / 300 mil. slov

áno,
obidva jazyky

2016
(2014)

slovensko-nemecký paralelný korpus: 220 mil. tokenov v slovenskej časti, 226 mil. tokenov v nemeckej časti

word, lemma, tag

doc, s

par-sken-4.0

556 mil. tokenov / 436 mil. slov

áno,
obidva jazyky

2015
(2010)

slovensko-anglický paralelný korpus: 261 mil. tokenov v slovenskej časti, 295 mil. tokenov v anglickej časti

word, lemma, tag

doc, s

par-skfr-all-3.0

449 mil. tokenov / 332 mil. slov

áno,
obidva jazyky

2016
(2006)

slovensko-francúzsky paralelný korpus: 217 mil. tokenov v slovenskej časti, 232 mil. tokenov vo francúzskej časti

word, lemma, tag

doc, s

par-skhu-1.0

99 mil. tokenov / 75 mil. slov

áno,
obidva jazyky

2015
(2014)

slovensko-maďarský paralelný korpus: 51 mil. tokenov v slovenskej časti, 48 mil. tokenov v maďarskej časti

word, lemma, tag

doc, s

par-skhu-0.2

3,9 mil. tokenov

áno,
obidva jazyky

2015
(2014)

slovensko-maďarský paralelný korpus: 2,0 mil. tokenov v slovenskej časti, 1,9 mil. tokenov v maďarskej časti

word, lemma, tag

doc, s

par-skla-3.0

5,0 mil. tokenov / 4,1 mil. slov

áno,
obidva jazyky

2018
(2012)

slovensko-latinský paralelný korpus: 2,7 mil. tokenov v slovenskej časti, 2,3 mil. tokenov v latinskej časti

word, lemma, tag

doc, s

par-skpl-1.0

8,2 mil. tokenov / 6,5 mil. slov

áno,
obidva jazyky

2018
(2018)

slovensko-poľský paralelný korpus: 4,1 mil. tokenov v slovenskej časti, 4,1 mil. tokenov v poľskej časti

word, lemma, tag

doc, s

par-skro-1.1

1,3 mil. tokenov / 1,0 mil. slov

áno,
obidva jazyky

2017
(2016)

slovensko-rumunský paralelný korpus: 603 000 tokenov v slovenskej časti, 689 000 tokenov v rumunskej časti

word, lemma, tag

doc, s

par-skru-2.0

8,5 mil. tokenov / 6,6 mil. slov

áno,
obidva jazyky

2014
(2012)

slovensko-ruský paralelný korpus: 4,2 mil. tokenov v slovenskej časti, 4,2 mil. tokenov v ruskej časti

word, lemma, tag

doc, s

4. Korpusy písaných textov spred roka 1954

korpus

rozsah − počet tokenov / počet slov

lematizácia, morfologická anotácia

rok zverejnenia

charakteristika korpusu

atribúty

štruktúry

r864az1843-1.0

2,1 mil. tokenov / 1,6 mil. slov

nie

2015

korpus textov z r. 864 − 1843

word

doc, s, p, g

r1843az1954-1.0

24 mil. tokenov / 19 mil. slov

nie

2015

korpus textov z r. 1843 − 1954

word

doc, s, p, g

5. Historický korpus

korpus

rozsah − počet tokenov / počet slov

lematizácia, morfologická anotácia

rok zverejnenia

charakteristika korpusu

atribúty

štruktúry

hist-4.0

918 000 tokenov / 668 000 slov

nie

2016

Historický korpus slovenčiny

word, lemma

doc, s, p, g

hist-3.0

836 000 tokenov / 600 000 slov

nie

2015

Historický korpus slovenčiny

word, lemma

doc, s, p, g

hist-2.0

552 000 tokenov / 422 000 slov

nie

2014

Historický korpus slovenčiny

word, lemma

doc, s, p, g

hist-1.0

371 000 tokenov

nie

2012

Historický korpus slovenčiny

word, nword

doc, s, p, g

6. Korpusy hovorených prejavov − synchrónne, štandardné

korpus

rozsah − počet tokenov / počet slov

lematizácia, morfologická anotácia

rok zverejnenia

charakteristika korpusu

atribúty

štruktúry

s-hovor-6.0

6,6 mil. tokenov / 5,5 mil. slov

áno

2017

Slovenský hovorený korpus

word, pron, lemma, tag, prec

štruktúry pre s-hovor-6.0

s-hovor-5.0

5,7 mil. tokenov / 4,7 mil. slov

áno

2015

Slovenský hovorený korpus

word, pron, lemma, tag, prec

doc, section, turn, event, sync, background, who, spk

s-hovor-4.0

2,6 mil. tokenov / 2,2 mil. slov

áno

2012

Slovenský hovorený korpus

word, pron, lemma, tag, prec

doc, section, turn, event, sync, background, who, spk

s-hovor-3.0

2,1 mil. tokenov / 1,4 mil. slov

áno

2011

Slovenský hovorený korpus

word, pron, lemma, tag, dcount

doc, section, turn, event, sync, background, who

s-hovor-2.0

679 000 tokenov / 561 000 slov

áno

2010

Slovenský hovorený korpus

word, pron, lemma, tag, dcount

doc, section, turn, event, sync, background, who

s-hovor-1.0

128 000 tokenov / 104 000 slov

áno

2008

Slovenský hovorený korpus

word, pron, lemma, tag, dcount

doc, section, turn, event, sync, background, who

7. Korpusy nárečí SNK

korpus

rozsah počet tokenov / počet slov

lematizácia, morfologická anotácia

rok zverejnenia

charakteristika korpusu

atribúty

štruktúry

dialekt-3.0

495 000 tokenov / 403 000 slov

nie

2016

Korpus nárečí Slovenského národného korpusu

word, lemma

doc, spk, s, p, rem

dialekt-2.0

329 000 tokenov / 252 000 slov

nie

2015

Korpus nárečí Slovenského národného korpusu

word, lemma

doc, spk, s, p, rem

dialekt-1.0

74 000 tokenov / 55 000 slov

nie

2014

Korpus nárečí Slovenského národného korpusu

word, lemma

doc, s, p