→English

Slovensko-český paralelný korpus

Aktuálna verzia par-skcs-all-4.0 bola sprístupnená 25. 5. 2016 v rozsahu 418,5 mil. tokenov (209,2 mil. tokenov v slovenskej časti, 209,3 mil. tokenov v českej časti).

Korpus sa skladá z dvoch častí: podkorpusu beletrie a podkorpusu voľne dostupných textov. V podkorpuse beletrie (19 mil. tokenov), v ktorom sa nachádza aj populárno-vedecká literatúra, literatúra faktu a pod., sa dá vyhľadávať v NoSketch Engine alebo v jednoduchom WWW rozhraní. Podkorpus par-skcs-fic-4.0 obsahuje rovnaké texty ako vo verzii 3.0.

Podkorpus voľne dostupných textov obsahuje prevažne preklady právnych textov a správ Európskej únie, počítačových a iných manuálov z tretieho jazyka (angličtiny). Texty sa dajú stiahnuť tu.

Slovensko-český paralelný korpus obsahuje vzájomné preklady z oboch jazykov, t. j. texty v slovenskom jazyku preložené do českého jazyka a opačne, ako aj preklady z iných jazykov do slovenčiny a češtiny. Texty sú automaticky zarovnané po vetách. Slovenské texty sú automaticky morfologicky anotované tagermi Morče a MorphoDiTa natrénovanými v SNK na báze tagsetu vypracovaného v Slovenskom národnom korpuse, české texty sú anotované tagerom Morče na báze tagsetu použitého v Českom národnom korpuse.

Vyhľadávanie v korpuse je možné viacerými spôsobmi:

Verzia 3.0

Korpus par-skcs-all-3.0 bol sprístupnený v januári 2014 v celkovom rozsahu 240 mil. tokenov (119,4 mil. tokenov v slovenskej časti, 119,53 mil. tokenov v českej časti).

Podkorpus beletrie par-skcs-fic-3.0 obsahoval cca 19 mil. tokenov (9,54 mil. tokenov v slovenskej časti, 9,56 mil. tokenov v českej časti).

Verzia 2.0

Celý par-skcs-2.0 z r. 2011 obsahoval 6 433 tisíc párov viet (približne 120 miliónov tokenov v každom jazyku).

Podkorpus beletrie v par-skcs-2.0 obsahoval 740 tisíc párov viet (približne 10 miliónov tokenov v každom jazyku).

Verzia 1.0

Korpus par-skcs-1.0 z r. 2010 obsahoval približne 735 000 párov viet (10 mil. tokenov v každom jazyku).


Podkorpus voľne dostupných textov bol vytvorený s podporou grantu FP7-ICT-2009-5 Bringing Machine Translation for European Languages to the User – Enlarged European Union (EuroMatrixPlus-X).

Vytvorené v spolupráci: Slovenský národný korpus, Jazykovedný ústav Ľ. Štúra SAV, Ústav Českého národného korpusu, Filozofická fakulta, Univerzita Karlova v Prahe a Ústav formálnej a aplikovanej lingvistiky, Matematicko-fyzikálna fakulta, Univerzita Karlova v Prahe.