Slovensko-český paralelný korpus

Aktuálne dáta slovensko-českého paralelného korpusu sú sprístupnené takto:

Korpus par-skcs-all-4.0 sa skladá z dvoch častí: podkorpusu beletrie a podkorpusu voľne dostupných textov.

Podkorpus par-skcs-fic-5.0 bol oproti predchádzajúcim verziám rozšírený o vyše 12 mil. tokenov a obsahuje 217 kníh, z toho 116 preložených zo slovenčiny do češtiny, 56 preložených z češtiny do slovenčiny, 3 napísané jedným autorom v slovenčine aj češtine (V. Zamarovský), 28 textov preložených do slovenčiny aj do češtiny z angličtiny, 14 textov preložených do slovenčiny aj do češtiny z iných jazykov.

Všetky texty sú automatizovane zarovnané po vetách. Slovenské texty sú morfologicky anotované tagermi Morče a MorphoDiTa natrénovanými v SNK na báze tagsetu vypracovaného v Slovenskom národnom korpuse, české texty sú anotované tagerom Morče a MorphoDiTa na báze tagsetu použitého v Českom národnom korpuse.

Vyhľadávanie v korpuse je možné viacerými spôsobmi:

Verzia 4.0

Podkorpus par-skcs-fic-4.0 obsahoval rovnaké texty ako vo verzii 3.0.

Verzia 3.0

Korpus par-skcs-all-3.0 bol sprístupnený v januári 2014 v celkovom rozsahu 240 mil. tokenov (119,4 mil. tokenov v slovenskej časti, 119,53 mil. tokenov v českej časti).

Podkorpus beletrie par-skcs-fic-3.0 obsahoval cca 19 mil. tokenov (9,54 mil. tokenov v slovenskej časti, 9,56 mil. tokenov v českej časti).

Verzia 2.0

Celý par-skcs-2.0 z r. 2011 obsahoval 6 433 tisíc párov viet (približne 120 miliónov tokenov v každom jazyku).

Podkorpus beletrie v par-skcs-2.0 obsahoval 740 tisíc párov viet (približne 10 miliónov tokenov v každom jazyku).

Verzia 1.0

Korpus par-skcs-1.0 z r. 2010 obsahoval približne 735 000 párov viet (10 mil. tokenov v každom jazyku).


Podkorpus voľne dostupných textov bol vytvorený s podporou grantu FP7-ICT-2009-5 Bringing Machine Translation for European Languages to the User – Enlarged European Union (EuroMatrixPlus-X).

Vytvorené v spolupráci: Slovenský národný korpus, Jazykovedný ústav Ľ. Štúra SAV, Ústav Českého národného korpusu, Filozofická fakulta, Univerzita Karlova v Prahe a Ústav formálnej a aplikovanej lingvistiky, Matematicko-fyzikálna fakulta, Univerzita Karlova v Prahe.