Slovensko-český paralelný korpus

Aktuálne dáta slovensko-českého paralelného korpusu sú sprístupnené takto:

nová verzia podkorpusu beletrie par-skcs-fic-5.0 bola sprístupnená 13. 12. 2018 v rozsahu takmer 31,5 mil. tokenov (15,72 mil. tokenov v slovenskej časti, 15,77 mil. tokenov v českej časti),
celý korpus par-skcs-all-4.0, sprístupnený 25. 5. 2016 v rozsahu 418,5 mil. tokenov (209,2 mil. tokenov v slovenskej časti, 209,3 mil. tokenov v českej časti), ostáva k dispozícii v pôvodnej podobe.

Korpus par-skcs-all-4.0 sa skladá z dvoch častí: podkorpusu beletrie a podkorpusu voľne dostupných textov.

podkorpus beletrie par-skcs-fic-4.0 (19 mil. tokenov), v ktorom sa nachádza aj populárno-vedecká literatúra, literatúra faktu a pod., obsahuje rovnaké texty ako vo verzii 3.0,
podkorpus voľne dostupných textov z par-skcs-all-4.0 obsahuje prevažne preklady právnych textov a správ Európskej únie, počítačových a iných manuálov z tretieho jazyka (angličtiny). Texty sa dajú stiahnuť tu.

Podkorpus par-skcs-fic-5.0 bol oproti predchádzajúcim verziám rozšírený o vyše 12 mil. tokenov a obsahuje 217 kníh, z toho 116 preložených zo slovenčiny do češtiny, 56 preložených z češtiny do slovenčiny, 3 napísané jedným autorom v slovenčine aj češtine (V. Zamarovský), 28 textov preložených do slovenčiny aj do češtiny z angličtiny, 14 textov preložených do slovenčiny aj do češtiny z iných jazykov.

Všetky texty sú automatizovane zarovnané po vetách. Slovenské texty sú morfologicky anotované tagermi Morče a MorphoDiTa natrénovanými v SNK na báze tagsetu vypracovaného v Slovenskom národnom korpuse, české texty sú anotované tagerom Morče a MorphoDiTa na báze tagsetu použitého v Českom národnom korpuse.

Vyhľadávanie v korpuse je možné viacerými spôsobmi:

po zaregistrovaní sa v NoSketch Engine sa dá vyhľadávať v českej časti celej verzie 4.0, v slovenskej časti celej verzie 4.0, resp. v českej časti beletristických textov verzie 5.0, v slovenskej časti beletristických textov verzie 5.0; potrebné sú znalosti práce s NoSketch Engine a CQL,
v slovníkovom rozhraní, v ktorom sú dostupné príslušné prekladové ekvivalenty automaticky vybrané z textov v korpuse,
v predchádzajúcich verziách je ešte možné vyhľadávať v jednoduchom webovom rozhraní.

Verzia 4.0

Podkorpus par-skcs-fic-4.0 obsahoval rovnaké texty ako vo verzii 3.0.

Verzia 3.0

Korpus par-skcs-all-3.0 bol sprístupnený v januári 2014 v celkovom rozsahu 240 mil. tokenov (119,4 mil. tokenov v slovenskej časti, 119,53 mil. tokenov v českej časti).

Podkorpus beletrie par-skcs-fic-3.0 obsahoval cca 19 mil. tokenov (9,54 mil. tokenov v slovenskej časti, 9,56 mil. tokenov v českej časti).

Verzia 2.0

Celý par-skcs-2.0 z r. 2011 obsahoval 6 433 tisíc párov viet (približne 120 miliónov tokenov v každom jazyku).

Podkorpus beletrie v par-skcs-2.0 obsahoval 740 tisíc párov viet (približne 10 miliónov tokenov v každom jazyku).

Verzia 1.0

Korpus par-skcs-1.0 z r. 2010 obsahoval približne 735 000 párov viet (10 mil. tokenov v každom jazyku).

Podkorpus voľne dostupných textov bol vytvorený s podporou grantu FP7-ICT-2009-5 Bringing Machine Translation for European Languages to the User – Enlarged European Union (EuroMatrixPlus-X).

Vytvorené v spolupráci: Slovenský národný korpus, Jazykovedný ústav Ľ. Štúra SAV, Ústav Českého národného korpusu, Filozofická fakulta, Univerzita Karlova v Prahe a Ústav formálnej a aplikovanej lingvistiky, Matematicko-fyzikálna fakulta, Univerzita Karlova v Prahe.

Slovensko-český paralelný korpus

Verzia 4.0

Verzia 3.0

Verzia 2.0

Verzia 1.0

Adresa

Telefón

Mobil

E-mail