Slovensko-anglický paralelný korpus

Aktuálna verzia par-sken-4.0 bola sprístupnená 7. 12. 2015 v rozsahu 556 mil. tokenov (261 mil. tokenov v slovenskej časti, 295 mil. tokenov v anglickej časti).

Korpus sa skladá z dvoch častí: podkorpusu beletrie (200 mil. tokenov – 92 mil. tokenov v slovenskej časti, 108 mil. tokenov v anglickej časti) a podkorpusu voľne dostupných textov. V osobitnom podkorpuse beletrie sa dá vyhľadávať po registrácii v nástroji NoSketch Engine v anglickej časti, v slovenskej časti.

V celom korpuse sa dá vyhľadávať po registrácii v nástroji NoSketchEngine v anglickej časti alebo v slovenskej časti; vyžadujú sa znalosti práce s NoSketch Engine a CQL.

Slovensko-anglický paralelný korpus obsahuje vzájomné preklady z oboch jazykov, t. j. texty v slovenskom jazyku preložené do anglického jazyka a opačne. Texty sú automaticky zarovnané po vetách. Slovenské texty sú automaticky morfologicky anotované tagerom Morče natrénovaným v SNK na báze tagsetu vypracovaného v Slovenskom národnom korpuse, anglické texty sú anotované na báze tagsetu z The Penn Treebank Project s využitím TreeTaggera.

Verzia 3.0

Korpus par-sken-3.0 z januára 2014 obsahoval 392 mil. tokenov (184 mil. tokenov v slovenskej časti, 208 mil. tokenov v anglickej časti), z toho 140 mil. tokenov tvorili beletristické texty.

Vyhľadávanie v korpuse je možné viacerými spôsobmi:

  • v jednoduchom webovom rozhraní sa dá vyhľadávať zapísaním hľadaného výrazu (slovenské alebo anglické slovo, lema alebo regulárny výraz) do políčka Hľadať; výber jazyka textov umožňuje nastavenie korpusu: par-sken-3.0-sk pre slovenské texty, par-sken-3.0-en pre anglické texty; v tabuľke s výpismi kontextov hľadaných výrazov sa po kliknutí na číslo alebo reťazec znakov v ľavom stĺpci zobrazia stručné bibliografické údaje o zdroji textu
  • v slovníkovom rozhraní, ktoré neobsahuje celý korpus, iba príslušné prekladové ekvivalenty automaticky vybrané z textov v korpuse.

Verzia 2.0

Celý par-sken-2.0 obsahoval 10 miliónov párov viet (196 miliónov tokenov v anglickej časti a 173 miliónov tokenov v slovenskej časti).

Podkorpus beletrie obsahoval cca 4 milióny párov viet (63 miliónov tokenov v anglickej časti a 54 miliónov tokenov v slovenskej časti).

Verzia 1.0

Korpus par-sken-1.0 obsahoval 1,6 miliónov párov viet (24 miliónov tokenov v anglickej časti, 20 miliónov tokenov v slovenskej časti).

 

Slovensko-anglický paralelný korpus vo verzii 1.0 vznikol na základe projektu 7. rámcového programu FP7-ICT-2009-5 Bringing Machine Translation for European Languages to the User – Enlarged European Union (EuroMatrixPlus-X). V rámci tohto projektu bola vytvorená aj rozšírená verzia par-sken-2.0.

Vytvorené v spolupráci: Slovenský národný korpus, Jazykovedný ústav Ľ. Štúra SAV a Ústav formálnej a aplikovanej lingvistiky, Matematicko-fyzikálna fakulta, Univerzita Karlova v Prahe.