Slovensko-ruský paralelný korpus

Slovensko-ruský paralelný korpus obsahuje vzájomné preklady z oboch jazykov, t. j. texty v slovenskom jazyku preložené do ruského jazyka a opačne, ako aj preklady z iných jazykov do slovenčiny a ruštiny. Texty sú automaticky zarovnané po vetách. Slovenské texty sú automaticky morfologicky anotované tagerom Morče natrénovaným v SNK na báze tagsetu vypracovaného v Slovenskom národnom korpuse, ruské texty sú anotované TreeTaggerom.

Aktuálna verzia par-skru-2.0 bola sprístupnená v januári 2014 v rozsahu 8,45 mil. tokenov (4,2 mil. tokenov v slovenskej časti, 4,25 mil. tokenov v ruskej časti).

V slovensko-ruskom paralelnom korpuse sa dá vyhľadávať po registrácii v nástroji NoSketch Engine v ruskej časti, v slovenskej časti alebo tu.

Do okienka hľadať napíšte slovenské alebo ruské hľadané slovo alebo regulárny výraz a vyberte si zdroj, v ktorom sa má dané slovo primárne vyhľadať: po zvolení par-skru-*-sk budete vyhľadávať východiskovo v slovenských textoch, po zvolení par-skru-*-en v ruských textoch. Po kliknutí na číslo alebo reťazec znakov v ľavom stĺpci sa zobrazia stručné bibliografické údaje o zdroji textu.

Verzia 1.0

Prvá verzia obsahovala 101 tisíc viet v slovenskej časti a 128 tisíc viet v ruskej časti (takmer 2 milióny tokenov na každý jazyk).
Vytvorené v spolupráci: Slovenský národný korpus, Jazykovedný ústav Ľ. Štúra SAV a Кафедра математической лингвистики, Филологический факультет СПбГУ.