Slovensko-nemecký paralelný korpus

Aktuálna verzia par-skde-3.0 bola sprístupnená 24. 2. 2022 v rozsahu takmer 468 mil. tokenov (229,9 mil. tokenov v slovenskej časti a 238,1 mil. tokenov v nemeckej časti).

Korpus sa skladá z dvoch častí: podkorpusu beletrie  a podkorpusu voľne dostupných textov (prevažne dokumenty Európskej únie).

V osobitnom podkorpuse beletrie sa dá vyhľadávať v NoSketch Engine v nemeckej časti, v slovenskej časti.

V celom slovensko-nemeckom paralelnom korpuse sa dá vyhľadávať po registrácii v nástroji NoSketchEngine v nemeckej časti, v slovenskej časti. Vyžadujú sa znalosti práce s NoSketch Engine a CQL.

Slovensko-nemecký paralelný korpus obsahuje vzájomné preklady z oboch jazykov, t. j. texty v slovenskom jazyku preložené do nemeckého jazyka a opačne, ako aj preklady z iných jazykov do slovenčiny a nemčiny. Texty sú v korpuse v takej podobe, ako boli napísané, resp. vydané, v starších beletristických dielach je zachovaný dobový pravopis.

Texty sú automaticky zarovnané po vetách. Slovenské texty sú automaticky morfologicky anotované tagermi Morče a MorphoDiTa natrénovanými v SNK na báze tagsetu vypracovaného v Slovenskom národnom korpuse, nemecké texty sú anotované tagerom TreeTagger.

Verzia 2.0

Korpus par-skde-2.0 bol sprístupnený 25. 5. 2016 v rozsahu takmer 446 mil. tokenov (219,8 mil. tokenov v slovenskej časti, 226,4 mil. tokenov v nemeckej časti).

Verzia 1.0

Korpus par-skde-1.0 bol sprístupnený 15. 12. 2014 v rozsahu takmer 263 mil. tokenov (129,5 mil. tokenov v slovenskej časti, 133 mil. tokenov v nemeckej časti).

Podkorpus beletrie obsahoval 7,5 mil. tokenov.