→English

Slovensko-nemecký paralelný korpus

Aktuálna verzia par-skde-all-2.0 bola sprístupnená 25. 5. 2016 v rozsahu takmer 446,2 mil. tokenov (219,8 mil. tokenov v slovenskej časti, 226,4 mil. tokenov v nemeckej časti).

Korpus sa skladá z dvoch častí: podkorpusu beletrie (7,5 mil. tokenov) a podkorpusu voľne dostupných textov (prevažne dokumenty Európskej únie).

V osobitnom podkorpuse beletrie sa dá vyhľadávať v NoSketch Engine v nemeckej časti, v slovenskej časti.

V celom slovensko-nemeckom paralelnom korpuse sa dá vyhľadávať v NoSketchEngine v nemeckej časti, v slovenskej časti.

Vyžadujú sa znalosti práce s NoSketch Engine a CQL.

Slovensko-nemecký paralelný korpus obsahuje vzájomné preklady z oboch jazykov, t. j. texty v slovenskom jazyku preložené do nemeckého jazyka a opačne, ako aj preklady z iných jazykov do slovenčiny a nemčiny. Texty sú v korpuse v takej podobe, ako boli napísané, resp. vydané, v starších beletristických dielach je zachovaný dobový pravopis.

Texty sú automaticky zarovnané po vetách. Slovenské texty sú automaticky morfologicky anotované tagermi Morče a MorphoDiTa natrénovanými v SNK na báze tagsetu vypracovaného v Slovenskom národnom korpuse, nemecké texty sú anotované tagerom TreeTagger.

Verzia 1.0

Korpus par-skde-1.0 bol sprístupnený 15. 12. 2014 v rozsahu takmer 263 mil. tokenov (129,5 mil. tokenov v slovenskej časti, 133 mil. tokenov v nemeckej časti).

Podkorpus beletrie obsahoval 7,5 mil. tokenov.