Slovensko-rumunský paralelný korpus

→română

Prvá verzia par-skro-fic-1.1 bola sprístupnená 24. augusta 2017 ako malý experimentálny korpus v rozsahu takmer 1,3 mil. tokenov (603 111 tokenov v slovenskej časti, 688 867 tokenov v rumunskej časti).

V korpuse sa dá vyhľadávať po registrácii v nástroji NoSketch Engine v rumunskej časti, v slovenskej časti.

Slovensko-rumunský paralelný korpus obsahuje preklady troch literárnych textov z rumunčiny do slovenčiny a jedného dokumentu o vzájomnej spolupráci. Texty sú automaticky zarovnané po vetách. Slovenské texty sú automaticky morfologicky anotované tagerom MorphoDiTa natrénovaným v SNK na báze tagsetu vypracovaného v Slovenskom národnom korpuse, rumunské texty sú anotované TreeTaggerom.