Slovensko-ukrajinský paralelný korpus

Prvá verzia par-skuk-1.0 slovensko-ukrajinského paralelného korpusu bola sprístupnená 22. marca 2023 v rozsahu 4,3 milióna tokenov (2,1 milióna tokenov v slovenskej časti a 2,2 milióna tokenov v ukrajinskej časti).

Korpus obsahuje prevažne beletriu; 64 % textov je pôvodom z ukrajinčiny, 7 % zo slovenčiny a 29 % tvoria preklady z ruštiny a poľštiny. V korpuse sa dá vyhľadávať po registrácii prostredníctvom nástroja NoSketch Engine v ukrajinskej časti, v slovenskej časti.

Texty sú automaticky zarovnané po vetách. Slovenské texty sú automaticky morfologicky anotované tagerom MorphoDiTa natrénovaným v SNK na báze tagsetu vypracovaného v Slovenskom národnom korpuse, ukrajinské texty sú anotované tagerom UDPipe na báze tagsetu MULTEXT-East.