Slovensko-španielsky paralelný korpus

Prvá verzia par-skes-1.0 bola sprístupnená 17. júla 2019 v rozsahu takmer 11,5 mil. tokenov (5 455 067 tokenov v slovenskej časti, 6 044 520 tokenov v španielskej časti).

V korpuse sa dá vyhľadávať po registrácii v nástroji NoSketch Engine v španielskej časti, v slovenskej časti. Potrebné sú znalosti práce s NoSketch Engine a CQL.

Slovensko-španielsky paralelný korpus obsahuje preklady 77 textov: zo španielčiny do slovenčiny (59), zo slovenčiny do španielčiny (1), z iných jazykov do slovenčiny aj španielčiny (17). Texty sú automaticky zarovnané po vetách. Slovenské texty sú automaticky morfologicky anotované tagerom MorphoDiTa natrénovaným v SNK na báze tagsetu vypracovaného v Slovenskom národnom korpuse, španielske texty sú anotované TreeTaggerom.