Slovensko-francúzsky paralelný korpus

Aktuálna verzia par-skfr-all-4.0 bola sprístupnená 1. 3. 2023 v rozsahu takmer 452 mil. tokenov (217,8 mil. tokenov v slovenskej časti a 233,9 mil. tokenov vo francúzskej časti).

Korpus sa skladá z dvoch častí: podkorpusu beletrie a podkorpusu voľne dostupných textov. V podkorpuse beletrie (takmer 12,5 mil. tokenov) sa dá vyhľadávať po registrácii v nástroji NoSketch Engine. Oproti predchádzajúcej verzii sa zmenil rozsah podkorpusu beletrie par-skfr-fic-4.0. V porovnaní s doteraz používanou externou anotáciou bola pre túto verziu realizovaná radikálna kvalitatívna zmena v slovenskej a aj v francúzskej časti na úrovni štýlovo-žánrovej anotácie. Aktualizovaná anotácia je obohatená o množstvo kľúčov, ktoré boli doteraz používané len v hlavnom korpuse písaných textov. Okrem podrobných kľúčov o pôvode textov (rozšírené bibliografické údaje, jazyk diela, roky aktuálneho a aj pôvodného vydania a iné) pribudli aj kľúče na označenie štruktúry textu a jeho štýlovo-žánrovej charakteristiky s príslušnými podskupinami a fixnými množinami hodnôt. Nová anotácia tak umožňuje vyhľadávanie aj špecifických jazykových dát v konkrétnych druhoch textov v oboch jazykoch.

Slovensko-francúzsky paralelný korpus obsahuje vzájomné preklady z oboch jazykov, t. j. texty v slovenskom jazyku preložené do francúzskeho jazyka a opačne, ako aj preklady z iných jazykov do slovenčiny a francúzštiny. Texty sú automaticky zarovnané po vetách. Slovenské texty sú automaticky morfologicky anotované tagerom MorphoDiTa natrénovaným v SNK na báze tagsetu vypracovaného v Slovenskom národnom korpuse, francúzske texty sú anotované TreeTaggerom.

Vyhľadávanie v korpuse je možné v NoSketchEngine vo francúzskej časti alebo v slovenskej časti; vyžadujú sa znalosti práce s NoSketch Engine a CQL.

Verzia 3.0

Korpus par-skfr-all-3.0 bol sprístupnený 28. novembra 2016 v rozsahu takmer 450 mil. tokenov (216,6 mil. tokenov v slovenskej časti a 232,5 mil. tokenov vo francúzskej časti). Oproti predchádzajúcej verzii sa zmenil iba rozsah podkorpusu beletrie par-skfr-fic-3.0, do ktorého pribudli najmä texty od J. Verna (aktuálne tvoria 57 % podkorpusu beletrie).

Verzia 2.0

Korpus par-skfr-2.0 bol sprístupnený 25. mája 2016 v rozsahu takmer 441,5 mil. tokenov (213,3 mil. tokenov v slovenskej časti a 228,2 mil. tokenov vo francúzskej časti). Rozsah podkorpusu beletrie par-skfr-fic-2.0 sa oproti predchádzajúcej verzii nezmenil.

Verzia 1.0

Korpus par-skfr-1.0 bol sprístupnený 26. októbra 2015 v rozsahu takmer 350 mil. tokenov (167,4 mil. tokenov v slovenskej časti a 181,28 mil. tokenov vo francúzskej časti). Podkorpus beletrie obsahoval 2,3 mil. tokenov.

Verzia 0.1

Prvá, testovacia verzia slovensko-francúzskeho paralelného korpusu bola sprístupnená v roku 2006 ako v poradí druhý paralelný korpus SNK v rozsahu približne 125 mil. tokenov (vyše 59 mil. tokenov v slovenskej časti a 66 mil. tokenov vo francúzskej časti). Okrem niekoľkých beletristických textov obsahoval aj voľne dostupné preklady textov Európskej únie, ktoré doň boli začlenené ako do prvého z paralelných korpusov vytvorených v SNK.