Slovensko-maďarský paralelný korpus

→magyar

→in English

Najnovšia verzia paralelného slovensko-maďarského korpusu par-skhu-1.1 bola vytvorená 20. januára 2023 a sprístupnená 26. januára 2023.

Veľkosť korpusu sa v porovnaní s predchádzajúcou verziou síce nezmenila, k textom však bola pridaná štýlovo-žánrová anotácia, ktorá umožňuje vyhľadávanie v paralelnom korpuse aj pomocou kľúčov štýlovej a žánrovej anotácie, ako aj pomocou viacerých kľúčov bibliografickej anotácie.

Korpus sa skladá z dvoch častí: podkorpusu beletrie (4 mil. tokenov – 2 mil. tokenov v slovenskej časti, 2 mil. tokenov v maďarskej časti) a podkorpusu voľne dostupných textov. V osobitnom podkorpuse beletrie sa dá vyhľadávať v NoSketch Engine v maďarskej časti, v slovenskej časti.

V celom korpuse sa dá vyhľadávať po registrácii v nástroji NoSketch Engine v maďarskej časti, v slovenskej časti; vyžadujú sa znalosti práce s NoSketch Engine a CQL.

Slovensko-maďarský paralelný korpus obsahuje vzájomné preklady prevažne beletristických textov z oboch jazykov, t. j. texty v slovenskom jazyku preložené do maďarského jazyka a opačne, ako aj preklady z iných jazykov do slovenčiny a maďarčiny vrátane voľne dostupných textov. Texty sú automaticky zarovnané po vetách. Slovenské texty sú automaticky morfologicky anotované tagerom Morče natrénovaným v SNK na báze tagsetu vypracovaného v Slovenskom národnom korpuse, maďarské texty sú anotované tagerom HUNPOS.

Predchádzajúce verzie korpusu

Verzia par-skhu-1.0 bola sprístupnená 7. 12. 2015 v rozsahu 99 mil. tokenov (51 mil. tokenov v slovenskej časti, 48 mil. tokenov v maďarskej časti).

Verzia par-skhu-0.2 bola sprístupnená v máji 2015 v rozsahu takmer 4 mil. tokenov (približne 2 mil. tokenov v každom jazyku).

Testovacia verzia par-skhu-0.1 bola sprístupnená v januári 2014 v rozsahu 3 mil. tokenov (približne 1,5 mil. tokenov v každom jazyku).