Szlovák-magyar párhuzamos korpusz

A 2015 decemberében megjelent, jelenlegi par-skhu-1.0 verziója a korpusznak 99 millió tokent tartalmaz (51 millió a szlovák rész és 48 millió token a magyar része).

A korpusz két részből áll: a szépirodalmi alkorpuszból (4 millió token, 2-2 millió nyelvenként) és a szabadon elérhető szövegek.

Az egész korpuszhoz hozzáférni a NoSketch Engine lekérdező felületén lehet a magyar szövegekhez ezen a linken, a szlovák szövegekhez pedig ezen a linken keresztül; háttértudás a NoSketch Engine-ről, továbbá CQL ajánlott.

A szépirodalmi alkorpuszhoz hozzáférni a NoSketch Engine lekérdező felüléten lehet, a magyar szövegekhez ezen a linken, a szlovák szövegekhez pedig ezen a linken keresztül.

A Szlovák-magyar párhuzamos korpusz egy olyan adatbázis, amely szlovák és magyar nyelvű szövegeket tartalmaz . A szlovák szövegek magyarra vagy a magyar szövegek szlovákra, a szabadon hozzáférhető szövegek pedig egy harmadik nyelvről lettek lefordítva. A szövegek mondatszinten lettek illesztve automatikus eljárás segítségével. A szlovák szövegek az SNK által fejlesztett és a Slovak tagseten tanított morfológiai taggerrel, Morčeval lettek automatikusan annotálva. A magyar szövegek annotációja a HUNPOS taggerrel készült.

A előző verzió par-skhu-0.2 2015 májusában jelent meg, és 4 millió tokent tartalmazott (körülbelül 2 millió token nyelvenként).

A pilot verzió par-skhu-0.1 2014 januárjában jelent meg, és 3 millió tokent tartalmazott (körülbelül 1,5 millió token nyelvenként).

A fejlesztésben közreműködött a Slovenský národný korpus, Jazykovedný ústav Ľ. Štúra SAV és a Magyar Tudományos Akadémia, Nyelvtudományi Intézet.

Szlovák-magyar párhuzamos korpusz

Adresa

Telefón

Mobil

E-mail