Aktuálna verzia špecializovaného korpusu textov štátnej správy

Aktuálna verzia špecializovaného korpusu textov štátnej správy gov-web-2.0 bola vytvorená 7. 4. 2020 a zverejnená 22. 7. 2020 v rozsahu 12 363 067 tokenov. Korpus bol vytvorený z textov štátnych inštitúcií dostupných na webových doménach gov do r. 2019.

Korpus bol vytvorený v SNK pre potreby tvorby termínov z oblasti štátnej správy v rámci projektu Slovenská terminologická databáza.

Korpus je lematizovaný a morfologicky anotovaný, pri textoch sú uvedené základné informácie o ich url a čase získania. Východiskové texty boli deduplikované na úrovni odsekov.

Verzia 1.0

Prvá verzia špecializovaného korpusu textov štátnej správy gov-web-1.0 bola zverejnená 1. 2. 2019 v rozsahu 11 677 058 tokenov. Obsahovala texty štátnych inštitúcií dostupných na webových doménach gov a egov do polovice roka 2017.