Korpus právnych textov

Korpus textov právnych predpisov SR legal-1.0 bol pripravený v spolupráci s Ministerstvom spravodlivosti SR a sprístupnený v r. 2011 v rozsahu 146 899 704 tokenov.

Deduplikovaný korpus legal-1.1 – odstránené duplicitné texty – obsahuje 48 977 876 tokenov.

Korpus je lematizovaný a morfologicky anotovaný, pri textoch je uvedená informácia o ich zdroji.