Súbor korpusov Omnia

Spojené korpusy prim-6.0-public-all, s-hovor-4.0, legal-1.1, web-1.1, web-1.2 po odstránení duplicitných textov alebo častí textov (deduplikácia) a s malými úpravami v tokenizácii (slová so spojovníkom sú ako jeden token) a v lematizácii (negované tvary sú v rámci afirmatívnej lemy) pripravil zo zdrojov SNK V. Benko primárne pre potreby pracovníkov oddelenia súčasnej lexikológie a lexikografie JÚĽŠ SAV.

Aktuálna verzia korpusu omnia-2.0-public bola sprístupnená verejnosti v júli 2013 v rozsahu 2 239 413 083 tokenov. Predchádzajúce verzie boli dostupné iba interne v JÚĽŠ SAV.