Korpus pomenovaných entít snec-1.0 obsahuje vo svojej prvej verzii 468 715 tokenov v 201 textoch zo slobodnej encyklopédie Wikipédia, čo predstavuje viac ako 27 000 viet, v ktorých sa nachádza viac ako 67 000 označkovaných entít. Ručne anotované texty prešli supervíznou poloautomatizovanou kontrolou.
Korpus tvoria dáta z projektu Koncepcia a realizácia sémantickej anotácie korpusu (identifikácia viacslovných pomenovaní, ručná anotácia pomenovaných jednotiek, budovanie ontológií).
Viac informácií o korpuse nájdete tu.