Prvá verzia korpusu pomenovaných entít sprístupnená

Korpus pomenovaných entít snec-1.0 obsahuje vo svojej prvej verzii 468 715 tokenov v 201 textoch zo slobodnej encyklopédie Wikipédia, čo predstavuje viac ako 27 000 viet, v ktorých sa nachádza viac ako 67 000 označkovaných entít. Ručne anotované texty prešli supervíznou poloautomatizovanou kontrolou.

Korpus tvoria dáta z projektu Koncepcia a realizácia sémantickej anotácie korpusu (identifikácia viacslovných pomenovaní, ručná anotácia pomenovaných jednotiek, budovanie ontológií).

Viac informácií o korpuse nájdete tu.