Korpus pomenovaných entít

Aktuálna verzia snec-1.0 bola sprístupnená 28. 2. 2024 v rozsahu 468 715 tokenov.

Korpus obsahuje 201 textov zo slobodnej encyklopédie Wikipédia, čo predstavuje viac ako 27 000 viet, v ktorých sa nachádza viac ako 67 000 označkovaných entít. Všetky dosiaľ ručne opravené texty boli ďalej podrobené supervíznej poloautomatizovanej kontrole vo všetkých textoch, ktoré sú súčasťou prvej verzie ručne značkovaného korpusu pomenovaných entít.

Korpus je založený na dátach z projektu Koncepcia a realizácia sémantickej anotácie korpusu (identifikácia viacslovných pomenovaní, ručná anotácia pomenovaných jednotiek, budovanie ontológií). Texty v tomto korpuse majú sémantickú anotáciu textu. Korpus obsahuje značky z tagsetu používaného pri anotovaní pomenovaných entít, ktorý je založený na využití kolekcie lexikónov pomenovaných entít pre identifikované kategórie, ktoré boli ručne vyčistené a dezambiguované podľa relevantných častí morfologických značiek z tagsetu SNK.