Korpus pomenovaných entít

Aktuálna verzia snec-1.0 bola sprístupnená 28. 2. 2024 v rozsahu 468 715 tokenov.

Korpus obsahuje 201 textov zo slobodnej encyklopédie Wikipédia, čo predstavuje viac ako 27 000 viet, v ktorých sa nachádza viac ako 67 000 označkovaných entít. Ručne anotované texty prešli aj supervíznou poloautomatizovanou kontrolou.

Korpus tvoria dáta z projektu Koncepcia a realizácia sémantickej anotácie korpusu (identifikácia viacslovných pomenovaní, ručná anotácia pomenovaných jednotiek, budovanie ontológií). Texty v tomto korpuse majú sémantickú anotáciu. Korpus obsahuje značky z tagsetu používaného pri anotovaní pomenovaných entít. Anotácia využíva kolekcie lexikónov pomenovaných entít pre identifikované kategórie, ktoré boli ručne očistené a dezambiguované podľa relevantných častí morfologických značiek z tagsetu SNK.

V korpuse možno vyhľadávať prostredníctvom atribútov word, lemma, tag. Označenia pomenovaných entít sa zobrazujú v nástroji NoSkE ako štruktúrne značky okolo príslušných slov, po rozkliknutí referencií sú ich hodnoty viditeľné v štruktúre ne.type.

Tagset používaný v korpuse snec-1.0 je dostupný tu. Kategórie číselné vyjadrenia, mená osôb a časové vyjadrenia obsahujú aj tzv. superznačky zložené len z jedného veľkého písmena (N, P, T), ktoré v sebe zachytávajú komplexné pomenovanie entity. Napríklad pomenovanie Ľudovít Štúr je označkované značkou P – meno osoby, pričom lexéme Ľudovít je pridelená značka pf (krstné meno) a lexéma Štúr má značku ps (priezvisko).

Korpus pomenovaných entít

Adresa

Telefón

Mobil

E-mail