→English

Morfologická anotácia textov Slovenského národného korpusu

Morfologická anotácia je základnou (a najčastejšou) lingvistickou informáciou vnášanou do korpusov najmä flektívnych jazykov. Obsahuje slovnodruhové a tvarové charakteristiky slova v kontexte. Zvyčajne jej predchádza lematizácia – priradenie základného (slovníkového) tvaru každému slovu.

V Slovenskom národnom korpuse sa nachádzajú dva druhy morfologickej anotácie a lematizácie:

Všetky značky uvádzame v nasledujúcich tabuľkách; príklady a ukážky sú presne prevzaté z ručne anotovaného podkorpusu.

Substantívum

Prepozícia

Interpunkcia

Adjektívum

Konjunkcia

Neurčiteľný slovný druh

Pronominum

Partikula

Neslovný element

Numerále

Interjekcia

Citátový výraz

Verbum

Reflexívum

Číslica

Particípium

Kondicionálová morféma

Vlastné meno

Adverbium

Abreviácia, značka

Chybný zápis

Celý dokument o morfologickej anotácii je dostupný vo formáte PDF. Podiel druhov textov v ručne morfologicky anotovanom podkorpuse sa nachádza v časti Štruktúra SNK.

Morfologickej anotácii podliehajú všetky textové jednotky – tokeny, teda reťazce znakov medzi dvoma medzerami, ako aj znaky interpunkcie, pred ktoré sa pri spracúvaní textov v korpuse (pri segmentácii) medzery umelo pridávajú. Je to nevyhnutný predpoklad pre efektívne vyhľadávanie absolútnych výskytov slov – v prípade neoddelenia interpunkčného znamienka medzerou by sa museli vyhľadávať osobitne „čisté“ slová/tvary a osobitne tie isté slová/tvary s akýmkoľvek možným interpunkčným znamienkom pred alebo za sebou. Každému tokenu sa pri ďalšom spracovaní textu priraďujú atribúty lema a tag.

Lema je v podstate základný, „slovníkový“ tvar tokenu. Pri ručnej anotácii sa nedodržiava dištinkcia malého a veľkého začiatočného písmena, t. j. všetky lemy majú malé začiatočné písmeno a informácia o propriálnosti sa označuje osobitným spôsobom (malým písmenom r na konci tagu po dvojbodke). Negované tvary slovies sa v ručnej anotácii lematizujú negovaným tvarom infinitívu, afirmácia a negácia sa označuje na úrovni tagu znamienkom + alebo –. V automatizovanej lematizácii sa všetky negované tvary lematizujú bez morfémy ne- (napr. Nevedeli o tom. – automatizovaná lematizácia Vedieť, o, to).

Morfologické značky sa zapisujú pomocou US-ASCII písmen latinskej abecedy (malých aj veľkých), číslic a symbolov. Každá kategória alebo konkrétna vlastnosť má pridelený osobitný znak, ktorý je prenosný medzi slovnými druhmi (napr. x, y, z je označenie pre prvý, druhý a tretí stupeň pri prídavných menách aj pri príslovkách). Súbor jednotlivých znakov tvorí jeden tag k jednému tokenu.

Tag vyjadruje hodnoty formálnych kategórií, ktoré sú pre daný token relevantné. V Slovenskom národnom korpuse sa používajú tagy s variabilným počtom znakov, ich poradie v tagu je však záväzné. Na prvom mieste stojí informácia o príslušnosti k slovnému druhu (podľa zaužívanej desaťčlennej slovnodruhovej typológie), resp. k slovnej triede (sem patria špecifické textové jednotky vrátane interpunkcie a neslovných elementov vyskytujúcich sa v bežnom texte). Nasledujú značky pre príslušné gramatické kategórie (záväzne), resp. značky pre špeciálne skupiny (nezáväzne – stoja na konci tagu po dvojbodke a označujú vlastné mená a chybné zápisy). Podrobnejšie informácie o tokenizácii, lematizácii a morfologickej anotácii sú tu (PDF, 270 kB).

Použitie v programe Bonito 2 (web klient)

Pri práci s korpusovým manažérom Manatee a klientom Bonito sa dajú textové jednotky vyhľadávať ako konkrétne tvary slova a lemy.

  1. Vo formulári v položke Corpus nastavíme meno korpusu, ktorý chceme používať. Ak máme záujem o ručne morfologicky anotovaný korpus, z ponuky vyberieme podkorpus r-mak (vo verzii 1.0 alebo v novšej, 2.0).

  2. V ponukovom riadku otvoríme položku Corpus, v políčku QUERY TYPE vyberieme Lemma, v prípade základného tvaru slova, alebo Word form pre konkrétny tvar slova.

  3. Do vyhľadávacieho okienka napíšeme príslušný tvar slova pre word, základný tvar slova pre lemu.
  4. Ak chceme príslušné charakteristiky vidieť, v ľavom ponukovom riadku klikneme na VIEW OPTIONS a v ponuke ATTRIBUTES označíme atribúty LEMMA a TAG pre kľúčové slovo alebo pre všetky slová vo vyhľadanom kontexte.

Použitie v programe Bonito 1 (stará verzia, Tcl/Tk klient)

Pri práci s korpusovým manažérom Manatee a klientom Bonito sa dajú textové jednotky vyhľadávať ako konkrétne tvary slova, ako lemy alebo ako morfologické triedy (pomocou tagu alebo jeho časti).

  1. V pravom hornom rohu nastavíme meno korpusu, ktorý chceme používať. Ak máme záujem o ručne morfologicky anotovaný korpus, z ponuky vyberieme podkorpus r-mak (vo verzii 1.0 alebo v novšej, 2.0).
  2. V hornom ponukovom riadku otvoríme položku KORPUS, v nej klikneme na položku IMPLICITNÝ ATRIBÚT a vyznačíme podľa predmetu vyhľadávania WORD, LEMMA alebo TAG.
  3. Do vyhľadávacieho okienka napíšeme príslušný tvar slova pre word, základný tvar slova pre lemu, konkrétny tag alebo jeho časť (pomocou regulárnych výrazov) pre vyhľadávanie všetkých slov s požadovanými morfologickými charakteristikami.
  4. Ak chceme príslušné charakteristiky vidieť, nezabudnime v hornom ponukovom riadku nastaviť v položke ZOBRAZENIE zobrazenie pre ATRIBÚTY, a to konkrétne LEMY alebo TAGU pre kľúčové slovo alebo pre všetky slová vo vyhľadanom kontexte.