Morfologická anotácia textov Slovenského národného korpusu

Morfologická anotácia je základnou (a najčastejšou) lingvistickou informáciou vnášanou do korpusov najmä flektívnych jazykov. Obsahuje slovnodruhové a tvarové charakteristiky slov  v kontexte. Zvyčajne jej predchádza lematizácia – priradenie základného (slovníkového) tvaru každému slovu.

V Slovenskom národnom korpuse sa nachádzajú dva druhy morfologickej anotácie a lematizácie:

  • ručná morfologická anotácia v podkorpuse r-mak na základe súboru nižšie uvedených značiek a pravidiel vrátane pravidiel lematizácie
  • automatizovaná morfologická anotácia všetkých ostatných korpusov a podkorpusov, pri ktorej sa použil ten istý súbor značiek a pravidiel, pričom tager MorphoDiTa bol natrénovaný na podkorpuse r-mak a pri anotácii sa využil aj slovník všetkých tvarov slov – morfologická databáza SNK

Všetky značky uvádzame v nasledujúcich tabuľkách; príklady a ukážky sú presne prevzaté z ručne anotovaného podkorpusu.

Substantívum (S)

Prepozícia (E)

Interpunkcia (Z)
Adjektívum (A)Konjunkcia (O)Neurčiteľný slovný druh (Q)
Pronominum (P)Partikula (T)Neslovný element (#)
Numerále (N)Interjekcia (J)Citátový výraz (%)
Verbum (V)Reflexívum (R)Číslica (0)
Particípium (G)Kondicionálová morféma (Y)Vlastné meno (:r)
Adverbium (D)Abreviácia, značka (W)Chybný zápis (:q)

Celý dokument o morfologickej anotácii textov Slovenského národného korpusu nájdete tu. Podiel druhov textov v ručne morfologicky anotovanom podkorpuse sa nachádza na stránke s prehľadom verzií r-mak.

Morfologickej anotácii podliehajú všetky textové jednotky – tokeny, teda reťazce znakov, ktoré sa štandardne nachádzajú medzi dvoma medzerami, ako aj znaky interpunkcie, pred ktoré sa pri spracúvaní textov v korpuse (pri segmentácii) medzery umelo pridávajú. Je to nevyhnutný predpoklad pre efektívne vyhľadávanie absolútnych výskytov slov – v prípade neoddelenia interpunkčného znamienka medzerou by sa museli vyhľadávať osobitne „čisté“ slová/tvary a osobitne tie isté slová/tvary s akýmkoľvek možným interpunkčným znamienkom pred alebo
za sebou.

Každému tokenu sa pri ďalšom spracovaní textu priraďujú atribúty lema a tag.

Lema je v podstate základný, „slovníkový“ tvar tokenu zahŕňajúci všetky tvary slov z ohybných slovných druhov a prísloviek.

V ručne morfologicky anotovaných korpusoch sa do verzie r-mak-4.0 (v ostatných korpusoch do roku 2016) nedodržiavala dištinkcia malého a veľkého začiatočného písmena, t. j. všetky lemy mali malé začiatočné písmeno a informácia o propriálnosti sa označovala osobitným spôsobom (malým písmenom r na konci tagu po dvojbodke). Od verzie r-mak-5.0 sa lematizácia vlastných mien realizuje s veľkým začiatočným písmenom (a bez dodatočnej informácie pomocou malého písmena r na konci tagu). Vlastné mená osôb a objektov, ktoré nie sú homonymné so všeobecnými pomenovaniami, sa lematizujú s veľkým začiatočným písmenom bez výnimky, v homonymných prípadoch sa prihliada na väčšinové používanie. Napr. jedinečné názvy spoločností, bánk, klubov, fantazijných reálií, biblických kníh a pod. sú lematizované s veľkým začiatočným písmenom (Interpol, Tatrabanka, Kalligram, Zem-Nezem, Exodus), názvy hier, filmov, kníh, skupín, spoločností, ulíc, produktov, počítačových programov a pod., ktoré sa frekventovanejšie používajú ako všeobecné podstatné mená, sú lematizované s malým začiatočným písmenom (Filozofická fakulta Prešovskej univerzity → filozofický, prešovský; Stromová ulica → stromový; hra Monopoly → monopol). Uvedený spôsob lematizácie s rozlišovaním malých a veľkých začiatočných písmen sa aplikoval aj v rámci automatizovanej anotácie hlavného korpusu prim-8.0 a vo všetkých ďalších korpusoch a podkorpusoch SNK zverejňovaných od roku 2017. Problematické prípady s rozkolísaným pravopisom sú však zvyčajne lematizované podľa spôsobu zápisu v textoch (napr. automobil škoda → škoda; automobil Škoda → Škoda; google → google; Google → Google).

Negované tvary slovies, ako aj negatívne podoby slov z iných slovných druhov (napr. neistota, neposledný, nemálo) sa v korpusoch SNK lematizujú negovaným tvarom, pri slovesách sa afirmácia a negácia navyše označuje na úrovni tagu znamienkom + alebo –.

Morfologické značky sa zapisujú pomocou US-ASCII písmen latinskej abecedy (malých aj veľkých), číslic a symbolov. Každá kategória alebo konkrétna vlastnosť má pridelený osobitný znak, ktorý sa nemôže opakovať na označenie inej kategórie, ale pre rovnakú kategóriu je v rôznych slovných druhoch použitý rovnaký znak (napr. x, y, z je označenie pre prvý, druhý a tretí stupeň pri prídavných menách aj pri príslovkách). Súbor jednotlivých znakov tvorí jeden tag k jednému tokenu.

Tag vyjadruje hodnoty formálnych kategórií, ktoré sú pre daný token relevantné. V Slovenskom národnom korpuse sa používajú tagy s variabilným počtom znakov, ich poradie v tagu je však záväzné. Na prvom mieste stojí informácia o príslušnosti k slovnému druhu (podľa zaužívanej desaťčlennej slovnodruhovej typológie), resp. k slovnej triede (špecifické textové jednotky vrátane interpunkcie a neslovných elementov vyskytujúcich sa v bežnom texte). Nasledujú značky pre príslušné gramatické kategórie (záväzne), resp. značky pre špeciálne skupiny (nezáväzne – stoja na konci tagu po dvojbodke a označujú vlastné mená v r-maku do verzie 4.0 a chybné zápisy).

Podrobnejšie informácie o tokenizácii, lematizácii a morfologickej anotácii Slovenského národného korpusu nájdete tu.