Návod na vyhľadávanie

Vyhľadávanie v Slovenskom národnom korpuse

1. NoSketch Engine s dátami SNK

V Slovenskom národnom korpuse sa vyhľadáva pomocou nástroja NoSketch Engine. Pôvodne sa používal korpusový manažér Manatee s klientom Bonito vyvinutým na Fakulte informatiky Masarykovej univerzity v Brne. Webové rozhranie NoSketch Engine s dátami SNK je prístupné na adrese https://bonito.korpus.sk. Aby ste ho mohli používať, je nevyhnutné sa najprv zaregistrovať.

2. Jednoduché vyhľadávanie bez registrácie – webové rozhranie

Jednoduché vyhľadávanie je možné aj bez registrácie prostredníctvom webového rozhrania, ale s veľmi obmedzenými možnosťami: prístupné sú iba dva základné korpusy, bez možnosti zisťovania štatistických a iných údajov.

Ako citovať korpus

Verzie a podkorpusy SNK, ako i jednotlivé zdroje z nich citujte podľa nasledujúceho návodu.

Typy a značky anotácií textov SNK

Výber najčastejšie používaných metaznakov na vyhľadávanie

Metaznaky používame pri vyhľadávaní pomocou atribútu CQL, spôsob hľadania jedného tokenu je vždy záväzný a má tvar [atribút=“hľadaný_token“], napr. [lemma=“hlava“]. Regulárny výraz môžeme utvoriť aj pomocou kombinácie atribútov, napr. [word=“.*ací“ & tag!=“A.*“] (vyhľadanie všetkých tvarov slov zakončených na -ací, ktoré nie sú adjektívami).

Znak v korpuse sa chápe ako ľubovoľný znak okrem medzery. Formulácia metaznak BODKA nahrádza ľubovoľný znak znamená, že bodka v tomto prípade nahrádza aj ľubovoľnú číslicu, interpunkčné znamienko, zátvorku a pod.

Nasledujúce príklady platia pre nástroje Bonito I, NoSketch Engine a Sketch Engine.

MetaznakVýznam metaznakuPríklad použitiaOčakávaný výsledok vyhľadávania
.BODKA nahrádza jeden ľubovoľný znak.dom..domov, domec
*HVIEZDIČKA určuje, že znak, ktorý je pred hviezdičkou, sa opakuje ľubovoľný počet krát (aj nula krát).hm*h, hm, hmm, hmmm
+PLUS určuje, že znak, ktorý je pred týmto regulárnym výrazom, sa opakuje raz alebo viackrát.hm+hm, hmm, hmmm…
{ }ZLOŽENÉ ZÁTVORKY. V nich umiestnené číslo určuje, koľkokrát sa má regulárny výraz, resp. písmeno pred zátvorkami opakovať.dom.{3}domový, domček…
{m,n}Do zátvoriek môžeme zapísať aj interval výskytu znaku stojaceho pred zátvorkami..{5,10}
hm{1,4}
ľubovoľné slová skladajúce sa z 5 až 10 písmen
hm, hmm, hmmm, hmmmm
|ZVISLÁ ČIARA má funkciu operátora ALEBO.dom|domadom, doma
[ ]HRANATÉ ZÁTVORKY: definuje sa v nich množina znakov, ktoré sa môžu vyskytovať v danom výraze na mieste zátvoriek. Množina sa určuje vymenovaním znakov, ktoré sa neoddeľujú čiarkou, alebo určením intervalu napr. a-z (interval zahŕňa sled znakov bez diakritiky).[dsl]om
[r-v]ám
dom, som, lom
rám, sám, tám, uám, vám (ak sa takéto tokeny v korpuse vyskytujú)
( )JEDNODUCHÉ ZÁTVORKY slúžia na zápis súboru požiadaviek na určitý znak vyhľadávaného výrazu pomocou regulárneho výrazu, resp. viacerých regulárnych výrazov.(D|d)om
([Kk]|[Tt])am
Dom, dom
Kam, kam, Tam, tam
(?i)Tento regulárny výraz spôsobí, že pri vyhľadávaní sa bude ignorovať rozlišovanie veľkých a malých písmen.(?i)domDom, dom
\Obrátený znak LOMENÉ pred znakom regulárneho výrazu znamená, že sa daný znak nebude pri vyhľadávaní chápať ako regulárny výraz, ale ako jednotka textu.napr\.napr. (a nie napri, napre, naprd…)
?OTÁZNIK predstavuje žiaden alebo jeden výskyt predchádzajúceho znaku.i?šloišlo, šlo
^STRIEŠKA spôsobí, že sa pri vyhľadávaní bude ignorovať prvok, ktorý za ňou nasleduje.SSfs^2všetky feminína v singulári okrem genitívnych tvarov
&AMPERSAND vyjadruje funkciu A SÚČASNE, ktorá umožňuje definovať viaceré hodnoty naraz.[tag=“SAms4″ & lemma=“.*ci“]všetky substantíva s adjektívnou paradigmou, ktorých lema sa končí na -ci, napr. domáceho, kupujúceho, vedúceho

1. Kombinácia metaznakov

.*Kombinácia BODKA HVIEZDIČKA nahrádza ľubovoľný znak ľubovoľný početkrát. Výsledkom vyhľadávania zápisu .*istá budú slová zakončené sufixom -istá, ale aj samotné slovo istá.
.+Kombinácia BODKA PLUS sa používa pri vyhľadávaní slov s určitým prefixom, sufixom, skupinou písmen a pod. Výsledok vyhľadávania zápisu za.+ zobrazí všetky slová začínajúce sa písmenami za- (okrem slova za). Pri zápise vyhľadávaného výrazu môže byť regulárny výraz použitý na ľubovoľnom mieste. Napríklad pomocou zápisu za.+ík možno nájsť všetky slová začínajúce sa písmenami za- a končiace sa na -ík. Naopak, zápisom .*koreň.* možno nájsť všetky slová s bázou koreň. Dodatočnou úpravou tohto zápisu na .*kore(ň|n).* sa vo výsledku vyhľadávania nájdu i slová obsahujúce alternáciu v danej báze (napríklad i slová koreniny, vykorenený).

2. Podmienky používané pri vyhľadávaní v korpuse

2.1. within

PríkladVýznamOčakávaný výsledok
[tag=“S.*“]{2} within [tag=“V.*“] []* [tag=“V.*“]Dve bezprostredne za sebou nasledujúce substantíva v skupine výrazov medzi dvoma slovesami.… že to všetko je vlastne vecou histórie , spoločenského poriadku , nanovo sa vo mne ozvali …
[lemma=“zelený“] withinVšetky lemy zelený v dielach Vincenta Šikulu.napr. Aký je zelený , — divili sa chlapci .
[lemma=“hlava“] [lemma=“deravý“] within Zobrazenie spojení dvom lem hlava a deravý v rámci vety, (farebne zvýraznené sú len hľadané tokeny).hlavách deravých, hlavy deravé

2.2. containing

PríkladVýznamOčakávaný výsledok
containing [lemma=“hlava“] [lemma=“deravý“]Zobrazenie celých viet, ktoré obsahujú lemy hlava a deravý.napr. Sňal si z hlavy deravý slamený širák , zotrel z čela pot .
[tag=“V.*“] []{5} [tag=“V.*“] containing [tag=“S.*“]{3}Zobrazenie celých 7-tokenových fráz obsahujúcich mennú skupinu zloženú z troch substantív stojacich bezprostredne za sebou, pričom frázy sú ohraničené slovesami.napr. vybral z vrecka balíček cigariet a podal

2.3. meet

PríkladVýznam
(meet [tag=“S.*“] [tag=“VL.*“] -3 3)Zobrazenie substantíva, ktoré je obklopené slovesami v minulom čase v rozsahu pozícií -3 3.

2.4. union

PríkladVýznam
(union (meet [lemma=“hovoriť“] [lemma=“pravda“] -4 4) (meet [lemma=“vysloviť“] [lemma=“lož“] -4 4))Funkcia ALEBO pri vyhľadávaniach kolokácií pomocou funkcie podmienky meet, zobrazí sa len lema hovoriť alebo vysloviť.

3. Všeobecné podmienky používané v SketchEngine

PríkladVýznamOčakávaný výsledok
1:[] 2:[] & 1.tag = 2.tagVšetky slová stojace vedľa seba, ktorých morfologické kategórie sú totožné.napr. príliš automaticky, exkluzívne ekologické, až prakticky, celkom mimovoľne
1:[] 2:[] & 1.tag = 2.tag & f(1.tag) > 1000Všetky slová stojace bezprostredne vedľa seba, ktoré majú rovnakú morfologickú značku, ale frekvencia prvej morfologickej značky musí byť viac ako 1000 v danom korpuse.napr. udržateľný ekonomický, Ježišom Kristom, alebo ako, aj keď

Viac informácií o možnostiach vyhľadávania v nástroji Sketch Engine a NoSketch Engine nájdete tu.