Vyhľadávanie v Slovenskom národnom korpuse
1. NoSketch Engine s dátami SNK
V Slovenskom národnom korpuse sa vyhľadáva pomocou nástroja NoSketch Engine. Pôvodne sa používal korpusový manažér Manatee s klientom
Bonito vyvinutým na Fakulte informatiky Masarykovej univerzity v Brne. Webové rozhranie NoSketch Engine s dátami SNK je prístupné na adrese
https://bonito.korpus.sk.
Aby ste ho mohli používať, je nevyhnutné sa najprv zaregistrovať.
2. Jednoduché vyhľadávanie bez registrácie
Jednoduché vyhľadávanie je možné aj
bez registrácie prostredníctvom webového rozhrania, ale s veľmi obmedzeným prístupom ku korpusom (prim-6.0-public-all, r-mak-3.0 a iné), bez možnosti vytvárania podkorpusov. Pred začatím používania webového rozhrania si treba prečítať a odsúhlasiť
podmienky používania SNK.
Ako citovať korpus
Verzie a podkorpusy SNK, ako i jednotlivé zdroje z nich citujte podľa nasledujúceho
návodu.
Typy a značky anotácií textov SNK
Výber najčastejšie používaných metaznakov na vyhľadávanie
Metaznaky používame pri vyhľadávaní pomocou atribútu CQL, spôsob hľadania jedného tokenu je vždy záväzný a má tvar [atribút=“hľadaný_token“], napr. [lemma=“hlava“]. Regulárny výraz môžeme utvoriť aj pomocou kombinácie atribútov, napr. [word=“.*ací“ & tag!=“A.*“] (vyhľadanie všetkých tvarov slov zakončených na -ací, ktoré nie sú adjektívami).
Znak v korpuse sa chápe ako ľubovoľný znak okrem medzery. Formulácia metaznak BODKA nahrádza ľubovoľný znak znamená, že bodka v tomto prípade nahrádza aj ľubovoľnú číslicu, interpunkčné znamienko, zátvorku a pod.
Nasledujúce príklady platia pre nástroje Bonito I, NoSketch Engine a Sketch Engine.
Metaznak | Význam metaznaku | Príklad použitia | Očakávaný výsledok vyhľadávania |
---|
. | BODKA nahrádza jeden ľubovoľný znak. | dom.. | domov, domec |
* | HVIEZDIČKA určuje, že znak, ktorý je pred hviezdičkou, sa opakuje ľubovoľný počet krát (aj nula krát). | hm* | h, hm, hmm, hmmm |
+ | PLUS určuje, že znak, ktorý je pred týmto regulárnym výrazom, sa opakuje raz alebo viackrát. | hm+ | hm, hmm, hmmm… |
{ } | ZLOŽENÉ ZÁTVORKY. V nich umiestnené číslo určuje, koľkokrát sa má regulárny výraz, resp. písmeno pred zátvorkami opakovať. | dom.{3} | domový, domček… |
{m,n} | Do zátvoriek môžeme zapísať aj interval výskytu znaku stojaceho pred zátvorkami. | .{5,10}
hm{1,4} | ľubovoľné slová skladajúce sa z 5 až 10 písmen
hm, hmm, hmmm, hmmmm |
| | ZVISLÁ ČIARA má funkciu operátora ALEBO. | dom|doma | dom, doma |
[ ] | HRANATÉ ZÁTVORKY: definuje sa v nich množina znakov, ktoré sa môžu vyskytovať v danom výraze na mieste zátvoriek. Množina sa určuje vymenovaním znakov, ktoré sa neoddeľujú čiarkou, alebo určením intervalu napr. a-z (interval zahŕňa sled znakov bez diakritiky). | [dsl]om
[r-v]ám | dom, som, lom
rám, sám, tám, uám, vám (ak sa takéto tokeny v korpuse vyskytujú) |
( ) | JEDNODUCHÉ ZÁTVORKY slúžia na zápis súboru požiadaviek na určitý znak vyhľadávaného výrazu pomocou regulárneho výrazu, resp. viacerých regulárnych výrazov. | (D|d)om
([Kk]|[Tt])am | Dom, dom
Kam, kam, Tam, tam |
(?i) | Tento regulárny výraz spôsobí, že pri vyhľadávaní sa bude ignorovať rozlišovanie veľkých a malých písmen. | (?i)dom | Dom, dom |
\ | Obrátený znak LOMENÉ pred znakom regulárneho výrazu znamená, že sa daný znak nebude pri vyhľadávaní chápať ako regulárny výraz, ale ako jednotka textu. | napr\. | napr. (a nie napri, napre, naprd…) |
? | OTÁZNIK predstavuje žiaden alebo jeden výskyt predchádzajúceho znaku. | i?šlo | išlo, šlo |
^ | STRIEŠKA spôsobí, že znak za ňou nesmie byť v slove na danej pozícii. | SSfs^2 | 2-ka nesmie byť za „s“, teda sú to všetky feminína v singulári okrem genitívnych tvarov, t.j. SSfs1, SSfs3, SSfs4, SSfs5, SSfs6, SSfs7, ale teoreticky, ak by také značky existovali, može to byť aj napr. SSfsA, SSfsaBBBB,… |
& | AMPERSAND vyjadruje funkciu A SÚČASNE, ktorá umožňuje definovať viaceré hodnoty naraz. | [tag=“SAms4″ & lemma=“.*ci“] | všetky substantíva (S), s adjektívnou paradigmou (A), s mužským životným rodom (m), v singulári (s) a akuzatíve (4) – ktorých lema sa končí na -ci, napr. domáceho, kupujúceho, vedúceho (kde lema je domáci, kupujúci, vedúci – see https://korpus.juls.savba.sk/subst.html) |
1. Kombinácia metaznakov
2. Podmienky používané pri vyhľadávaní v korpuse
2.1. within
Príklad | Význam | Očakávaný výsledok |
---|
[tag=“S.*“]{2} within [tag=“V.*“][]*[tag=“V.*“] | Dve bezprostredne za sebou nasledujúce substantíva v skupine výrazov medzi dvoma slovesami. | … že to všetko je vlastne vecou histórie , spoločenského poriadku , nanovo sa vo mne ozvali… |
[lemma="zelený"] within <doc auth="Vincent Šikula"/> | Všetky lemy „zelený“ v dielach Vincenta Šikulu. | napr. Aký je zelený , — divili sa chlapci . |
[lemma=“hlava“][lemma=“deravý“] within <s/>[]*</s> | Zobrazenie spojení dvom lem hlava a deravý v rámci vety, (farebne zvýraznené sú len hľadané tokeny). | E.g. Každý má na hlave deravý klobúk a pred sebou šálku, z ktorej stúpa riedky dym. Veru tak, hlava opitá, hlava deravá! |
2.2. containing
Príklad | Význam | Očakávaný výsledok |
---|
containing [lemma=“hlava“] [lemma=“deravý“] | Zobrazenie celých viet, ktoré obsahujú lemy hlava a deravý. | napr. Sňal si z hlavy deravý slamený širák , zotrel z čela pot . |
[tag=“V.*“] []{5} [tag=“V.*“] containing [tag=“S.*“]{3} | Zobrazenie celých 7-tokenových fráz obsahujúcich mennú skupinu zloženú z troch substantív stojacich bezprostredne za sebou, pričom frázy sú ohraničené slovesami. | napr. vybral z vrecka balíček cigariet a podal |
2.3. meet
Príklad | Význam |
---|
(meet [tag=“S.*“] [tag=“VL.*“] -3 3) | Zobrazenie substantíva, ktoré je obklopené slovesami v minulom čase v rozsahu pozícií -3 3. |
2.4. union
Príklad | Význam |
---|
(union (meet [lemma=“hovoriť“] [lemma=“pravda“] -4 4) (meet [lemma=“vysloviť“] [lemma=“lož“] -4 4)) | Funkcia ALEBO pri vyhľadávaniach kolokácií pomocou funkcie podmienky meet, zobrazí sa len lema hovoriť alebo vysloviť. |
3. Všeobecné podmienky používané v SketchEngine
Príklad | Význam | Očakávaný výsledok |
---|
1:[] 2:[] & 1.tag = 2.tag | Všetky slová stojace vedľa seba, ktorých morfologické kategórie sú totožné. | napr. príliš automaticky, exkluzívne ekologické, až prakticky, celkom mimovoľne |
1:[] 2:[] & 1.tag = 2.tag & f(1.tag) > 1000 | Všetky slová stojace bezprostredne vedľa seba, ktoré majú rovnakú morfologickú značku, ale frekvencia prvej morfologickej značky musí byť viac ako 1000 v danom korpuse. | napr. udržateľný ekonomický, Ježišom Kristom, alebo ako, aj keď |
Viac informácií o možnostiach vyhľadávania v nástroji Sketch Engine a NoSketch Engine nájdete tu.