Vyhľadávanie v HKS

Texty v HKS nie sú lematizované ani morfologicky anotované. Vyhľadávanie je možné pomocou tvarov slov (word) a CQL.

Špecifické znaky

HKS obsahuje transliterované texty (jednej graféme v pôvodnom texte zodpovedá jedna graféma v počítačovom spracovaní). Toto pravidlo obsahuje niekoľko výnimiek pri grafémach, ktoré sa i napriek tvarovej variantnosti vo funkcii nelíšia:

  • varianty grafémy s (s, ʃ) v pôvodnom rukopise nahradzujeme jednotne ako s
  • varianty diakritiky – napr. š aj sú jednotne nahradzované ako š
  • ǔ používané (napr. v kurente) na zápis u prepisujeme ako obyčajné u
  • (najmä v diele Valaská Škola) je nahradené obyčajným y.

V korpuse sme zachovali niekoľko špecifických znakov, ktoré sa v súčasnej slovenčine nenachádzajú. Ide predovšetkým o znaky, kde nebolo isté, nakoľko v texte môžu alebo nemôžu mať ďalšiu funkciu. Nižšie uvádzame výber grafém, ktorý sa môže v korpuse vyskytnúť.

Konsonanty

  • ß v pozícii s (nielen v nemeckých, ale i slovenských výrazoch)
  • konsonanty s dĺžňom, napr.: ć, ń, ś, ź
  • gravis: ǹ
  • bodka: ż
  • mäkčeň (resp. háčik): ǧ s výslovnosťou [g], ř

Vokály

  • æ v latinských výrazoch
  • nosovky ǫ, ą, ę
  • prehlásky, napr. ä, ë, ö, ü, ÿ; dlhé prehlásky, napr. ő, ű
  • vodorovná čiara nad vokálom, napr. ā, ē, ō
  • cirkumflex, napr. â
  • gravis, napr.: à
  • mäkčeň (resp. háčik), napr. ě, ŏ
  • ů

Pri väčšine týchto znakov je potrebné zadať pri vyhľadávaní správny znak. Všetky slová s daným znakom je možné vyhľadať pomocou jednoduchého hľadania v tvare *znak*, teda všetky slová s ÿ nájdeme pomocou *ÿ*.

  • ÿ v hist-6.0

Výnimočné postavenie má vzhľadom na svoje použitie graféma ÿ (vyskytuje sa často v pozícii, kde by sa mohol v súčasnosti vyskytovať ypsilon; v historických textoch v tejto pozícii často nachádzame varianty y, ij, ii. Preto bolo pri tejto graféme pri tvorbe verzie hist-6.0 zjednodušené vyhľadávanie takto:

Tvary s y aj ÿ:

  • ak zadáme do jednoduchého vyhľadávania y (resp. nejaké slovo s y), tak korpus zobrazí príslušné tvary tak s y ako aj s ÿ.

napr.: pri vyhľadaní výrazu stary sa nám zobrazia tvary stary aj starÿ.

Tvary len s y (bez ÿ):

  • ak chceme vyhľadať len tvary bez ÿ, nestačí jednoduché vyhľadávanie, je potrebné použiť typ hľadania -> slovný tvar

napr.: pri vyhľadaní výrazu stary sa nám zobrazia len tvary stary.

Tvary len s ÿ (bez y):

  • ak chceme vyhľadať len tvary bez y, stačí ak v jednoduchom hľadaní (ale aj v type hľadania – slovný tvar) zadáme výraz aj s grafémou ÿ.

napr.: pri vyhľadaní výrazu starÿ sa nám zobrazia len tvary starÿ.

  • Rozkolísanosť ortografie a zložky

Pre predspisovný jazyk je charakteristická rozkolísaná ortografia, ktorá umožňuje zapísať rovnaké slovo (aj v rámci jedného dokumentu) viacerými spôsobmi. Navyše sa stretávame s miešaním diakritického a zložkového pravopisu. To značí, že jedna fonéma môže byť zapísaná viacerými grafémami (resp. multigrafémami), ale zároveň jedna zložka môže mať viac významov.

  • Príklady významov zložky sz v Osturnianskom receptári:

Fonetická hodnota (význam)Pôvodný zápisFonetický prepis [1]
[š]Szaffranu[šafránu]
[ž]Musze[múže]
[z/s] + [š]Szmiszay[zmíšaj/smíšaj]


[1]  Kvantita nie je rekonštruovaná, ale doplnená z dôvodu, aby nedošlo k zamieňaniu významu (najmä pri druhom slove).

Príklady alografov (variantov grafémy): v prvých dvoch riadkoch ide o výskyt jednej grafémy s viacerými alografmi, v poslednom riadku nachádzame kombináciu dvoch takýchto grafém v rámci jedného slova.

Alografy„Alolexie“ – varianty lexém
«č» = <c, č, cz, cs, čz, cž, …>clowek, člowek, czlowek, …
«š» = <s, š, s̈, ss, ss̈, …>lepšj, lepssj, lepsj, …
«š»; «i» = <i, j, ij, y, …>lepssi, lepssy, lepssj, …; lepši, lepšy, lepšj, …; lepsi, lepsy, …

Pomôckou pri jednoduchom vyhľadávaní môže byť použitie * ako zástupného znaku (resp. i znakov). Napr. ak by sme chceli nájsť varianty (resp. alografy) «š» = <s, š, ss, sz, …> v slove «š»affran, tak možnosti s <s, ss, sz> môžeme zachytiť prostredníctvom reťazca s*affranu v jednoduchom vyhľadávaní. Výsledky vyhľadávania budú obsahovať v tomto prípade 3 druhy zápisu: saffranu, ssaffranu, szaffranu. Ďalšie možnosti nám ponúka využitie vyhľadávania prostredníctvom CQL.