Texty v HKS nie sú lematizované ani morfologicky anotované. Vyhľadávanie je možné pomocou tvarov slov (word) a CQL.
Špecifické znaky
HKS obsahuje transliterované texty (jednej graféme v pôvodnom texte zodpovedá jedna graféma v počítačovom spracovaní). Toto pravidlo obsahuje niekoľko výnimiek pri grafémach, ktoré sa i napriek tvarovej variantnosti vo funkcii nelíšia:
varianty grafémy s (s, ʃ) v pôvodnom rukopise nahradzujeme jednotne ako s
varianty diakritiky – napr. š aj s̈ sú jednotne nahradzované ako š
ǔ používané (napr. v kurente) na zápis u prepisujeme ako obyčajné u
ẏ (najmä v diele Valaská Škola) je nahradené obyčajným y.
V korpuse sme zachovali niekoľko špecifických znakov, ktoré sa v súčasnej slovenčine nenachádzajú. Ide predovšetkým o znaky, kde nebolo isté, nakoľko v texte môžu alebo nemôžu mať ďalšiu funkciu. Nižšie uvádzame výber grafém, ktorý sa môže v korpuse vyskytnúť.
Konsonanty
ß v pozícii s (nielen v nemeckých, ale i slovenských výrazoch)
konsonanty s dĺžňom, napr.: ć, ń, ś, ź
gravis: ǹ
bodka: ż
mäkčeň (resp. háčik): ǧ s výslovnosťou [g], ř
Vokály
- æ v latinských výrazoch
- nosovky ǫ, ą, ę
- prehlásky, napr. ä, ë, ö, ü, ÿ; dlhé prehlásky, napr. ő, ű
- vodorovná čiara nad vokálom, napr. ā, ē, ō
- cirkumflex, napr. â
- gravis, napr.: à
- mäkčeň (resp. háčik), napr. ě, ŏ
- ů
Pri väčšine týchto znakov je potrebné zadať pri vyhľadávaní správny znak. Všetky slová s daným znakom je možné vyhľadať pomocou jednoduchého hľadania v tvare *znak*, teda všetky slová s ÿ nájdeme pomocou *ÿ*.
- ÿ v hist-6.0
Výnimočné postavenie má vzhľadom na svoje použitie graféma ÿ (vyskytuje sa často v pozícii, kde by sa mohol v súčasnosti vyskytovať ypsilon; v historických textoch v tejto pozícii často nachádzame varianty y, ij, ii. Preto bolo pri tejto graféme pri tvorbe verzie hist-6.0 zjednodušené vyhľadávanie takto:
Tvary s y aj ÿ:
- ak zadáme do jednoduchého vyhľadávania y (resp. nejaké slovo s y), tak korpus zobrazí príslušné tvary tak s y ako aj s ÿ.
napr.: pri vyhľadaní výrazu stary sa nám zobrazia tvary stary aj starÿ.
Tvary len s y (bez ÿ):
- ak chceme vyhľadať len tvary bez ÿ, nestačí jednoduché vyhľadávanie, je potrebné použiť typ hľadania -> slovný tvar.
napr.: pri vyhľadaní výrazu stary sa nám zobrazia len tvary stary.
Tvary len s ÿ (bez y):
- ak chceme vyhľadať len tvary bez y, stačí ak v jednoduchom hľadaní (ale aj v type hľadania – slovný tvar) zadáme výraz aj s grafémou ÿ.
napr.: pri vyhľadaní výrazu starÿ sa nám zobrazia len tvary starÿ
V hist-7.0 bolo takto zjednodušené vyhľadávanie pri všetkých znakoch s diakritikou. Slovo obsahujúce znak s ľubovoľným diakritickým znamienkom je možné vyhľadať cez jednoduché vyhľadávanie aj bez použitia diakritiky. Ak chceme vyhľadať špecifickú grafému, je potrebné použiť typ hľadania -> slovný tvar. (Ako príklad pozri vyššie porovnanie vyhľadávania y, ÿ v hist-6.0.)
Zoznam znakov (rovnako platí aj pre kapitálky):
a: a, á, ä, à, â, ã, å, ā, ą
c: c, č, ç, ć
d: d, ď
e: e, ě, è, ê, ë, ę, ė, ē, ё
i: i, í, î, ï, ì, į, ī
l: l, ľ, ĺ, ł
n: n, ň, ñ, ń, ǹ
o: o, ô, ó, ö, ò, õ, ø, ō, ő, ǫ, ӧ
r: r, ŕ, ř
s: s, š, ś, ß
t: t, ť
u: u, ú, ů, û, ü, ù, ū
v: v, w
y: y, ý, ÿ, ỳ
z: z, ž, ź, ż
- Rozkolísanosť ortografie a zložky
Pre predspisovný jazyk je charakteristická rozkolísaná ortografia, ktorá umožňuje zapísať rovnaké slovo (aj v rámci jedného dokumentu) viacerými spôsobmi. Navyše sa stretávame s miešaním diakritického a zložkového pravopisu. To značí, že jedna fonéma môže byť zapísaná viacerými grafémami (resp. multigrafémami), ale zároveň jedna zložka môže mať viac významov.
- Príklady významov zložky sz v Osturnianskom receptári:
Fonetická hodnota (význam) | Pôvodný zápis | Fonetický prepis [1] |
[š] | Szaffranu | [šafránu] |
[ž] | Musze | [múže] |
[z/s] + [š] | Szmiszay | [zmíšaj/smíšaj] |
[1] Kvantita nie je rekonštruovaná, ale doplnená z dôvodu, aby nedošlo k zamieňaniu významu (najmä pri druhom slove).
Príklady alografov (variantov grafémy): v prvých dvoch riadkoch ide o výskyt jednej grafémy s viacerými alografmi, v poslednom riadku nachádzame kombináciu dvoch takýchto grafém v rámci jedného slova.
Alografy | „Alolexie“ – varianty lexém |
«č» = <c, č, cz, cs, čz, cž, …> | clowek, člowek, czlowek, … |
«š» = <s, š, s̈, ss, ss̈, …> | lepšj, lepssj, lepsj, … |
«š»; «i» = <i, j, ij, y, …> | lepssi, lepssy, lepssj, …; lepši, lepšy, lepšj, …; lepsi, lepsy, … |
Pomôckou pri jednoduchom vyhľadávaní môže byť použitie * ako zástupného znaku (resp. i znakov). Napr. ak by sme chceli nájsť varianty (resp. alografy) «š» = <s, š, ss, sz, …> v slove «š»affran, tak možnosti s <s, ss, sz> môžeme zachytiť prostredníctvom reťazca s*affranu v jednoduchom vyhľadávaní. Výsledky vyhľadávania budú obsahovať v tomto prípade 3 druhy zápisu: saffranu, ssaffranu, szaffranu. Ďalšie možnosti nám ponúka využitie vyhľadávania prostredníctvom CQL.