Vyhľadávanie v HKS

Texty v HKS nie sú lematizované ani morfologicky anotované. Vyhľadávanie je možné pomocou tvarov slov (word) a CQL.

Špecifické znaky

HKS obsahuje transliterované texty (jednej graféme v pôvodnom texte zodpovedá jedna graféma v počítačovom spracovaní). Toto pravidlo obsahuje niekoľko výnimiek pri grafémach, ktoré sa i napriek tvarovej variantnosti vo funkcii nelíšia:

    • varianty grafémy s (s, ʃ) v pôvodnom rukopise nahradzujeme jednotne ako s

    • varianty diakritiky – napr. š aj sú jednotne nahradzované ako š

    • ǔ používané (napr. v kurente) na zápis u prepisujeme ako obyčajné u

    • (najmä v diele Valaská Škola) je nahradené obyčajným y.

    V korpuse sme zachovali niekoľko špecifických znakov, ktoré sa v súčasnej slovenčine nenachádzajú. Ide predovšetkým o znaky, kde nebolo isté, nakoľko v texte môžu alebo nemôžu mať ďalšiu funkciu. Nižšie uvádzame výber grafém, ktorý sa môže v korpuse vyskytnúť.

    Konsonanty

      • ß v pozícii s (nielen v nemeckých, ale i slovenských výrazoch)

      • konsonanty s dĺžňom, napr.: ć, ń, ś, ź

      • gravis: ǹ

      • bodka: ż

      • mäkčeň (resp. háčik): ǧ s výslovnosťou [g], ř

      Vokály

        • æ v latinských výrazoch

        • nosovky ǫ, ą, ę

        • prehlásky, napr. ä, ë, ö, ü, ÿ; dlhé prehlásky, napr. ő, ű

        • vodorovná čiara nad vokálom, napr. ā, ē, ō

        • cirkumflex, napr. â

        • gravis, napr.: à

        • mäkčeň (resp. háčik), napr. ě, ŏ

        • ů

        Pri väčšine týchto znakov je potrebné zadať pri vyhľadávaní správny znak. Všetky slová s daným znakom je možné vyhľadať pomocou jednoduchého hľadania v tvare *znak*, teda všetky slová s ÿ nájdeme pomocou *ÿ*.

         

          • ÿ v hist-6.0

          Výnimočné postavenie má vzhľadom na svoje použitie graféma ÿ (vyskytuje sa často v pozícii, kde by sa mohol v súčasnosti vyskytovať ypsilon; v historických textoch v tejto pozícii často nachádzame varianty y, ij, ii. Preto bolo pri tejto graféme pri tvorbe verzie hist-6.0 zjednodušené vyhľadávanie takto:

          Tvary s y aj ÿ:

            • ak zadáme do jednoduchého vyhľadávania y (resp. nejaké slovo s y), tak korpus zobrazí príslušné tvary tak s y ako aj s ÿ.

            napr.: pri vyhľadaní výrazu stary sa nám zobrazia tvary stary aj starÿ.

            Tvary len s y (bez ÿ):

              • ak chceme vyhľadať len tvary bez ÿ, nestačí jednoduché vyhľadávanie, je potrebné použiť typ hľadania -> slovný tvar

              napr.: pri vyhľadaní výrazu stary sa nám zobrazia len tvary stary.

              Tvary len s ÿ (bez y):

                • ak chceme vyhľadať len tvary bez y, stačí ak v jednoduchom hľadaní (ale aj v type hľadania – slovný tvar) zadáme výraz aj s grafémou ÿ.

                napr.: pri vyhľadaní výrazu starÿ sa nám zobrazia len tvary starÿ

                V hist-7.0 bolo takto zjednodušené vyhľadávanie pri všetkých znakoch s diakritikou. Slovo obsahujúce znak s ľubovoľným diakritickým znamienkom je možné vyhľadať cez jednoduché vyhľadávanie aj bez použitia diakritiky. Ak chceme vyhľadať špecifickú grafému, je potrebné použiť typ hľadania -> slovný tvar. (Ako príklad pozri vyššie porovnanie vyhľadávania y, ÿ v hist-6.0.)

                Zoznam znakov (rovnako platí aj pre kapitálky):

                a: a, á, ä, à, â, ã, å, ā, ą

                c: c, č, ç, ć

                d: d, ď

                e: e, ě, è, ê, ë, ę, ė, ē, ё

                i: i, í, î, ï, ì, į, ī

                l: l, ľ, ĺ, ł

                n: n, ň, ñ, ń, ǹ

                o: o, ô, ó, ö, ò, õ, ø, ō, ő, ǫ, ӧ

                r: r, ŕ, ř

                s: s, š, ś, ß

                t: t, ť

                u: u, ú, ů, û, ü, ù, ū

                v: v, w

                y: y, ý, ÿ, ỳ

                z: z, ž, ź, ż

                 

                  • Rozkolísanosť ortografie a zložky

                  Pre predspisovný jazyk je charakteristická rozkolísaná ortografia, ktorá umožňuje zapísať rovnaké slovo (aj v rámci jedného dokumentu) viacerými spôsobmi. Navyše sa stretávame s miešaním diakritického a zložkového pravopisu. To značí, že jedna fonéma môže byť zapísaná viacerými grafémami (resp. multigrafémami), ale zároveň jedna zložka môže mať viac významov.

                    • Príklady významov zložky sz v Osturnianskom receptári:

                    Fonetická hodnota (význam)Pôvodný zápisFonetický prepis [1]
                    [š]Szaffranu[šafránu]
                    [ž]Musze[múže]
                    [z/s] + [š]Szmiszay[zmíšaj/smíšaj]


                    [1]  Kvantita nie je rekonštruovaná, ale doplnená z dôvodu, aby nedošlo k zamieňaniu významu (najmä pri druhom slove).

                    Príklady alografov (variantov grafémy): v prvých dvoch riadkoch ide o výskyt jednej grafémy s viacerými alografmi, v poslednom riadku nachádzame kombináciu dvoch takýchto grafém v rámci jedného slova.

                    Alografy„Alolexie“ – varianty lexém
                    «č» = <c, č, cz, cs, čz, cž, …>clowek, člowek, czlowek, …
                    «š» = <s, š, s̈, ss, ss̈, …>lepšj, lepssj, lepsj, …
                    «š»; «i» = <i, j, ij, y, …>lepssi, lepssy, lepssj, …; lepši, lepšy, lepšj, …; lepsi, lepsy, …

                    Pomôckou pri jednoduchom vyhľadávaní môže byť použitie * ako zástupného znaku (resp. i znakov). Napr. ak by sme chceli nájsť varianty (resp. alografy) «š» = <s, š, ss, sz, …> v slove «š»affran, tak možnosti s <s, ss, sz> môžeme zachytiť prostredníctvom reťazca s*affranu v jednoduchom vyhľadávaní. Výsledky vyhľadávania budú obsahovať v tomto prípade 3 druhy zápisu: saffranu, ssaffranu, szaffranu. Ďalšie možnosti nám ponúka využitie vyhľadávania prostredníctvom CQL.