Vyhľadávanie v HKS

Texty v HKS nie sú lematizované ani morfologicky anotované. Vyhľadávanie je možné pomocou tvarov slov (word) a CQL.

Špecifické znaky

HKS obsahuje transliterované texty (jednej graféme v pôvodnom texte zodpovedá jedna graféma v počítačovom spracovaní). Toto pravidlo obsahuje niekoľko výnimiek pri grafémach, ktoré sa i napriek tvarovej variantnosti vo funkcii nelíšia:

  • varianty grafémy s (s, ʃ) v pôvodnom rukopise nahradzujeme jednotne ako s

  • varianty diakritiky – napr. š aj sú jednotne nahradzované ako š

  • ǔ používané (napr. v kurente) na zápis u prepisujeme ako obyčajné u

  • (najmä v diele Valaská Škola) je nahradené obyčajným y.

  V korpuse sme zachovali niekoľko špecifických znakov, ktoré sa v súčasnej slovenčine nenachádzajú. Ide predovšetkým o znaky, kde nebolo isté, nakoľko v texte môžu alebo nemôžu mať ďalšiu funkciu. Nižšie uvádzame výber grafém, ktorý sa môže v korpuse vyskytnúť.

  Konsonanty

   • ß v pozícii s (nielen v nemeckých, ale i slovenských výrazoch)

   • konsonanty s dĺžňom, napr.: ć, ń, ś, ź

   • gravis: ǹ

   • bodka: ż

   • mäkčeň (resp. háčik): ǧ s výslovnosťou [g], ř

   Vokály

    • æ v latinských výrazoch

    • nosovky ǫ, ą, ę

    • prehlásky, napr. ä, ë, ö, ü, ÿ; dlhé prehlásky, napr. ő, ű

    • vodorovná čiara nad vokálom, napr. ā, ē, ō

    • cirkumflex, napr. â

    • gravis, napr.: à

    • mäkčeň (resp. háčik), napr. ě, ŏ

    • ů

    Pri väčšine týchto znakov je potrebné zadať pri vyhľadávaní správny znak. Všetky slová s daným znakom je možné vyhľadať pomocou jednoduchého hľadania v tvare *znak*, teda všetky slová s ÿ nájdeme pomocou *ÿ*.

     

     • ÿ v hist-6.0

     Výnimočné postavenie má vzhľadom na svoje použitie graféma ÿ (vyskytuje sa často v pozícii, kde by sa mohol v súčasnosti vyskytovať ypsilon; v historických textoch v tejto pozícii často nachádzame varianty y, ij, ii. Preto bolo pri tejto graféme pri tvorbe verzie hist-6.0 zjednodušené vyhľadávanie takto:

     Tvary s y aj ÿ:

      • ak zadáme do jednoduchého vyhľadávania y (resp. nejaké slovo s y), tak korpus zobrazí príslušné tvary tak s y ako aj s ÿ.

      napr.: pri vyhľadaní výrazu stary sa nám zobrazia tvary stary aj starÿ.

      Tvary len s y (bez ÿ):

       • ak chceme vyhľadať len tvary bez ÿ, nestačí jednoduché vyhľadávanie, je potrebné použiť typ hľadania -> slovný tvar

       napr.: pri vyhľadaní výrazu stary sa nám zobrazia len tvary stary.

       Tvary len s ÿ (bez y):

        • ak chceme vyhľadať len tvary bez y, stačí ak v jednoduchom hľadaní (ale aj v type hľadania – slovný tvar) zadáme výraz aj s grafémou ÿ.

        napr.: pri vyhľadaní výrazu starÿ sa nám zobrazia len tvary starÿ

        V hist-7.0 bolo takto zjednodušené vyhľadávanie pri všetkých znakoch s diakritikou. Slovo obsahujúce znak s ľubovoľným diakritickým znamienkom je možné vyhľadať cez jednoduché vyhľadávanie aj bez použitia diakritiky. Ak chceme vyhľadať špecifickú grafému, je potrebné použiť typ hľadania -> slovný tvar. (Ako príklad pozri vyššie porovnanie vyhľadávania y, ÿ v hist-6.0.)

        Zoznam znakov (rovnako platí aj pre kapitálky):

        a: a, á, ä, à, â, ã, å, ā, ą

        c: c, č, ç, ć

        d: d, ď

        e: e, ě, è, ê, ë, ę, ė, ē, ё

        i: i, í, î, ï, ì, į, ī

        l: l, ľ, ĺ, ł

        n: n, ň, ñ, ń, ǹ

        o: o, ô, ó, ö, ò, õ, ø, ō, ő, ǫ, ӧ

        r: r, ŕ, ř

        s: s, š, ś, ß

        t: t, ť

        u: u, ú, ů, û, ü, ù, ū

        v: v, w

        y: y, ý, ÿ, ỳ

        z: z, ž, ź, ż

         

         • Rozkolísanosť ortografie a zložky

         Pre predspisovný jazyk je charakteristická rozkolísaná ortografia, ktorá umožňuje zapísať rovnaké slovo (aj v rámci jedného dokumentu) viacerými spôsobmi. Navyše sa stretávame s miešaním diakritického a zložkového pravopisu. To značí, že jedna fonéma môže byť zapísaná viacerými grafémami (resp. multigrafémami), ale zároveň jedna zložka môže mať viac významov.

          • Príklady významov zložky sz v Osturnianskom receptári:

          Fonetická hodnota (význam)Pôvodný zápisFonetický prepis [1]
          [š]Szaffranu[šafránu]
          [ž]Musze[múže]
          [z/s] + [š]Szmiszay[zmíšaj/smíšaj]


          [1]  Kvantita nie je rekonštruovaná, ale doplnená z dôvodu, aby nedošlo k zamieňaniu významu (najmä pri druhom slove).

          Príklady alografov (variantov grafémy): v prvých dvoch riadkoch ide o výskyt jednej grafémy s viacerými alografmi, v poslednom riadku nachádzame kombináciu dvoch takýchto grafém v rámci jedného slova.

          Alografy„Alolexie“ – varianty lexém
          «č» = <c, č, cz, cs, čz, cž, …>clowek, člowek, czlowek, …
          «š» = <s, š, s̈, ss, ss̈, …>lepšj, lepssj, lepsj, …
          «š»; «i» = <i, j, ij, y, …>lepssi, lepssy, lepssj, …; lepši, lepšy, lepšj, …; lepsi, lepsy, …

          Pomôckou pri jednoduchom vyhľadávaní môže byť použitie * ako zástupného znaku (resp. i znakov). Napr. ak by sme chceli nájsť varianty (resp. alografy) «š» = <s, š, ss, sz, …> v slove «š»affran, tak možnosti s <s, ss, sz> môžeme zachytiť prostredníctvom reťazca s*affranu v jednoduchom vyhľadávaní. Výsledky vyhľadávania budú obsahovať v tomto prípade 3 druhy zápisu: saffranu, ssaffranu, szaffranu. Ďalšie možnosti nám ponúka využitie vyhľadávania prostredníctvom CQL.