Literárny autorský korpus (LAK)

Pilotná verzia ručne značkovaného literárneho autorského korpusu lak-1.0 bola vytvorená ešte v roku 2024. Literárny autorský korpus LAK bol sprístupnený 29. 1. 2025 v rozsahu 177 938 tokenov (140 536 slov).

Projekt korpusu nadväzuje na:

  • prepájanie literárnej vedy a korpusových technológií označované ako digitálna literárna veda (Digital Literary Studies);
  • projekt korpusprozy.cz, ktorý rozvíja Richard Změlík (Katedra bohemistiky Filozofickej fakulty Univerzity Palackého v Olomouci), ktorý sa opiera o typológiu rozprávačov a ďalšie naratívne javy vymedzené v diachrónnej poetike rozprávania Alice Jedličkovej a kolektívu;
  • štrukturalisticky orientovanú teóriu naratívnej sémantiky Lubomíra Doležela a ďalších.

Pilotnú verziu korpusu LAK tvoria tri texty popredného slovenského spisovateľa Pavla Vilikovského (1941 – 2020): Večne je zelený… (1989), Peší príbeh (1992) a Posledný kôň Pompejí (2001).

Texty v korpuse obsahujú štýlovo-žánrovú anotáciu, sú automaticky lematizované a morfologicky anotované pomocou tagera Morphodita.

Na účely základnej literárnovednej (naratologickej) anotácie bol vypracovaný tagset, ktorý obsahuje osem značiek, zohľadňujúcich tri literárnovedné kľúče: rozprávač (narrator), priama reč (speech) a vložené štruktúry (structure).

Ku všetkým kľúčom sú priradené nasledujúce hodnoty:

  • rozprávač: omni (omniscient, vševediaci), pers (personal, personálny), char (character, rozprávač-postava) a rhet (rhetorical, rétorický);
  • priama reč: dirs (direct speech, značená priama reč) a dirs_wq (direct speech without quotation, neznačená priama reč);
  • vložené štruktúry: inst (inserted text, vložený text) alebo inss (inserted story, „príbeh v príbehu“).

Označenia literárnovedných kategórií sa v korpuse zobrazujú ako štruktúrne značky. Hodnoty kľúčov je možné zobraziť ako referencie a kvantifikovať, čo otvára nové možnosti pre počítačovo podporovanú literárnovednú analýzu.

V aktuálnej verzii korpusu je možné vyhľadávať pomocou lemy, slovného tvaru, podreťazca, frázy a výrazu CQL.

Po vzore českého projektu sa v blízkej budúcnosti plánuje rozšírenie autorského korpusu o autorov a texty z ďalších období o anotáciu pomenovaných entít, čo umožní rozvoj aj diachrónne zameraných a exaktnejších literárnovedných analýz.