Literárny autorský korpus (LAK)

Druhá verzia ručne značkovaného literárneho autorského korpusu lak-2.0 bola sprístupnená 29. 10. 2025 v rozsahu 379 625 tokenov (295 973 slov).

Projekt korpusu nadväzuje na:

  • prepájanie literárnej vedy a korpusových technológií označované ako digitálna literárna veda (Digital Literary Studies);
  • projekt korpusprozy.cz, rozvíja Richard Změlík (Univerzita Palackého v Olomouci), sa opiera o typológiu rozprávačov a ďalšie naratívne javy vymedzené napríklad v diachrónnej poetike rozprávania v práci Narativní způsoby v české próze 19. století od Alice Jedličkovej a kolektívu (2022) a o teóriu naratívnej sémantiky Lubomíra Doležela v práci Heterocosmica (angl. 1998, čes. 2003).

Aktuálnu verziu korpusu tvorí celkovo 6 literárnych kníh:

  • štyri knihy popredného slovenského spisovateľa Pavla Vilikovského (1941 – 2020): Večne je zelený…Peší príbehKrutý strojvodca a Posledný kôň Pompejí;
  • dve knihy klasického slovenského spisovateľa Martina Kukučína (1860 – 1928): Keď báčik z Chochoľova umrieDom v stráni.

Texty v korpuse obsahujú štýlovo-žánrovú anotáciu, sú automaticky lematizované a morfologicky anotované pomocou tagera Morphodita.

Na účely základnej literárnovednej (naratologickej) anotácie bol vypracovaný tagset, ktorý obsahuje osem značiek, zohľadňujúcich tri literárnovedné kľúče: rozprávač (narrator), priama reč (speech) a vložené štruktúry (structure).

Ku všetkým kľúčom sú priradené nasledujúce hodnoty:

  • rozprávač: omni (omniscient, vševediaci), pers (personal, personálny), char (character, rozprávač-postava) a rhet (rhetorical, rétorický);
  • priama reč: dirs (direct speech, značená priama reč) a dirs_wq (direct speech without quotation, neznačená priama reč);
  • vložené štruktúry: inst (inserted text, vložený text) alebo inss (inserted story, „príbeh v príbehu“).

Označenia literárnovedných kategórií sa v korpuse zobrazujú ako štruktúrne značky. Hodnoty kľúčov je možné zobraziť ako referencie a kvantifikovať, čo otvára nové možnosti pre počítačovo podporovanú literárnovednú analýzu.

V aktuálnej verzii korpusu je možné vyhľadávať pomocou lemy, slovného tvaru, podreťazca, frázy a výrazu CQL.

Korpus bude v budúcnosti rozširovaný o ďalších autorov, respektíve autorky, a priebežne využívaný na analýzu spracovaných textov, so zameraním napríklad na zisťovanie štylistických príznakov jednotlivých príznakov, pásiem (rozprávača, postáv), analýzu motívov a ich kolokácií a podobne. S pribúdajúcimi autormi bude postupne možný aj diachrónny výskum napríklad typov rozprávačov, prípadne iných štylistických, jazykových a literárnych javov v širšom zábere.

Inštruktážne video o možnostiach práce s korpusom je dostupné v slovenčine na tomto odkaze.

Korpus je spolufinancovaný v rámci konzorcia DARIAH-SK.

 

 

Verzia 1.0

Pilotná verzia ručne značkovaného literárneho autorského korpusu lak-1.0 bola vytvorená ešte v roku 2024. Literárny autorský korpus LAK bol sprístupnený 29. 1. 2025 v rozsahu 177 938 tokenov (140 536 slov). Projekt korpusu nadväzoval na: prepájanie literárnej vedy a korpusových technológií označované ako digitálna literárna veda (Digital Literary Studies); projekt korpusprozy.cz, ktorý rozvíja Richard Změlík (Katedra bohemistiky Filozofickej fakulty Univerzity Palackého v Olomouci), ktorý sa opiera o typológiu rozprávačov a ďalšie naratívne javy vymedzené v diachrónnej poetike rozprávania Alice Jedličkovej a kolektívu; štrukturalisticky orientovanú teóriu naratívnej sémantiky Lubomíra Doležela a ďalších. Pilotnú verziu korpusu LAK tvorili tri knihy popredného slovenského spisovateľa Pavla Vilikovského (1941 – 2020): Večne je zelený… (1989), Peší príbeh (1992) a Posledný kôň Pompejí (2001).