Pilotná verzia ručne značkovaného literárneho autorského korpusu lak-1.0 bola vytvorená ešte v roku 2024. Literárny autorský korpus LAK bol sprístupnený 29. 1. 2025 v rozsahu 177 938 tokenov (140 536 slov).
Projekt korpusu nadväzuje na:
- prepájanie literárnej vedy a korpusových technológií označované ako digitálna literárna veda (Digital Literary Studies);
- projekt korpusprozy.cz, ktorý rozvíja Richard Změlík (Katedra bohemistiky Filozofickej fakulty Univerzity Palackého v Olomouci), ktorý sa opiera o typológiu rozprávačov a ďalšie naratívne javy vymedzené v diachrónnej poetike rozprávania Alice Jedličkovej a kolektívu;
- štrukturalisticky orientovanú teóriu naratívnej sémantiky Lubomíra Doležela a ďalších.
Pilotnú verziu korpusu LAK tvoria tri texty popredného slovenského spisovateľa Pavla Vilikovského (1941 – 2020): Večne je zelený… (1989), Peší príbeh (1992) a Posledný kôň Pompejí (2001).
Texty v korpuse obsahujú štýlovo-žánrovú anotáciu, sú automaticky lematizované a morfologicky anotované pomocou tagera Morphodita.
Na účely základnej literárnovednej (naratologickej) anotácie bol vypracovaný tagset, ktorý obsahuje osem značiek, zohľadňujúcich tri literárnovedné kľúče: rozprávač (narrator), priama reč (speech) a vložené štruktúry (structure).
Ku všetkým kľúčom sú priradené nasledujúce hodnoty:
- rozprávač: omni (omniscient, vševediaci), pers (personal, personálny), char (character, rozprávač-postava) a rhet (rhetorical, rétorický);
- priama reč: dirs (direct speech, značená priama reč) a dirs_wq (direct speech without quotation, neznačená priama reč);
- vložené štruktúry: inst (inserted text, vložený text) alebo inss (inserted story, „príbeh v príbehu“).
Označenia literárnovedných kategórií sa v korpuse zobrazujú ako štruktúrne značky. Hodnoty kľúčov je možné zobraziť ako referencie a kvantifikovať, čo otvára nové možnosti pre počítačovo podporovanú literárnovednú analýzu.
V aktuálnej verzii korpusu je možné vyhľadávať pomocou lemy, slovného tvaru, podreťazca, frázy a výrazu CQL.
Po vzore českého projektu sa v blízkej budúcnosti plánuje rozšírenie autorského korpusu o autorov a texty z ďalších období o anotáciu pomenovaných entít, čo umožní rozvoj aj diachrónne zameraných a exaktnejších literárnovedných analýz.