4.1. Ciele
Vybudovanie všeobecného jednojazyčného korpusu písaných textov súčasného slovenského jazyka (1955 – 2005) a sprístupnenie jeho reprezentatívnej časti v rozsahu 200 mil. slov na internete. Sprístupnená časť korpusu bude lematizovaná a morfologicky anotovaná, vybraná vzorka sa bude anotovať aj syntakticky.
Sprístupnenie celého súboru elektronicky spracovaných získaných textov bez lingvistických informácií pracovníkom JÚĽŠ SAV a externým spolupracovníkom v jeho priestoroch na vedecko-výskumné, predovšetkým lexikografické účely (rozsah bude podmienený technickými možnosťami a ústretovosťou poskytovateľov textov).
Budovanie špecifických korpusov / databáz:
- terminologická databáza (v spolupráci s Ministerstvom spravodlivosti SR a rezortnými terminologickými komisiami);
- databáza lexikografických diel (sprístupnenie lexikografickej produkcie JÚĽŠ SAV v elektronickej podobe na internete, príp. aj na CD nosičoch);
- korpus diachrónnych textov a korpus nárečových textov (podľa potrieb pracovníkov v príslušných odboroch a podľa technických možností
- náročné bude najmä optické rozpoznávanie starých tlačí či rukopisov a prepisy hovorenej reči);
- paralelný/-é korpus/-y (najmä pre tzv. malé jazyky sú takéto korpusy dobrým nástrojom pre prekladateľov a tlmočníkov, ale aj dobrým prostriedkom na zviditeľňovanie a akceptáciu jazyka vo svete);
- korpus hovorených prejavov (technická a časová náročnosť prepisu bude vyžadovať samostatné finančné i personálne zabezpečenie).
Tvorba príslušných programových nástrojov (archivovanie textov; evidenčná databáza; konverzie a filtrácie textov; lematizátor, morfologický anotátor), využívanie a adaptácia existujúcich programových nástrojov (syntaktický parser; korpusový manažér).
4.2. Etapy
- vypracovanie koncepcie Slovenského národného korpusu
- zber dát, nadväzovanie kontaktov s poskytovateľmi textov
- evidenčná databáza
- testovanie existujúcich programových nástrojov, výber a aplikácia najvyhovujúcejších;
- ssprístupnenie reprezentatívnej čiastočne anotovanej vzorky textov (30 mil. slov) na internete
- formulácia pravidiel morfosyntaktickej anotácie a morfologickej dezambiguácie pre slovenčinu
- terminologická databáza v spolupráci s MS SR
- dopĺňanie písaných textov súčasného slovenského jazyka na reprezentatívny rozsah 200 mil. slov
- vývoj a využitie vlastných programových nástrojov na základnú lingvistickú anotáciu
- korpus nárečových a diachrónnych textov
- paralelný korpus
- využitie lingvisticky anotovaných textov Slovenského národného korpusu pri tvorbe gramatiky založenej na korpuse
4.3. Textové zdroje
Zber dát bude sledovať princíp “čo najviac a čo najrozmanitejších textov”. Reprezentatívna vzorka písaných textov súčasného slovenského jazyka bude zostavená zhruba z jednej tretiny publicistických textov, jednej tretiny umeleckých textov a jednej tretiny odborných a populárno-náučných textov. Posledné dve skupiny by mali obsahovať približne po tretine preložených textov. Texty sa budú získavať predovšetkým v elektronickej podobe (bezprostredná súčasnosť), ale pokrytie produkcie predchádzajúcich desaťročí si bude vyžadovať manuálnu prácu pri skenovaní a prevode tlačených textov do elektronickej podoby, prípadne pri prepise textov do elektronickej podoby.
- BENKO, Vladimír: Slovak Language Lexical Database. In: Computational Lexicography. Budapest: Research Institute for Linguistics Hungarian Academy of Sciences 1991, s. 5 – 8.
- BENKO, Vladimír: Počítačové korpusy a analýza textu. In: Text a kontext. Zborník z medzinárodnej vedeckej konferencie. Text v priestore jazykovej komunikácie. Text v priestore literárnej komunikácie. Text v priestore didaktickej komunikácie. Prešov 18. – 19. novembra 1993. Red. F. Ruščák. Prešov: Pedagogická fakulta v Prešove Univerzity P. J. Šafárika v Košiciach 1993, s. 43 – 50.
- BLANÁR, Vincent: Na záver sympózia o metódach výskumu a opisu lexiky slovanských jazykov. In: Metódy výskumu a opisu lexiky slovanských jazykov. Materiály zo sympózia konaného v rámci 7. zasadnutia Lexikologicko-lexikografickej komisie pri Medzinárodnom komitéte slavistov (Nové Vozokany 24. – 26. apríla 1989). Zost. V. Blanár. Bratislava: Jazykovedný ústav Ľ. Štúra SAV 1990, s. 289 – 292.
- ČERMÁK, František: Jazykový korpus: prostředek a zdroj poznání. In: Studie z korpusové lingvistiky. Acta Universitatis Carolinae. Philologica 3 – 4. Praha: Univerzita Karlova – Nakladatelství Karolinum 2000, s. 15 – 37.
- HORECKÝ, Ján: Projekt bázy dát slovenského jazyka. In: Metódy výskumu a opisu lexiky slovanských jazykov. Materiály zo sympózia konaného v rámci 7. zasadnutia Lexikologicko-lexikografickej komisie pri Medzinárodnom komitéte slavistov (Nové Vozokany 24. – 26. apríla 1989). Zost. V. Blanár. Bratislava: Jazykovedný ústav Ľ. Štúra SAV 1990, s. 251 – 253.
- JAROŠOVÁ, Alexandra: Korpus textov slovenského jazyka. In: Slovenská reč, 1993, roč. 58, č. 2, s. 89 – 95.
- LEECH, Geoffrey: The State of Art in Corpus Linguistics. In: English Corpus Linguistics. Studie in Honour of Jan Svartvik. London: Longman 1991, s. 8 – 29; český preklad V. Petkevič. In: Studie z korpusové lingvistiky. Acta Universitatis Carolinae. Philologica 3 – 4. Praha: Univerzita Karlova – Nakladatelství Karolinum 2000, s. 39 – 56.
- Metódy výskumu a opisu lexiky slovanských jazykov. Materiály zo sympózia konaného v rámci 7. zasadnutia Lexikologicko-lexikografickej komisie pri Medzinárodnom komitéte slavistov (Nové Vozokany 24. – 26. apríla 1989). Zost. V. Blanár. Bratislava: Jazykovedný ústav Ľ. Štúra SAV 1990. 292 s.
- Páleš, Emil: SAPFO. Parafrázovač slovenčiny. Bratislava: Veda 1994. 305 s.
- Slovenčina a čeština v počítačovom spracovaní. Ed. A. Jarošová. Bratislava: Veda 2001. 196 s.
- ŠIMKOVÁ, Mária: Možnosti využitia programu WordCruncher pri analýze textu (na báze Sládkovičovej a Kraskovej poézie a ľudových rozprávok). In: Text a kontext. Zborník z medzinárodnej vedeckej konferencie. Text v priestore jazykovej komunikácie. Text v priestore literárnej komunikácie. Text v priestore didaktickej komunikácie. Prešov 18. – 19. novembra 1993. Red. F. Ruščák. Prešov: Pedagogická fakulta v Prešove Univerzity P. J. Šafárika v Košiciach 1993, s. 51 – 58.
- Šulc, Michal: Korpusová lingvistika. První vstup. Praha: Karolinum 1999. 94 s.
- Text a kontext. Zborník z medzinárodnej vedeckej konferencie. Text v priestore jazykovej komunikácie. Text v priestore literárnej komunikácie. Text v priestore didaktickej komunikácie. Prešov 18. – 19. novembra 1993. Red. F. Ruščák. Prešov: Pedagogická fakulta v Prešove Univerzity P. J. Šafárika v Košiciach 1993. 291 s.