4. Plány Slovenského národného korpusu na roky 2003 – 2006 (prvá etapa)

4.1. Ciele

4.1.1.

Vybudovanie všeobecného jednojazyčného korpusu písaných textov súčasného slovenského jazyka (1955 – 2005) a sprístupnenie jeho reprezentatívnej časti v rozsahu 200 mil. slov na internete. Sprístupnená časť korpusu bude lematizovaná a morfologicky anotovaná, vybraná vzorka sa bude anotovať aj syntakticky.

4.1.2.

Sprístupnenie celého súboru elektronicky spracovaných získaných textov bez lingvistických informácií pracovníkom JÚĽŠ SAV a externým spolupracovníkom v jeho priestoroch na vedecko-výskumné, predovšetkým lexikografické účely (rozsah bude podmienený technickými možnosťami a ústretovosťou poskytovateľov textov).

4.1.3.

Budovanie špecifických korpusov / databáz:

  •  terminologická databáza (v spolupráci s Ministerstvom spravodlivosti SR a rezortnými terminologickými komisiami);
  • databáza lexikografických diel (sprístupnenie lexikografickej produkcie JÚĽŠ SAV v elektronickej podobe na internete, príp. aj na CD nosičoch);
  • korpus diachrónnych textov a korpus nárečových textov (podľa potrieb pracovníkov v príslušných odboroch a podľa technických možností
  • náročné bude najmä optické rozpoznávanie starých tlačí či rukopisov a prepisy hovorenej reči);
  • paralelný/-é korpus/-y (najmä pre tzv. malé jazyky sú takéto korpusy dobrým nástrojom pre prekladateľov a tlmočníkov, ale aj dobrým prostriedkom na zviditeľňovanie a akceptáciu jazyka vo svete);
  • korpus hovorených prejavov (technická a časová náročnosť prepisu bude vyžadovať samostatné finančné i personálne zabezpečenie).
4.1.4.

Tvorba príslušných programových nástrojov (archivovanie textov; evidenčná databáza; konverzie a filtrácie textov; lematizátor, morfologický anotátor), využívanie a adaptácia existujúcich programových nástrojov (syntaktický parser; korpusový manažér).

4.2. Etapy

2003
  • vypracovanie koncepcie Slovenského národného korpusu
  • zber dát, nadväzovanie kontaktov s poskytovateľmi textov
  • evidenčná databáza
  • testovanie existujúcich programových nástrojov, výber a aplikácia najvyhovujúcejších;
  • ssprístupnenie reprezentatívnej čiastočne anotovanej vzorky textov (30 mil. slov) na internete
  • formulácia pravidiel morfosyntaktickej anotácie a morfologickej dezambiguácie pre slovenčinu
  • terminologická databáza v spolupráci s MS SR
2004 – 2006
  • dopĺňanie písaných textov súčasného slovenského jazyka na reprezentatívny rozsah 200 mil. slov
  • vývoj a využitie vlastných programových nástrojov na základnú lingvistickú anotáciu
  • korpus nárečových a diachrónnych textov
  • paralelný korpus
  • využitie lingvisticky anotovaných textov Slovenského národného korpusu pri tvorbe gramatiky založenej na korpuse

4.3. Textové zdroje

Zber dát bude sledovať princíp “čo najviac a čo najrozmanitejších textov”. Reprezentatívna vzorka písaných textov súčasného slovenského jazyka bude zostavená zhruba z jednej tretiny publicistických textov, jednej tretiny umeleckých textov a jednej tretiny odborných a populárno-náučných textov. Posledné dve skupiny by mali obsahovať približne po tretine preložených textov. Texty sa budú získavať predovšetkým v elektronickej podobe (bezprostredná súčasnosť), ale pokrytie produkcie predchádzajúcich desaťročí si bude vyžadovať manuálnu prácu pri skenovaní a prevode tlačených textov do elektronickej podoby, prípadne pri prepise textov do elektronickej podoby.

Literatúra
  • BENKO, Vladimír: Slovak Language Lexical Database. In: Computational Lexicography. Budapest: Research Institute for Linguistics Hungarian Academy of Sciences 1991, s. 5 – 8.
  • BENKO, Vladimír: Počítačové korpusy a analýza textu. In: Text a kontext. Zborník z medzinárodnej vedeckej konferencie. Text v priestore jazykovej komunikácie. Text v priestore literárnej komunikácie. Text v priestore didaktickej komunikácie. Prešov 18. – 19. novembra 1993. Red. F. Ruščák. Prešov: Pedagogická fakulta v Prešove Univerzity P. J. Šafárika v Košiciach 1993, s. 43 – 50.
  • BLANÁR, Vincent: Na záver sympózia o metódach výskumu a opisu lexiky slovanských jazykov. In: Metódy výskumu a opisu lexiky slovanských jazykov. Materiály zo sympózia konaného v rámci 7. zasadnutia Lexikologicko-lexikografickej komisie pri Medzinárodnom komitéte slavistov (Nové Vozokany 24. – 26. apríla 1989). Zost. V. Blanár. Bratislava: Jazykovedný ústav Ľ. Štúra SAV 1990, s. 289 – 292.
  • ČERMÁK, František: Jazykový korpus: prostředek a zdroj poznání. In: Studie z korpusové lingvistiky. Acta Universitatis Carolinae. Philologica 3 – 4. Praha: Univerzita Karlova – Nakladatelství Karolinum 2000, s. 15 – 37.
  • HORECKÝ, Ján: Projekt bázy dát slovenského jazyka. In: Metódy výskumu a opisu lexiky slovanských jazykov. Materiály zo sympózia konaného v rámci 7. zasadnutia Lexikologicko-lexikografickej komisie pri Medzinárodnom komitéte slavistov (Nové Vozokany 24. – 26. apríla 1989). Zost. V. Blanár. Bratislava: Jazykovedný ústav Ľ. Štúra SAV 1990, s. 251 – 253.
  • JAROŠOVÁ, Alexandra: Korpus textov slovenského jazyka. In: Slovenská reč, 1993, roč. 58, č. 2, s. 89 – 95.
  • LEECH, Geoffrey: The State of Art in Corpus Linguistics. In: English Corpus Linguistics. Studie in Honour of Jan Svartvik. London: Longman 1991, s. 8 – 29; český preklad V. Petkevič. In: Studie z korpusové lingvistiky. Acta Universitatis Carolinae. Philologica 3 – 4. Praha: Univerzita Karlova – Nakladatelství Karolinum 2000, s. 39 – 56.
  • Metódy výskumu a opisu lexiky slovanských jazykov. Materiály zo sympózia konaného v rámci 7. zasadnutia Lexikologicko-lexikografickej komisie pri Medzinárodnom komitéte slavistov (Nové Vozokany 24. – 26. apríla 1989). Zost. V. Blanár. Bratislava: Jazykovedný ústav Ľ. Štúra SAV 1990. 292 s.
  • Páleš, Emil: SAPFO. Parafrázovač slovenčiny. Bratislava: Veda 1994. 305 s.
  • Slovenčina a čeština v počítačovom spracovaní. Ed. A. Jarošová. Bratislava: Veda 2001. 196 s.
  • ŠIMKOVÁ, Mária: Možnosti využitia programu WordCruncher pri analýze textu (na báze Sládkovičovej a Kraskovej poézie a ľudových rozprávok). In: Text a kontext. Zborník z medzinárodnej vedeckej konferencie. Text v priestore jazykovej komunikácie. Text v priestore literárnej komunikácie. Text v priestore didaktickej komunikácie. Prešov 18. – 19. novembra 1993. Red. F. Ruščák. Prešov: Pedagogická fakulta v Prešove Univerzity P. J. Šafárika v Košiciach 1993, s. 51 – 58.
  • Šulc, Michal: Korpusová lingvistika. První vstup. Praha: Karolinum 1999. 94 s.
  • Text a kontext. Zborník z medzinárodnej vedeckej konferencie. Text v priestore jazykovej komunikácie. Text v priestore literárnej komunikácie. Text v priestore didaktickej komunikácie. Prešov 18. – 19. novembra 1993. Red. F. Ruščák. Prešov: Pedagogická fakulta v Prešove Univerzity P. J. Šafárika v Košiciach 1993. 291 s.