Anotácia k riešeniu úlohy výskumu a vývoja


Názov úlohy: Komplexné spracovanie slovenského jazyka a jeho elektronizácia na účely jazykovedného výskumu

Číslo úlohy: 2003SP200280307

Názov štátneho programu: Aktuálne otázky rozvoja spoločnosti

Dodávateľ riešenia úlohy: Jazykovedný ústav Ľ. Štúra SAV Bratislava

Zodpovedný riešiteľ: PhDr. Mária Šimková

Číslo odboru VaV podľa číselníka odborov: 060208, 010208

Kľúčové slová: korpus, korpusová lingvistika, jazykové technológie, tokenizácia, lematizácia, lingvistická anotácia, tagset, konverzia, reprezentatívnosť korpusu, terminologická databáza, elektronizácia jazykovedného výskumu, paralelné korpusy


Úloha Komplexné spracovanie slovenského jazyka a jeho elektronizácia na účely jazykovedného výskumu sa riešila v Jazykovednom ústave Ľ. Štúra SAV v Bratislave od 1. 7. 2003 do 31. 12. 2006. Zmluvne dohodnutým výsledkom riešenia úlohy za celé obdobie trvania zmluvy je lingvisticky anotovaný 200-miliónový reprezentatívny korpus textov súčasného slovenského jazyka prístupný verejnosti na internete a koncepcia a čiastkové riešenia elektronizácie jazykovedného výskumu na Slovensku. S ním súvisí požadovaný obsah riešenia v tomto rozsahu: sociolingvistická analýza štýlovo-žánrovej distribúcie textov a adekvátna stratifikácia textov v Slovenskom národnom korpuse; získavanie textov na základe Zmluvy o inom použití diela; technické spracúvanie textov, testovanie existujúceho (zahraničného) softvéru, postupný vývoj vlastného softvéru; koncepčná príprava a realizácia lingvistického anotovania textov; príprava viacerých špecializovaných podkorpusov a databáz.

Cieľ sprístupniť 200-miliónový korpus textov bol prekročený takmer dvojnásobne. Na vytvorenie, sprístupnenie a prevádzkovanie korpusu bolo nevyhnutné vypracovať celkovú koncepciu, ako aj zásady pre jednotlivé oblasti získavania a spracúvania textov, testovať zahraničné počítačové nástroje a vyvíjať vlastné podľa aktuálneho stavu vývoja informačných technológií a špecifík slovenského jazyka.

Podľa plánu pokračovalo vyvažovanie korpusu a dopĺňanie chýbajúcich druhov textov. Štýlovo vyvážený korpus z poslednej verzie dosahuje hranicu 200 miliónov tokenov a možno ho považovať za prvú verziu reprezentatívneho korpusu textov súčasného slovenského jazyka. Tento podkorpus bude distribuovaný aj na CD a DVD nosičoch predovšetkým na výučbové využitie.

Koncepčná príprava a realizácia lingvistického anotovania textov: morfologická a syntaktická anotácia prebehli v plnom rozsahu podľa požadovaného obsahu riešenia. Vývojom morfologického analyzátora pre slovenčinu sa doplnil a rozšíril aj vývoj vlastného softvéru.

Zredukovanie posledného súboru úloh na tri umožnilo riešiteľskému kolektívu bezo zbytku splniť aj tento bod požadovaného obsahu riešenia. Slovenská terminologická databáza má za sebou prípravnú fázu, databáza lexikografických diel obsahuje s lingvistickými zdrojmi dohromady 12 základných položiek (nepočítame jednotlivé zväzky niektorých diel či čísla časopisov a zborníkov) a predstavuje vynikajúci zdroj informácií o slovenskom jazyku a jeho výskume. Obidve databázy sú dôležitými a všeobecne využiteľnými zložkami elektronizácie jazykovedného výskumu na Slovensku. Paralelné korpusy sú zatiaľ sprístupnené dva a môžu slúžiť na komparatívne výskumy, ako aj na výučbové využitie pre cudzincov alebo translatológov.

Napriek istým obmedzeniam a problémom s priebežným financovaním riešenia úlohy štátneho programu výskumu a vývoja Komplexné spracovanie slovenského jazyka a jeho elektronizácia na účely jazykovedného výskumu vytvorili pracovníci oddelenia Slovenského národného korpusu dobrý základ na systematický rozvoj odboru počítačová či korpusová lingvistika na Slovensku a na počítačové spracovanie slovenčiny ako prirodzeného jazyka.


Počet strán:

301

Počet príloh:

31

Počet výkresov:

Počet výtlačkov:

13