Budovanie Slovenského národného korpusu a elektronizácia jazykovedného výskumu na Slovensku (druhá a tretia etapa)

  • Objednávateľ: Ministerstvo školstva, vedy, výskumu a športu SR, Ministerstvo kultúry SR, SAV
  • Zmluva o spolupráci č. 0372/2012
  • Zodpovedná riešiteľka: PhDr. Mária Šimková, Ph.D.
  • Doba riešenia: 2007 – 2011, 2012 – 2016

Rámcový harmonogram riešenia úloh

Priebežne v r. 2012 – 2016

Dopĺňanie všeobecného korpusu a paralelných korpusov aktuálnymi textami. Dopĺňanie morfologického slovníka, skvalitňovanie anotácií, anotačných a vyhľadávacích nástrojov. Zhromažďovanie a spracúvanie odborných textov pre databázu termínov vybraných vedných odborov, dopĺňanie Slovenskej terminologickej databázy. Zhromažďovanie a prepisovanie zvukových záznamov do Slovenského hovoreného korpusu a nárečového korpusu. Technické a lingvistické spracúvanie originálnych zdrojov do historického korpusu. Zabezpečovanie korpusov a databáz efektívnymi a aktuálnymi nástrojmi vhodnými na lingvistické využitie i počítačové spracovanie prirodzeného jazyka.

Priebežne v r. 2007 – 2011

Dopĺňanie všeobecného korpusu aktuálnymi textami pre potreby koncipovania výkladového Slovníka súčasného slovenského jazyka a pre potreby prípravy ďalších lexikografických a gramatických príručiek (napr. Pravidlá slovenského pravopisu, morfologické a syntaktické opisy slovenského jazyka, valenčný slovník) – min. 600 mil. textových jednotiek do roku 2011. Dolaďovanie a dopĺňanie ručne lingvisticky anotovaných podkorpusov, morfologického slovníka a príslušných nástrojov. Zhromažďovanie a spracúvanie odborných textov na prípravu databázy termínov vybraných vedných odborov, dopĺňanie terminologickej databázy. Sprístupňovanie celej elektronickej databázy na internete na vedecko-výskumné a učebné využitie pre slovenských i zahraničných bádateľov. Zabezpečovanie korpusu efektívnymi a aktuálnymi vyhľadávacími nástrojmi vhodnými na lingvistické využitie i počítačové spracovanie prirodzeného jazyka.

2016

Sprístupnenie rozšírenej verzie nárečového korpusu, historického korpusu a Slovenského hovoreného korpusu. Sprístupnenie rozšírenej verzie Slovenskej terminologickej databázy. Príprava Frekvenčného slovníka hovorenej slovenčiny. Príprava monografie o dynamike súčasnej slovenčiny na základe korpusových dát.

2015

Sprístupnenie novej rozšírenej verzie Slovenského národného korpusu a webového korpusu slovenčiny. Príprava slovesnej časti Slovníka spájateľnosti v slovenčine. Finálna podoba Retrográdneho slovníka súčasnej slovenčiny.

2014

Vybudovanie a sprístupnenie paralelného slovensko-nemeckého a slovensko-maďarského korpusu. Sprístupnenie novej verzie nárečového a historického korpusu a rozšírenej verzie Slovenského hovoreného korpusu. Vybudovanie a sprístupnenie korpusu slovenských textov spred r. 1955. Sprístupnenie rozšírenej verzie Slovenskej terminologickej databázy. Príprava finálnej podoby adjektívnej časti Slovníka spájateľnosti v slovenčine.

2013

Koncepcia tvorby a anotácie nárečového korpusu v kooperácii s Dialektologickým oddelením JÚĽŠ SAV. Sprístupnenie pilotnej verzie nárečového korpusu. Sprístupnenie novej verzie slovenského elektronického slovníka WordNet. Tvorba a vydanie gramatických príručiek s plnými paradigmami podstatných mien a slovies (pre školu a prax, ako aj pre cudzincov učiacich sa po slovensky). Dokončenie Frekvenčného slovníka súčasnej slovenčiny.

2012

Koncepcia tvorby a anotácie historického korpusu v kooperácii s Oddelením dejín slovenčiny, onomastiky a etymológie JÚĽŠ SAV. Sprístupnenie pilotnej verzie historického korpusu. Vybudovanie a sprístupnenie paralelného slovensko-latinského korpusu. Sprístupnenie novej rozšírenej verzie Slovenského národného korpusu, webového korpusu slovenčiny a Slovenského hovoreného korpusu. Vydanie príručky korpusovej lingvistiky.

2011

Nová verzia všeobecného korpusu písaných textov v rozsahu 600 mil. textových jednotiek. Vybudovanie a sprístupnenie pilotného korpusu hovorených komunikátov v rozsahu cca 2 mil. textových jednotiek.

2010

Dobudovanie Slovenského národného korpusu z hľadiska reprezentatívneho zastúpenia štýlov, žánrov a časových období – cca 100 mil. textových jednotiek vo verzii SNK2010 s morfologickou anotáciou celého korpusu a syntaktickou anotáciou vybraných textov. Zber a prepis dát pre hovorený korpus.

2009

Vytvorenie Frekvenčného slovníka súčasnej slovenčiny a Retrográdneho slovníka súčasnej slovenčiny na báze korpusu písaných textov. Prvá verzia Slovenskej terminologickej databázy. Zber a prepis dát pre hovorený korpus.

2008

Vybudovanie paralelného korpusu slovensko-českého a česko-slovenského v rozsahu min. 5 mil. textových jednotiek pre potreby koncipovania prekladového slovníka a porovnávacích výskumov. Vytvorenie príslušných nástrojov na zarovnávanie textov, automatizované označkovanie oboch textov a ich efektívne využívanie. Vytvorenie slovenského elektronického slovníka WordNet a integrácia do projektu EuroWordNet (sémantický slovník viacerých európskych jazykov). Zber a prepis dát pre hovorený korpus.

2007

Dokončenie ručnej lingvistickej anotácie: ručne morfologicky anotovaný korpus do rozsahu 1,2 mil. textových jednotiek, syntakticky anotovaný korpus do rozsahu 50 tis. viet. Vývoj príslušných nástrojov na automatizované spracúvanie slovenčiny ako prirodzeného jazyka (analyzátor a generátor tvarov slovenského jazyka, morfologický lematizátor, anotátor a dezambiguátor). Koncepcia korpusu hovorených komunikátov.