ERRKORP – korpus textov študentov učiacich sa slovenčinu ako cudzí jazyk

Projekt budovania korpusu textov študentov učiacich sa slovenčinu ako cudzí jazyk (ERRKORP) sa realizuje v rámci spolupráce medzi dvoma pracoviskami – Oddelením Slovenského národného korpusu Jazykovedného ústavu Ľ. Štúra SAV v Bratislave a Studia Academica Slovaca – centrum pre slovenčinu ako cudzí jazyk na Filozofickej fakulte Univerzity Komenského v Bratislave. Projekt sa rozvíja od roku 2017. Jeho cieľom je vybudovať korpusovo spracovanú textovú bázu, ktorá má slúžiť na analýzu chýb študentov učiacich sa slovenčinu ako cudzí jazyk so zameraním na jednotlivé jazykové úrovne, ale aj s ohľadom na východiskový/prvý jazyk študenta, s prihliadnutím na ďalšie osvojené jazyky a pod. Korpus bude verejne bezplatne prístupný nielen členom projektového kolektívu, ale aj ďalším záujemcom o vyučovanie slovenčiny ako cudzieho jazyka a všetkým registrovaným používateľom SNK v rámci ponuky textových korpusov v nástroji NoSketch Engine.
V roku 2020 získal projekt podporu grantovej agentúry APVV a jeho budovanie je súčasťou širšieho zámeru projektu Jazykové chyby v slovenčine ako cudzom jazyku na báze akvizičného korpusu (APVV-19-0155).

Hlavné ciele projektu:

  • vybudovať akvizičný korpus slovenských textov produkovaných nerodenými hovoriacimi s rôznou úrovňou jazykovej kompetencie, ktorý bude slúžiť na vedeckovýskumné ciele v oblasti aplikovanej lingvistiky a didaktiky slovenčiny ako cudzieho (a druhého) jazyka;
  • s využitím korpusových nástrojov analyzovať jazykové chyby v písaných textoch z rôznych lingvodidaktických aspektov (frekventované a ojedinelé chyby na jednotlivých úrovniach jazykovej kompetencie, frekventované a ojedinelé chyby v prípade študentov s rovnakým východiskovým/materinským jazykom);
  • sprístupniť vybudovaný anotovaný akvizičný korpus odborníkom v oblasti aplikovanej aj všeobecnej lingvistiky, didaktiky cudzích jazykov, lektorom a učiteľom SakoCJ, ale aj iným záujemcom o výučbu SakoCJ;
  • využiť získané výsledky pri tvorbe jazykových testov a ďalších výučbových materiálov;
  • na základe získaných výstupov konfrontovať používané lingvodidaktické metódy a lingvodidaktickú postupnosť vo výučbe SakoCJ so získanými korpusovými výsledkami;
  • skvalitniť odborno-metodickú prípravu lektorov a učiteľov SakoCJ.

Kolektív riešiteľov APVV projektu sa skladá z pracovníkov oddelenia Slovenského národného korpusu Jazykovedného ústavu Ľ. Štúra SAV v Bratislave (K. Gajdošová, J. Levická, J. Mášik, K. Rausová; do roku 2020 aj L. Klimová, M. Šimková) z pracovníkov a spolupracovníkov Studia Academica Slovaca Filozofickej fakulty Univerzity Komenského v Bratislave (J. Pekarovičová, M. Mošaťová, H. Ľos Ivoríková, P. Kollárová) a kolegýň z partnerských inštitúcií Filozofickej fakulty Prešovskej univerzity v Prešove (M. Imrichová, M. Kyseľová, M. Ivanová) a Filozofickej fakulty Univerzity Mateja Bela v Banskej Bystrici (A. Gálisová, L. Urbancová). Textové zdroje sa do projektu získavajú aj prostredníctvom osobnej angažovanosti lektorov slovenského jazyka a kultúry na lektorátoch slovenského jazyka a kultúry na rôznych univerzitách a vysokých školách v zahraničí. Medzi významných poskytovateľov textov patrí aj Útvar pre jazykovú a odbornú prípravu cudzincov a krajanov Centra ďalšieho vzdelávania Univerzity Komenského v Bratislave.

Druhá verzia korpusu s názvom errkorp-2.0 bola sprístupnená 26. 6. 2024 v rozsahu 727 668 tokenov. Obsahuje 2 185 textov študentov učiacich sa slovenčinu ako cudzí jazyk s rôznymi materinskými jazykmi a úrovňami znalosti slovenčiny. Táto aj všetky predchádzajúce verzie korpusu sú automaticky lematizované aj morfologicky anotované nástrojom MorphoDiTa natrénovanom v SNK na báze tagsetu používaného pri písaných
korpusoch.
 

Prvá verzia korpusu errkorp-1.0 bola sprístupnená 15. 6. 2023 v rozsahu 347 395 tokenov. Obsahuje 1 063 textov študentov učiacich sa slovenčinu ako cudzí jazyk s rôznymi materinskými jazykmi a úrovňami znalosti slovenčiny. Táto verzia obsahuje na úrovni manuálnej anotácie značkovaných chýb kvalitatívne vylepšené dáta z pilotnej verzie korpusu a nové doplnené dáta.

Pilotná verzia korpusu errkorp-pilot bola sprístupnená 5. 8. 2022 v rozsahu 137 393 tokenov.
 
Viac informácií: