ERRKORP – korpus textov študentov učiacich sa slovenčinu ako cudzí jazyk

Projekt budovania korpusu textov študentov učiacich sa slovenčinu ako cudzí jazyk (ERRKORP) sa realizoval v rámci spolupráce medzi dvoma pracoviskami – Oddelením Slovenského národného korpusu Jazykovedného ústavu Ľ. Štúra SAV v Bratislave a Studia Academica Slovaca – centrum pre slovenčinu ako cudzí jazyk na Filozofickej fakulte Univerzity Komenského v Bratislave.

Projekt sa rozvíjal v rokoch 2017 – 2024. Jeho cieľom bolo vybudovať korpusovo spracovanú textovú bázu, ktorá slúži na analýzu chýb študentov učiacich sa slovenčinu ako cudzí jazyk so zameraním na jednotlivé jazykové úrovne, ale aj s ohľadom na východiskový/prvý jazyk študenta, s prihliadnutím na ďalšie osvojené jazyky a pod. Korpus je bezplatne prístupný nielen členom projektového kolektívu, ale aj ďalším záujemcom o vyučovanie slovenčiny ako cudzieho jazyka a všetkým registrovaným používateľom SNK v rámci ponuky textových korpusov v nástroji NoSketch Engine.
V roku 2020 získal projekt podporu grantovej agentúry APVV a jeho budovanie sa stalo súčasťou širšieho zámeru projektu Jazykové chyby v slovenčine ako cudzom jazyku na báze akvizičného korpusu (APVV-19-0155).

Hlavné ciele projektu:

  • vybudovať akvizičný korpus slovenských textov produkovaných nerodenými hovoriacimi s rôznou úrovňou jazykovej kompetencie, ktorý bude slúžiť na vedeckovýskumné ciele v oblasti aplikovanej lingvistiky a didaktiky slovenčiny ako cudzieho (a druhého) jazyka;
  • s využitím korpusových nástrojov analyzovať jazykové chyby v písaných textoch z rôznych lingvodidaktických aspektov (frekventované a ojedinelé chyby na jednotlivých úrovniach jazykovej kompetencie, frekventované a ojedinelé chyby v prípade študentov s rovnakým východiskovým/materinským jazykom);
  • sprístupniť vybudovaný anotovaný akvizičný korpus odborníkom v oblasti aplikovanej aj všeobecnej lingvistiky, didaktiky cudzích jazykov, lektorom a učiteľom SakoCJ, ale aj iným záujemcom o výučbu SakoCJ;
  • využiť získané výsledky pri tvorbe jazykových testov a ďalších výučbových materiálov;
  • na základe získaných výstupov konfrontovať používané lingvodidaktické metódy a lingvodidaktickú postupnosť vo výučbe SakoCJ so získanými korpusovými výsledkami;
  • skvalitniť odborno-metodickú prípravu lektorov a učiteľov SakoCJ.

Kolektív riešiteľov APVV projektu sa skladal z pracovníkov oddelenia Slovenského národného korpusu Jazykovedného ústavu Ľ. Štúra SAV v Bratislave (K. Gajdošová, J. Levická, J. Mášik, K. Rausová; do roku 2020 aj L. Klimová, M. Šimková) z pracovníkov a spolupracovníkov Studia Academica Slovaca Filozofickej fakulty Univerzity Komenského v Bratislave (J. Pekarovičová, M. Mošaťová, H. Ľos Ivoríková, P. Kollárová) a kolegýň z partnerských inštitúcií Filozofickej fakulty Prešovskej univerzity v Prešove (M. Imrichová, M. Kyseľová, M. Ivanová) a Filozofickej fakulty Univerzity Mateja Bela v Banskej Bystrici (A. Gálisová, L. Urbancová). Textové zdroje sa do projektu získavali aj prostredníctvom osobnej angažovanosti lektorov slovenského jazyka a kultúry na lektorátoch slovenského jazyka a kultúry na rôznych univerzitách a vysokých školách v zahraničí. Medzi významných poskytovateľov textov patril aj Útvar pre jazykovú a odbornú prípravu cudzincov a krajanov Centra ďalšieho vzdelávania Univerzity Komenského v Bratislave.

V rámci projektu APVV boli používateľom sprístupnené nasledujúce verzie korpusu: errkorp-pilot (2022), errkorp-1.0 (2023), errkorp-2.0 (2024):

Pilotná verzia korpusu errkorp-pilot bola sprístupnená dňa 5. 8. 2022 v rozsahu 137 393 tokenov.

Prvá verzia korpusu errkorp-1.0 bola sprístupnená dňa 15. 6. 2023 v rozsahu 347 395 tokenov. Obsahuje 1 063 textov študentov učiacich sa slovenčinu ako cudzí jazyk s rôznymi materinskými jazykmi a úrovňami znalosti slovenčiny. Táto verzia obsahuje na úrovni manuálnej anotácie značkovaných chýb kvalitatívne vylepšené dáta z pilotnej verzie korpusu a nové doplnené dáta.

Druhá verzia korpusu s názvom errkorp-2.0 bola sprístupnená dňa 26. 6. 2024 v rozsahu 727 668 tokenov. Obsahuje 2 185 textov študentov učiacich sa slovenčinu ako cudzí jazyk s rôznymi materinskými jazykmi a úrovňami znalosti slovenčiny.

Po skončení projektu APVV (jún 2024) hostuje ďalej jednotlivé verzie korpusu Oddelenie Slovenského národného korpusu Jazykovedného ústavu Ľ. Štúra SAV, ktoré v rámci projektu Tvorba a rozvoj Slovenského národného korpusu (V. etapa) pripravilo 3. verziu korpusu. Tá bola sprístupnená registrovaným používateľom SNK dňa 26. 1. 2026 v rozsahu 953 156 tokenov. Obsahuje 3 054 textov študentov učiacich sa slovenčinu ako cudzí jazyk s rôznymi materinskými jazykmi a úrovňami znalosti slovenčiny. Táto aj všetky predchádzajúce verzie korpusu sú automaticky lematizované aj morfologicky anotované nástrojom MorphoDiTa natrénovanom v SNK na báze tagsetu používaného pri písaných korpusoch.

Viac informácií: