Obsah a zdroje korpusov

KORPUS NIE JE ELEKTRONICKÁ KNIŽNICA, ANI NENAHRÁDZA KODIFIKAČNÉ PRÍRUČKY

Korpusový materiál sa získava najčastejšie priamo v elektronickej podobe, sporadickejšie technickým spracovaním vydaného tlačeného diela. Následne prebiehajú technické fázy, napríklad odstraňovanie znakov a symbolov editačných softvérov alebo grafických súčastí textu, konverzia do jednotného formátu, segmentácia textu na najmenšie jednotky atď. Takto segmentovaný text sa môže ďalej značkovať podľa typu korpusu – pridajú sa dodatočné informácie, ako sú bibliografické údaje, informácie o štruktúre textu, jazykové informácie na úrovni slov (napr. slovný druh, základný tvar slova – lema) alebo na úrovni viet (funkcia vo vete, sémantika) a pod.

Písané Korpusy

  • Hlavný korpus prim a špecializované korpusy

Do korpusov písaných textov sa zaraďujú elektronicky spracované texty podľa typu zamerania korpusu. Hlavný korpus, označený ako prim, obsahuje písané texty súčasného slovenského jazyka
z rôznych štýlov, žánrov, vecných oblastí, regiónov a pod., ktoré vznikli po roku 1955. Nevyhnutnou podmienkou zaradenia textu do korpusu je získanie súhlasu jeho autora alebo držiteľa autorských práv, ktorý je zakotvený v licenčnej zmluve. Rovnako to platí aj o špecializovaných korpusoch (napr. o korpuse ekonomických textov), nie však o korpusoch obsahujúcich texty právnych predpisov, úradných či súdnych rozhodnutí, keďže na ne sa slovenský autorský zákon nevzťahuje.

Všetkým poskytovateľom patrí veľká vďaka za ochotu spolupracovať na projekte Slovenského národného korpusu a poskytnúť texty na (nielen) lingvistický výskum.

  • Nárečový korpus

Do korpusu nárečí SNK sa zaraďujú existujúce, predovšetkým už publikované textové prepisy nárečových zvukových alebo transkribovaných záznamov v elektronickom formáte. Ich jednotné spracovanie korpusovou metodikou a nástrojmi, obohatenie textov o sociolingvistické údaje o informátoroch a explorátoroch, ako aj informácie o pôvode a obsahu nahrávky umožňujú komplexný nárečový výskum.

  • Historické korpusy

Oddelenie SNK ponúka tri korpusy obsahujúce texty v slovenskom jazyku, ktoré vznikli pred rokom 1955. Do prvých dvoch korpusov r864az1843-1.0 a r1843az1954-1.0 boli zaradené korpusovo spracované texty z publikácií dostupných v Zlatom fonde SME vďaka spolupráci so spoločnosťou Petit Press, a. s. Významným rozdielom oproti tretiemu korpusu historických textov je fakt, že obsahujú texty v prepise podľa gramatických zásad spisovnej slovenčiny v čase vydania a podľa zásad editorov, resp. vydavateľstiev.

Pre Historický korpus slovenčiny sa vyberali a korpusovo spracovali pramenné materiály v pôvodnom pravopise, vydané predovšetkým v publikáciách Pramene k dejinám slovenčiny,
v menšom meradle sa v rámci projektu Slovenského národného korpusu prepisujú dosiaľ nepublikované historické texty.

  • Webový korpus

Jednotlivé verzie webového korpusu obsahujú slovenské texty dostupné na webovej stránke, ktoré boli v jednotlivých rokoch automaticky stiahnuté a následne spracované. Základom prvej verzie webového korpusu z roku 2010 boli dáta poskytnuté na základe spolupráce s Fakultou informatiky MU v Brne. Od tretej verzie webového korpusu majú pracovníci SNK neoceniteľnú možnosť využívať dáta projektu Araneum.

  • Paralelné korpusy

Každý paralelný korpus obsahuje identické texty v dvoch rôznych jazykoch, pričom môže ísť o vzájomné preklady, alebo preklady z tretieho jazyka. Slovenské texty, v prevažnej väčšine preklady, sú do týchto korpusov zaraďované na základe licenčnej zmluvy, cudzojazyčné texty sa pre tento účel získavajú z internetových zdrojov. Na časť zaradených textov do anglicko-slovenského, bulharsko-slovenského, česko-slovenského, francúzsko-slovenského, maďarsko-slovenského a nemecko-slovenského paralelného korpusu sa autorské práva nevzťahujú, keďže ide o texty európskej legislatívy.

Texty v paralelných korpusoch SNK sú spárované na úrovni viet. Hoci každý paralelný korpus oddelenia SNK ponúka obojstranné vyhľadávanie, neznamená to, že v smere zo slovenčiny do cudzieho jazyka ide vždy o originálne slovenské texty a v opačnom smere o originálne cudzojazyčné texty. V prípade veľkých jazykov, ako je angličtina, nemčina či francúzština, je pôvodným jazykom takmer alebo úplne všetkých textov práve cudzí jazyk. Pomer pôvodného
a prekladového jazyka textov je pri ostatných paralelných korpusoch rôzny – napríklad pri slovensko-českom paralelnom korpuse tvoria vyše 53 % texty, ktorých pôvodný jazyk je slovenčina, kým čeština je pôvodným jazykom len vyše 20 % textov.

Hovorené KORPUSy

Hovorený korpus pozostáva zo zvukových nahrávok prepojených s príslušným prepisom zaznamenaných prehovorov. Pri prepisoch je vždy uvedená sociolingvistická informácia o respondentoch a základné informácie o pôvode a obsahu nahrávky. Tieto nahrávky buď vytvorili pracovníci Slovenského národného korpusu priamo „v teréne“, alebo ich do projektu SNK poskytli zo svojich archívov viaceré inštitúcie.

Okrem základného prepisu výpovedí, ktoré sa zapisujú v súlade s pravidlami spisovnej slovenčiny rovnako ako pri písanom texte (napr. divadelné a filmové scenáre, dialógy v beletrii, prepisy interview v novinách), sa v druhej, tzv. výslovnostnej rovine, zachytávajú sprievodné, neverbálne javy, ale aj prekrývajúce sa, nedokončené či opakujúce sa výpovede alebo ich časti, lapsusy a pod. Zároveň sa zaznamenávajú veľmi výrazné odchýlky hovoriacich od bežného štandardu v prípade ne/mäkčenia, ne/dĺženia, ne/spodobovania, pričom sa berie do úvahy profil respondenta. Zo suprasegmentálnych javov sa značia pauzy a expresívna kvantita, melódia iba v podobe základnej koncovej interpunkcie.