Typy korpusov

Jednotlivé korpusy sa líšia viacerými parametrami, predovšetkým:

1. jazykom

  • jednojazyčné korpusy – v súčasnosti existujú korpusy pre desiatky rôznych jazykov (národné korpusy)
  • dvoj- a viacjazyčné (paralelné) korpusy – rovnaké texty v dvoch alebo viacerých jazykoch (zvyčajne originál a preklad/preklady)

2. zaznamenanou formou jazyka

  • popri najčastejších korpusoch písaných textov existujú aj korpusy hovoreného jazyka

3. veľkosťou

  • prvé korpusy (do r. 1975) disponovali zvyčajne menej ako 1 miliónom slovných tvarov, v súčasnosti viaceré korpusové celky obsahujú miliardy slov

4. typom textov

  • korpusy môžu byť všeobecné (nešpecifické, základné, s cieľom postihnúť všetky jazykové prostriedky daného jazyka) alebo špecializované na určitý typ textov či jazykových javov (korpus textov jedného autora; korpus neformálnych prejavov; korpus najnovších textov s cieľom postihnúť neologizmy a pod.)

5. spôsobom uloženia

  • korpusy môžu byť uložené v základnej textovej podobe bez lingvistických informácií alebo lematizované (každé slovo má priradený základný, slovníkový tvar) a morfologicky, syntakticky, príp. sémanticky či štylisticky anotované

6. obdobím, z ktorého texty pochádzajú

  • korpusy konkrétneho jazyka v jeho súčasnej vývinovej fáze sa označujú ako synchrónne, prierez starších vývinových fáz zahŕňajú korpusy diachrónne

 

Jednou z dôležitých vlastností korpusov je ich reprezentatívnosť alebo vyváženosť. Reprezentatívne korpusy sa zameriavajú na prezentáciu národného jazyka v celom rozsahu, pri ich budovaní sa kladie veľký dôraz na zastúpenie rozličných jazykových variet, typov a žánrov textov z rozličných časových období a od rozličných autorov v presne (na základe sociolingvistických výskumov) stanovených rozsahoch. Vo vyváženom korpuse ide o rovnomerné zastúpenie textov podľa hlavných štýlov, ostatné parametre (žánre, vecné oblasti, autorské školy a pod.) sa zvyčajne iba registrujú.