Budovanie korpusu

Budovanie korpusu má viacero etáp:

1. Získavanie súhlasov na iné použitie diel

Korpusy budované na vedecko-výskumné účely sú založené na nekomerčnej báze a texty do nich sa získavajú v súlade s príslušným autorským zákonom podľa zmluvne dohodnutých podmienok s autormi, vydavateľstvami alebo inými držiteľmi autorských či distribučných práv.

2. Zber dát 

Korpusový materiál sa získava najčastejšie priamo v elektronickej podobe, príp. prenesením
z internetu, ale aj technickým spracovaním (OCR) alebo zriedkavejšie prepisovaním textov.

3. Spracovanie korpusových dát

V prvej fáze ide najmä o technické čistenie textov, teda odstraňovanie znakov a symbolov editorov a programov, v ktorých texty vznikli, o odstraňovanie grafických súčastí textu (obrázky, tabuľky, grafy a pod.) a prevod textov do jednotného formátu, ktorý zaznamenáva štruktúrne vlastnosti textu. Súčasťou konverzie textov do jednotného formátu je tokenizácia – segmentácia textu na najmenšie jednotky (tvary slov a iné znaky v texte – tokeny, čiže textové jednotky). V nasledujúcej fáze sa tokenizovaný text zvyčajne značkuje (tagging) – textu sa pridajú ďalšie dodatočné informácie, ako sú bibliografické údaje o príslušnom texte, informácie o štruktúre textu, jazykové informácie na úrovni slov (napr. slovný druh, základný tvar slova – lema), jazykové informácie na úrovni viet (funkcia vo vete, sémantika) a pod.