Bibliografická a štýlovo-žánrová anotácia
Bibliografická a štýlovo-žánrová anotácia je nevyhnutnou súčasťou prvotného spracovania textov v korpuse. Informácie o identite a základnej štruktúre textu sú dôležité pri jeho archivovaní, pri citovaní používateľmi, pri štatistickom vyhodnocovaní parametrov celého korpusu či zisťovaní distribúcie jazykových prostriedkov a javov v jednotlivých druhoch textov. Zobrazuje sa v spodnej časti okna klienta Bonito po kliknutí pravým tlačidlom myši na zvolený riadok v konkordančnom zozname. Anotáciu tvorí zoznam kľúčov a im priradených hodnôt, ktoré sú buď voľné (napr. meno autora), alebo vybrané z fixnej množiny povolených hodnôt (napr. žáner). Kľúče môžu označovať štýlovo-žánrové charakteristiky textu — hlavnými kategóriami sú v tomto prípade typ textu (umelecký, publicistický, odborný text, live komunikácia), žáner (napr. báseň, román, poviedka, článok) a doména, teda vecná oblasť, ktorej sa daný text týka (napr. umelecké vedy, právo, politika, ekonómia). Tieto hlavné kategórie sa ďalej delia na podkategórie. Ostatné kľúče zaznamenávajú bibliografické údaje a iné vlastnosti textu či informácie o autorovi. Zoznam kľúčov v plnom i skrátenom názve je v nasledujúcej tabuľke. Pod príslušným názvom kľúča sa nachádza opis jeho významu a vymenúvajú sa jeho možné hodnoty (ak nie sú voľné).
Zápis dátumu
Všetky dátumy sú v ISO 8601 formáte YYYY-MM-DD, príklad 1998-05-23. Odôvodnenie: odstránenie nejednoznačnosti, ľahké triedenie podľa dátumu
Externá anotácia
Anotácia je tvorená štruktúrou kľúč-hodnota. Hodnota je vždy zapísaná ako reťazec znakov ukončený koncom riadku. Toto vylučuje viacriadkové názvy. Hodnota môže byť buď voľná (príklad: meno autora) alebo vybraná z fixnej množiny povolených hodnôt (príklad: žáner). Nepovinné flags sú tvorené množinou flagov oddelených čiarkami, z ktorých prítomnosť každého určuje konkrétnu vlastnosť hodnoty, neprítomnosť zase neprítomnosť tejto vlastnosti.Tieto hodnoty majú špeciálny význam (nie pre každý kľúč sú všetky zmysluplné):
- ... (tri bodky)
- neurčená hodnota. Túto hodnotu sme neurčovali, prípadne ju môžeme určiť neskôr, ale apriori o nej nič nevieme povedať. Pre úplnosť, nemala by sa objaviť v skutočnej anotácii.
- (prázdne miesto, prípadne iba whitespace)
- to isté ako „...“. Default hodnota pri automatickej anotácii, predpokladá sa, že sa naozaj bude vyskytovať.
- chýbajúci kľúč
- má rovnakú hodnotu ako kľúč neurčený („...“ alebo prázdny)
- XXX
- neznáma hodnota. Nevieme určiť. Príklad: meno autora v novinovom článku.
- YYY
- neurčiteľná hodnota. Z princípu sa nedá určiť alebo nemá význam. Príklad: pohlavie autora, ak ide o kolektívne dielo, pohlavie prekladateľa, ak nejde o preložené dielo.
- MIX
- mix. V prípade hodnoty vyberanej z fixnej množiny je hodnota zmes iných. Príklad: pohlavie autora, ak je autor hermafrodit.
- MSS
- iné. V prípade hodnoty vyberanej z fixnej množiny, hodnota, ktorá nie je v danej množine určená. Príklad: pohlavie autora, ak je autor eunuch.
- TTT
- neznáma hodnota, ktorú treba určiť. Značka, že k danej anotácii sa nevyhnutne treba neskôr vrátiť a hodnotu doplniť.
Anotácia banky
žiadny z týchto kľúčov nie je povinné mať presne, okrem SourceId. Zoznam kľúčov je v tvare názov (skrátený názov). Pod príslušným názvom kľúča je opísaný jeho význam a vymenované sú jeho možné hodnoty (ak nie sú voľné).
Name (Name)
- názov textu.
Origname (OrgN)
- pôvodný názov textu, ak ide o preklad.
Author (Auth)
- meno autora. Tak, ako je uvedené v zdrojoch k dokumentu podľa normy pre bibliografické zápisy.
Origauthor (OrgA)
- originálne meno autora. Nie podľa slovenských bibliografických pravidiel. Z technických/časových dôvodov zrejme zostane väčšinou prázdne. Príklad: „Mirosława Siędzikowska“, ak bolo v položke Author: chybne uvedené v dokumente „Miroslava Siędzikowska“.
Translator (Trnr)
- meno prekladateľa. YYY, ak nejde o preložené dielo.
Translation (Trnn)
- určuje, či bol text preložený.
Hodnoty:
- trn
- preklad
- org
- originálny text
- ftr
- voľne preložený, prerozprávaný text
- YYY
- zmes prekladov a originálov (napr. súbor poviedok)
ISBN (ISBN)
- isbn číslo.
ISSN (ISSN)
- issn číslo.
SourceId (ScId)
- Id dokumentu v archíve, z ktorého pochádza dokument v banke.
Id (Id)
- Jednoznačné ID banky.
Rhyme (Rhym)
- rýmovanie v texte.
Hodnoty:
- nrh
- nerýmovaný
- rhy
- rýmovaný
- MIX
- sčasti rýmovaný a sčasti nie
Type (Type)
- typ textu.
Hodnoty:
- img
- umelecký text
- inf
- publicistický (informatívny) text
- prf
- odborný text
- liv
- live komunikácia
Subtype (SubT)
- podtyp textu.
Subtype (SubT) podtyp textu — hodnoty |
|||
pre Type = img |
pre Type = inf |
pre Type = prf |
pre Type = liv |
(umelecký text) |
(publicistický, informatívny text) |
(odborný text) |
(live komunikácia) |
poe |
pub |
sci |
spk |
pro |
adv |
pop |
wri |
dra |
adm |
txb |
|
|
|
enc |
|
|
|
man |
|
Genre (Genr)
- žáner.
Genre (Genr) žáner — hodnoty |
||
pre Type = img |
pre Type = inf |
pre Type = prf |
(umelecký text) |
(publicistický, informatívny text) |
(odborný text) |
ver |
doc (dokumentárne) |
mon |
son |
ann (oznamovacie) |
hnd |
scd |
lst (heslovité) |
dis |
scf |
rpt (spravodajské) |
rig |
scr |
anl (analytické) |
dpl |
nov |
pbb (beletristické) |
std |
col |
spc |
abs |
ess |
dsc |
tcl |
dia |
|
rfl |
mem |
|
ref |
let |
|
lct |
chr |
|
crs |
sen |
|
crt |
|
|
opn |
|
|
ins |
Subgenre (SubG)
Hodnoty:
pre Genre: nov, col, ver, (ess - nie)
- crm
- detektívny, špionážny
- scf
- sci-fi, fantasy, mystery
- adn
- dobrodružný, westerny
- rms
- ženské romány, romance
- bel
- beletria
- jun
- pre deti a mládež
- trv
- cestopisy
- fac
- literatúra faktu
Domain (Domn)
- doména — tematická oblasť (činnosti alebo poznania).
Hodnoty:
- ars
- umelecké vedy
- hum
- humanitné vedy
- law
- právo
- nat
- prírodné vedy
- tec
- technika
- ecn
- ekonómia, riadenie
- blf
- viera, nadprirodzeno
- lif
- life style
- ins
- interdisciplinárne vedy
- plt
- politika
- gov
- štátna a verejná správa, samospráva
Subdomain (SubD)
- subdoména — bližšie určenie odbornej oblasti.
Subdomain (SubD) subdoména — bližšie určenie odbornej oblasti — hodnoty |
||||
pre Domain = ars |
pre Domain = hum |
pre Domain = law |
pre Domain = nat |
pre Domain = tec |
mus |
his |
bil |
agr |
tra |
cin |
psy |
jud |
med |
ene |
arc |
edu |
jur |
pha |
ind |
art |
soc |
|
zoo |
com |
the |
phi |
|
bot |
bui |
lit |
inf |
|
bio |
sta |
|
pol |
|
che |
|
|
lin |
|
mat |
|
|
eth |
|
ggr |
|
|
cul |
|
phy |
|
|
swo |
|
met |
|
|
|
|
geo |
|
|
|
|
env |
|
pre Domain = ecn |
pre Domain = blf |
pre Domain = lif |
pre Domain = ins |
pre Domain = gov |
eco |
rel |
hou |
nie je subdoména |
uso |
mng |
teo |
fsh |
|
sam |
mer |
exc |
spo |
pre Domain = plt |
tvs |
|
|
sct |
nie je subdoména |
|
|
|
amu |
|
|
|
|
min |
|
|
|
|
reg |
|
|
|
|
cnl |
|
|
|
|
clt |
|
|
Medium (Medi)
- médium.
Hodnoty:
- lib
- kniha
- ebk
- e-kniha
- nws
- noviny
- jou
- časopis
- ste
- skriptá
- net
- internet a iné (pre-internetové) siete. Sem patria špecifické internetové noviny, www stránky, e-mail, usenet príspevky, príspevky do diskusných fór, ako aj live komunikácia. Pozor, papierové noviny stiahnuté z internetu sú „nws“, podobne elektronické knihy určené primárne na papierové vydanie sú „lib“, avšak elektronické knihy, ktoré sú primárne určené na čítanie z obrazovky a iba dodatočne boli vydané aj knižne, by mali byť „net“.
- for
- formulár
- occ
- príležitostné (zborníky)
- npu
- nepublikované texty, rukopisy
- tvf
- televízia, kino
- rad
- rozhlas
Authsex (AutS)
- pohlavie autora.
Hodnoty:
- msc
- muž
- fem
- žena
Lang (Lang)
- jazyk diela, trojpísmenová skratka podľa ISO 639-2, čiže slovenčina má „slk" a je automaticky generovaná. Kompletne inojazyčný text nemá dôvod vyskytnúť sa v SNK.
Varieta (Vari)
- variant jazyka, v ktorom je dokument. Väčšinou bude spisovná slovenčina.
Hodnoty:
- std
- spisovná slovenčina
- nst
- neštandardná slovenčina
- ost
- starý štandard / pred pravopisnou reformou v roku 1953
Paragraphs (Para)
- určuje, či je text v banke segmentovaný na odseky.
Hodnoty:
- tru
- text je segmentovaný na odseky
- fls
- z nejakého dôvodu je informácia o pôvodnej segmentácii stratená
Emphasis (Emph)
- určuje, či text v banke obsahuje informácie o pôvodnom zvýraznenom texte.
Hodnoty:
- tru
- áno
- fls
- nie
Diacritics (Dcrt)
- určuje, či text v banke obsahuje správnu diakritiku.
Hodnoty:
- tru
- text má správnu diakritiku
- fls
- text má nesprávnu (alebo chýbajúcu) diakritiku
Transsex (TrnS)
- pohlavie prekladateľa, pozri Authsex.
Origlang (OrgL)
pôvodný jazyk diela podľa ISO 639-3 http://www-01.sil.org/iso639-3/codes.asp. Preklady z prekladov zapisujeme znakom „>“ U+003C LESS-THAN SIGN. Príklad: eng>ger.
Date (Date)
- dátum vydania.
Dateorig (OrgD)
- dátum prvého vydania (vzniku diela, môže byť zhodný s Date), pri prekladoch dátum prvého vydania originálu.
Conglomerate (Cong)
- identifikácia konglomerátu, ku ktorému text patrí.
Bogocong (Bogo)
- Skrátený niekoľkopísmenový zápis konglomerátu.
Comment (Comn)
- komentár. Iný ako príslušný komentár v archíve.
Corrected (Corr)
- určuje, či dokument prešiel jazykovou korektúrou.
Bibliography (Bibl)
- bibliografia dokumentu.
Nejasnosti
označíme XML tagom <noise/>. Nahradí časti textu ktoré nebolo možné prečítať z originálneho dokumentu. Bude zrejme relevantný pre hovorený a diachrónny korpus.
Obrázky
- rozlišujeme dva typy obrázkov.
obrázok
je veľký obrázok majúci samostatnú informačnú hodnotu, typicky preruší text na niekoľko riadkov a obvykle nie je podstatné v ktorej časti textu sa vyskytuje. Označíme <picture> prípadne <picture caption="popis obrázku ak bol obrázok s popisom"/>.
Nadpisy
V banke rozlišujeme len jeden typ nadpisov, označíme <h1></h1>.
Zvýraznený text
V banke rozlišujeme len jeden typ zvýrazneného textu, označujeme <em></em>.
Pomlčka/spojovník/rozdeľovník
U+002D HYPHEN-MINUS (-) používame v banke na zápis nejednoznačnej pomlčky, kde nevieme pri konverzii textu automaticky rozhodnúť o aký typ ide - napríklad ak bol v zdrojovom texte použitý iba tento aj pre spojovník, aj pre pomlčku. U+2010 HYPHEN používame v banke na zápis spojovníka. Príklad: „Rakúsko-Uhorsko“.
U+2014 EM DASH (—) používame na zápis pomlčky. Príklad: „Peniaze — radosť“. U+2212 MINUS SIGN (−) by sme v ideálnom svete používali na zápis unárneho alebo binárneho matematického operátora mínus, ale predpokladáme, že v zdrojovom texte nebude tento operátor odlíšený. V takom prípade použijeme zrejme U+002D HYPHEN-MINUS (-).
U+00AD SOFT HYPHEN je dosť nejednoznačne definovaný. Tento znak nemá dôvod sa objaviť v korpuse.
U+2011 NON-BREAKING HYPHEN považujeme za ekvivalent U+2010 HYPHEN a v korpuse ho nepoužívame.
Vzorce
Matematické (chemické a iné) vzorce nahradíme tagom <equation/>. Jednoduché vzorce, zápisy fyzikálnych veličín a chemické zlúčeniny a reakcie (ak nebude znamenať príliš veľkú námahu ich zapísať a ak nesú podstatnú lingvistickú informáciu, napríklad H₂O je dostatočne vžité vo všeobecnom povedomí slovensky hovoriacej komunity a je chápané ako slovo) zapíšeme použitím príslušných unicodových symbolov. Kvôli jednoduchosti nepoužívame znaky z bloku LETTERLIKE SYMBOLS (napríklad namiesto U+212A KELVIN SIGN použijeme U+004B LATIN CAPITAL LETTER K).
Horný/dolný index zapíšeme použitím príslušných Unicode znakov, napr. U+00B9 SUPERSCRIPT ONE, U+2074 SUPERSCRIPT FOUR, U+207B SUPERSCRIPT MINUS, Príklad: 10⁶ km².
Explicitné násobenie zapíšeme pomocou U+00D7 MULTIPLICATION SIGN × alebo U+00B7 MIDDLE DOT ·, podľa toho ako bolo uvedené v zdrojovom texte. Pozor chybné zápisy neopravujeme, ak bolo v zdrojovom texte H2O, necháme H2O.
Tabuľky
Tabuľky nahradíme tagom <table/>, prípadne <table caption="popis tabuľky ak bola tabuľka s popisom"/>.
Úvodzovky
Držíme sa štýlu úvodzoviek použitého v pôvodnom dokumente. Rozlišujeme tieto základné štýly:
"dvojité anglické ASCII úvodzovky"
- U+0022 QUOTATION MARK U+0022 QUOTATION MARK
'jednoduché anglické ASCII úvodzovky'
- U+0027 APOSTROPHE U+0027 APOSTROPHE
„správne slovenské dvojité úvodzovky“
- U+201E DOUBLE LOW-9 QUOTATION MARK U+201C LEFT DOUBLE QUOTATION MARK pozor mýliaci názov Unicode znaku
„nesprávne slovenské dvojité úvodzovky”
- U+201E DOUBLE LOW-9 QUOTATION MARK U+201D RIGHT DOUBLE QUOTATION MARK
‚správne slovenské jednoduché úvodzovky‘
- U+201A SINGLE LOW-9 QUOTATION MARK U+2018 LEFT SINGLE QUOTATION MARK pozor mýliaci názov Unicode znaku
‚nesprávne slovenské jednoduché úvodzovky’
- U+201A SINGLE LOW-9 QUOTATION MARK U+2019 RIGHT SINGLE QUOTATION MARK
”správne anglické dvojité úvodzovky”
- ”U+201C LEFT DOUBLE QUOTATION MARK +201D RIGHT DOUBLE QUOTATION MARK
‘správne anglické jednoduché úvodzovky’
- U+2018 LEFT SINGLE QUOTATION MARK U+2019 RIGHT SINGLE QUOTATION MARK
‹guillemot jednoduchý›
- U+2039 SINGLE LEFT-POINTING ANGLE QUOTATION MARK U+203A SINGLE RIGHT-POINTING ANGLE QUOTATION MARK
«guillemot dvojitý»
- U+00AB LEFT-POINTING DOUBLE ANGLE QUOTATION MARK U+00BB RIGHT-POINTING DOUBLE ANGLE QUOTATION MARK
›obrátený guillemot jednoduchý‹
- U+203A SINGLE RIGHT-POINTING ANGLE QUOTATION MARK U+2039 SINGLE LEFT-POINTING ANGLE QUOTATION MARK
»obrátený oguillemot dvojitý«
- U+00BB RIGHT-POINTING DOUBLE ANGLE QUOTATION MARK U+00AB LEFT-POINTING DOUBLE ANGLE QUOTATION MARK
Treba si dávať pozor na rozdiel medzi U+0027 APOSTROPHE (') a U+2019 RIGHT SINGLE QUOTATION MARK (’), a na rozdiel medzi U+2039 SINGLE LEFT-POINTING ANGLE QUOTATION MARK (‹) a U+003C LESS-THAN SIGN (<), podobne aj pravostranné, a medzi U+201A SINGLE LOW-9 QUOTATION MARK (‚) a U+002C COMMA (,).
V prípade, že zdrojový dokument v archíve používa inú, jednoznačne nesprávnu konvenciu (napríklad ,čiarka a apostrof' alebo , ,dve čiarky a dva apostrofy' '), túto konvenciu ponecháme aj v banke a jej úprava sa bude riešiť pri transformáciu z banky do korpusoidu. Pozor, v LaTeXu sú dve čiarky (, ,) správny a štandardný zápis dolných otváracích úvodzoviek.
Spôsob zápisu niektorých kľúčov v banke
Spôsob zápisu konglomerátu
Pri knižných a podobných publikáciách sa konglomerát skladá z mena autora, pomlčky(-) a názvu.
Pri časopisoch, novinách a pod. podľa nasledujúcich príkladov:
* časopisy
- www.bratislava.sk 1993-oct
- Kynologická revue 2001/05 (mesačník, v konglomeráte je samostatné čislo)
- Literárny týždenník 1998-oct (týždenník, v konglomeráte je jeden celý mesiac)
- Služba slova 2003/1 (mesačník)
* noviny
- Sninské noviny 2004/20
- SME 1998-may
* zborníky
- Zborník Slovenského národného múzea - História 39
- Jozef Mlacek (Red.) - Studia Academica Slovaca 26
* knižné publikácie a iné autorské diela
- Elizabeth Adlerová - Žena je šťastie
- Bhagavadgíta
- Martin Ondrejka - Štúdium zirkónu a jeho využitie v súčasnej magmatickej petrológii
- Martin Pipíška, Jozef Augustín - Možnosti a obmedzenia využitia biologických systémov pre remediáciu pôdy kontaminovanej rádionuklidmi
Spôsob zápisu bogocongu
Bogocong sa pri autorských publikáciách uvádza ako dvoj- až štvorpísmenová skratka iniciálok autora a poradového čísla diela daného autora (začínajúc od 1). Pri viacerých autoroch sa uvádzajú iba začiatočné písmená priezvisk autorov a poradové čislo. Pri časopisoch a novinách skratka časopisu, potom YY/MM (YY - rok, MM - mesiac) alebo YY/CC (CC - číslo).
* časopisy
- BA10/93
- KR01/05
- LT10/98
- SS01/03
* noviny
- SN04/20
- SME 98/05
* zborníky
- HIS39
- SAS26
* knižné publikácie a iné autorské diela
- EAdl5
- BHAG1
- MOnd1
- PA1
Spôsob zápisu bibliografie
* časopisy
http://www.bratislava.sk. Bratislava: 2004.
- Kynologická revue. Veľká Ida: Ster.
- Literárny týždenník, Bratislava: Vydavateľstvo Spolku Slovenských spisovateľov 1997.
- Služba slova. Homiletická príloha Cirkevných listov pre evanjelických a.v. kňazov. Bratislava: VMV ECAV, 2003, roč. 52, č. 1.
* noviny
- Sninské noviny. Regionálny týždenník. Snina: Ing. Michal Fečík - PRESS, 2004, roč. 2, č. 20.
- SME. Denník. Bratislava: Petit Press 7.5.1998
* zborníky
- Zborník Slovenského národného múzea - História, 1999, roč. 93, č. 39.
- Studia Academica Slovaca 30. Prednášky XXXIII. letnej školy slovenského jazyka a kultúry. Red. J. Mlacek. Bratislava: Stimul 1997. 289 s.
* knižné publikácie a iné autorské diela
- Adler, Elizabeth: Žena je šťastie. Bratislava: Práca 1993. 486 s. Preklad: Anna Rácová.
- Bhagavadgíta: rozhovor Boha s človekom. Bratislava: Hevi 1997. 111 s. Preklad: Milan Polášek.
- Ondrejka, Martin: Štúdium zirkónu a jeho využitie v súčasnej magmatickej petrológii. Práca k doktorandskému minimu. Bratislava: Prírodovedecká fakulta UK 2002. 59 s.
- Pipíška, Martin, Augustín, Jozef: Možnosti a obmedzenia využitia biologických systémov pre remediáciu pôdy kontaminovanej rádionuklidmi. In: Nova Biotechnologica III, Revue fakulty prírodných vied UCM Trnava, 2003, č. 2, s. 18-31.