→English

Bibliografická a štýlovo-žánrová anotácia

Bibliografická a štýlovo-žánrová anotácia je nevyhnutnou súčasťou prvotného spracovania textov v korpuse. Informácie o identite a základnej štruktúre textu sú dôležité pri jeho archivovaní, pri citovaní používateľmi, pri štatistickom vyhodnocovaní parametrov celého korpusu či zisťovaní distribúcie jazykových prostriedkov a javov v jednotlivých druhoch textov. Zobrazuje sa v spodnej časti okna klienta Bonito po kliknutí pravým tlačidlom myši na zvolený riadok v konkordančnom zozname. Anotáciu tvorí zoznam kľúčov a im priradených hodnôt, ktoré sú buď voľné (napr. meno autora), alebo vybrané z fixnej množiny povolených hodnôt (napr. žáner). Kľúče môžu označovať štýlovo-žánrové charakteristiky textu — hlavnými kategóriami sú v tomto prípade typ textu (umelecký, publicistický, odborný text, live komunikácia), žáner (napr. báseň, román, poviedka, článok) a doména, teda vecná oblasť, ktorej sa daný text týka (napr. umelecké vedy, právo, politika, ekonómia). Tieto hlavné kategórie sa ďalej delia na podkategórie. Ostatné kľúče zaznamenávajú bibliografické údaje a iné vlastnosti textu či informácie o autorovi. Zoznam kľúčov v plnom i skrátenom názve je v nasledujúcej tabuľke. Pod príslušným názvom kľúča sa nachádza opis jeho významu a vymenúvajú sa jeho možné hodnoty (ak nie sú voľné).

Zápis dátumu

Všetky dátumy sú v ISO 8601 formáte YYYY-MM-DD, príklad 1998-05-23. Odôvodnenie: odstránenie nejednoznačnosti, ľahké triedenie podľa dátumu

Externá anotácia

Anotácia je tvorená štruktúrou kľúč-hodnota. Hodnota je vždy zapísaná ako reťazec znakov ukončený koncom riadku. Toto vylučuje viacriadkové názvy. Hodnota môže byť buď voľná (príklad: meno autora) alebo vybraná z fixnej množiny povolených hodnôt (príklad: žáner). Nepovinné flags sú tvorené množinou flagov oddelených čiarkami, z ktorých prítomnosť každého určuje konkrétnu vlastnosť hodnoty, neprítomnosť zase neprítomnosť tejto vlastnosti.Tieto hodnoty majú špeciálny význam (nie pre každý kľúč sú všetky zmysluplné):

... (tri bodky)
neurčená hodnota. Túto hodnotu sme neurčovali, prípadne ju môžeme určiť neskôr, ale apriori o nej nič nevieme povedať. Pre úplnosť, nemala by sa objaviť v skutočnej anotácii.
(prázdne miesto, prípadne iba whitespace)
to isté ako „...“. Default hodnota pri automatickej anotácii, predpokladá sa, že sa naozaj bude vyskytovať.
chýbajúci kľúč
má rovnakú hodnotu ako kľúč neurčený („...“ alebo prázdny)
XXX
neznáma hodnota. Nevieme určiť. Príklad: meno autora v novinovom článku.
YYY
neurčiteľná hodnota. Z princípu sa nedá určiť alebo nemá význam. Príklad: pohlavie autora, ak ide o kolektívne dielo, pohlavie prekladateľa, ak nejde o preložené dielo.
MIX
mix. V prípade hodnoty vyberanej z fixnej množiny je hodnota zmes iných. Príklad: pohlavie autora, ak je autor hermafrodit.
MSS
iné. V prípade hodnoty vyberanej z fixnej množiny, hodnota, ktorá nie je v danej množine určená. Príklad: pohlavie autora, ak je autor eunuch.
TTT
neznáma hodnota, ktorú treba určiť. Značka, že k danej anotácii sa nevyhnutne treba neskôr vrátiť a hodnotu doplniť.

Anotácia banky

žiadny z týchto kľúčov nie je povinné mať presne, okrem SourceId. Zoznam kľúčov je v tvare názov (skrátený názov). Pod príslušným názvom kľúča je opísaný jeho význam a vymenované sú jeho možné hodnoty (ak nie sú voľné).

Name (Name)

Origname (OrgN)

Author (Auth)

Origauthor (OrgA)

Translator (Trnr)

Translation (Trnn)

Hodnoty:

ISBN (ISBN)

ISSN (ISSN)

SourceId (ScId)

Id (Id)

Rhyme (Rhym)

Hodnoty:

Type (Type)

Hodnoty:

Subtype (SubT)

Subtype (SubT) podtyp textu — hodnoty

pre Type = img

pre Type = inf

pre Type = prf

pre Type = liv

(umelecký text)

(publicistický, informatívny text)

(odborný text)

(live komunikácia)

poe
poézia

pub
publicistika

sci
vedecká literatúra, články, odborné časopisy, učebnice pre VŠ

spk
hovorený

pro
próza

adv
reklamné materiály, reklama

pop
populárnovedecká literatúra, záujmové časopisy

wri
písomný (internet, ďalekopis, ak je používaný interaktívne, komunikácia ľudí s poruchou reči písaním a pod.)

dra
dráma

adm
administratívne texty

txb
učebnice pre stredné a základné školy

enc
encyklopédie a podobné abecedne usporiadané diela

man
manuály, návody na obsluhu, recepty, ...

Genre (Genr)

Genre (Genr) žáner — hodnoty

pre Type = img

pre Type = inf

pre Type = prf

(umelecký text)

(publicistický, informatívny text)

(odborný text)

ver
báseň

doc (dokumentárne)
zápisnica, protokol, rezolúcia, zmluva

mon
monografia

son
pieseň, libreto

ann (oznamovacie)
smernice, vyhlášky, dotazníky, inzeráty, oznámenia, ponuky

hnd
príručka

scd
divadelný scenár, divadelná hra

lst (heslovité)
zoznamy, programy, pravidlá, stanovy, obsahy, tiráže

dis
dizertácia

scf
filmový scenár, titulky k filmu

rpt (spravodajské)
správa, riport, interview, oznámenie, komuniké

rig
rigorózna práca

scr
prepis rozhlasového vysielania

anl (analytické)
úvodník, komentár, glosa, recenzia, kritika, diskusia, polemika, debata, karikatúra

dpl
diplomové, bakalárske a záverečné práce

nov
román

pbb (beletristické)
fejtón, besednica, reportáž, črta, fíčer, stĺpček

std
štúdia

col
poviedka, súbor poviedok

spc
prejavy (politické, príležitostné), príhovory

abs
abstrakt

ess
esej

dsc
diskusný, polemický/debatný príspevok

tcl
článok

dia
rozhovory

rfl
úvaha

mem
memoáre, biografie, autobiografie

ref
referát, seminárna práca

let
listy

lct
prednáška

chr
kroniky

crs
charakteristika

sen
krátke epické žánre (výroky, citáty, aforizmy, vtipy atď.)

crt
recenzia, kritika

opn
posudok

ins
pracovný návod

Subgenre (SubG)

Hodnoty:

Domain (Domn)

Hodnoty:

Subdomain (SubD)

Subdomain (SubD) subdoména — bližšie určenie odbornej oblasti — hodnoty

pre Domain = ars

pre Domain = hum

pre Domain = law

pre Domain = nat

pre Domain = tec

mus
hudba, opera, opereta, balet

his
história, archeológia, antropológia

bil
zákony, nariadenia, predpisy

agr
poľnohospodárstvo

tra
doprava, spoje, telekomunikácie

cin
film

psy
psychológia

jud
judikatúry

med
medicína

ene
energetika

arc
architektúra

edu
pedagogika

jur
iné právnické texty

pha
farmácia

ind
priemysel

art
výtvarné umenie, fotografia, sochárstvo

soc
sociológia, komunikácia, médiá

zoo
zoológia

com
informatika, počítače

the
divadlo, divadelná veda a kritika

phi
filozofia, estetika

bot
botanika

bui
stavebníctvo

lit
literatúra, literárna veda a kritika

inf
knihovníctvo a informačné zdroje

bio
biológia

sta
normalizácia, štandardizácia

pol
politológia

che
chémia

lin
lingvistika

mat
matematika

eth
etnológia, etnografia

ggr
geografia

cul
kulturológia

phy
fyzika (v tom aj astronómia)

swo
sociálna práca

met
meteorológia

geo
geológia

env
environmentalistika, ekológia

pre Domain = ecn

pre Domain = blf

pre Domain = lif

pre Domain = ins

pre Domain = plt

eco
ekonómia, bankovníctvo, obchod

rel
náboženstvo, viera, sekty

hou
domácnosť (byt, záhrada, ručné práce, kuchyňa, chovateľstvo)

nie je subdoména

nie je subdoména

mng
manažment, riadenie

teo
teológia

fsh
odievanie, móda

mer
tovaroznalectvo, spotrebiteľská oblasť

exc
nadprirodzeno, okultné vedy, mágia, astrológia

spo
šport

sct
spoločenský život

amu
zábava, hra, koníčky, voľný čas, cestovanie

min
etnické minority

reg
región

cnl
poradňa

clt
kultúra

Medium (Medi)

Hodnoty:

Authsex (AutS)

Hodnoty:

Lang (Lang)

Varieta (Vari)

Hodnoty:

Paragraphs (Para)

Hodnoty:

Emphasis (Emph)

Hodnoty:

Diacritics (Dcrt)

Hodnoty:

Transsex (TrnS)

Origlang (OrgL)

Date (Date)

Dateorig (OrgD)

Conglomerate (Cong)

Bogocong (Bogo)

Comment (Comn)

Corrected (Corr)

Bibliography (Bibl)

Nejasnosti

Obrázky

obrázok

je veľký obrázok majúci samostatnú informačnú hodnotu, typicky preruší text na niekoľko riadkov a obvykle nie je podstatné v ktorej časti textu sa vyskytuje. Označíme <picture> prípadne <picture caption="popis obrázku ak bol obrázok s popisom"/>.

Nadpisy

Zvýraznený text

Pomlčka/spojovník/rozdeľovník

U+002D HYPHEN-MINUS (-) používame v banke na zápis nejednoznačnej pomlčky, kde nevieme pri konverzii textu automaticky rozhodnúť o aký typ ide - napríklad ak bol v zdrojovom texte použitý iba tento aj pre spojovník, aj pre pomlčku. U+2010 HYPHEN používame v banke na zápis spojovníka. Príklad: „Rakúsko-Uhorsko“.

U+2014 EM DASH (—) používame na zápis pomlčky. Príklad: „Peniaze — radosť“. U+2212 MINUS SIGN (−) by sme v ideálnom svete používali na zápis unárneho alebo binárneho matematického operátora mínus, ale predpokladáme, že v zdrojovom texte nebude tento operátor odlíšený. V takom prípade použijeme zrejme U+002D HYPHEN-MINUS (-).

U+00AD SOFT HYPHEN je dosť nejednoznačne definovaný. Tento znak nemá dôvod sa objaviť v korpuse.

U+2011 NON-BREAKING HYPHEN považujeme za ekvivalent U+2010 HYPHEN a v korpuse ho nepoužívame.

Vzorce

Matematické (chemické a iné) vzorce nahradíme tagom <equation/>. Jednoduché vzorce, zápisy fyzikálnych veličín a chemické zlúčeniny a reakcie (ak nebude znamenať príliš veľkú námahu ich zapísať a ak nesú podstatnú lingvistickú informáciu, napríklad H₂O je dostatočne vžité vo všeobecnom povedomí slovensky hovoriacej komunity a je chápané ako slovo) zapíšeme použitím príslušných unicodových symbolov. Kvôli jednoduchosti nepoužívame znaky z bloku LETTERLIKE SYMBOLS (napríklad namiesto U+212A KELVIN SIGN použijeme U+004B LATIN CAPITAL LETTER K).

Horný/dolný index zapíšeme použitím príslušných Unicode znakov, napr. U+00B9 SUPERSCRIPT ONE, U+2074 SUPERSCRIPT FOUR, U+207B SUPERSCRIPT MINUS, Príklad: 10⁶ km².

Explicitné násobenie zapíšeme pomocou U+00D7 MULTIPLICATION SIGN × alebo U+00B7 MIDDLE DOT ·, podľa toho ako bolo uvedené v zdrojovom texte. Pozor chybné zápisy neopravujeme, ak bolo v zdrojovom texte H2O, necháme H2O.

Tabuľky

Tabuľky nahradíme tagom <table/>, prípadne <table caption="popis tabuľky ak bola tabuľka s popisom"/>.

Úvodzovky

Držíme sa štýlu úvodzoviek použitého v pôvodnom dokumente. Rozlišujeme tieto základné štýly:

"dvojité anglické ASCII úvodzovky"

'jednoduché anglické ASCII úvodzovky'

„správne slovenské dvojité úvodzovky“

„nesprávne slovenské dvojité úvodzovky”

‚správne slovenské jednoduché úvodzovky‘

‚nesprávne slovenské jednoduché úvodzovky’

”správne anglické dvojité úvodzovky”

‘správne anglické jednoduché úvodzovky’

‹guillemot jednoduchý›

«guillemot dvojitý»

›obrátený guillemot jednoduchý‹

»obrátený oguillemot dvojitý«

Treba si dávať pozor na rozdiel medzi U+0027 APOSTROPHE (') a U+2019 RIGHT SINGLE QUOTATION MARK (’), a na rozdiel medzi U+2039 SINGLE LEFT-POINTING ANGLE QUOTATION MARK (‹) a U+003C LESS-THAN SIGN (<), podobne aj pravostranné, a medzi U+201A SINGLE LOW-9 QUOTATION MARK (‚) a U+002C COMMA (,).

V prípade, že zdrojový dokument v archíve používa inú, jednoznačne nesprávnu konvenciu (napríklad ,čiarka a apostrof' alebo , ,dve čiarky a dva apostrofy' '), túto konvenciu ponecháme aj v banke a jej úprava sa bude riešiť pri transformáciu z banky do korpusoidu. Pozor, v LaTeXu sú dve čiarky (, ,) správny a štandardný zápis dolných otváracích úvodzoviek.

Spôsob zápisu niektorých kľúčov v banke

Spôsob zápisu konglomerátu

Pri knižných a podobných publikáciách sa konglomerát skladá z mena autora, pomlčky(-) a názvu.

Pri časopisoch, novinách a pod. podľa nasledujúcich príkladov:

* časopisy

* noviny

* zborníky

* knižné publikácie a iné autorské diela

Spôsob zápisu bogocongu

Bogocong sa pri autorských publikáciách uvádza ako dvoj- až štvorpísmenová skratka iniciálok autora a poradového čísla diela daného autora (začínajúc od 1). Pri viacerých autoroch sa uvádzajú iba začiatočné písmená priezvisk autorov a poradové čislo. Pri časopisoch a novinách skratka časopisu, potom YY/MM (YY - rok, MM - mesiac) alebo YY/CC (CC - číslo).

* časopisy

* noviny

* zborníky

* knižné publikácie a iné autorské diela

Spôsob zápisu bibliografie

* časopisy

* noviny

* zborníky

* knižné publikácie a iné autorské diela