Počítačové spracovanie prirodzeného jazyka a Slovenský národný korpus

Mária Šimková

Príspevok odznel na seminári Počítačová podpora prekladu (Budmerice 22. – 23. mája 2003).

„Iba jazyky, pre ktoré boli vyvinuté adekvátne produkty a systémy jazykových zdrojov (t. j. korpusových, počítačových a najmä viacjazyčných), budú dostupné v sieti informačných technológií. … Autoritatívne zdroje už varovali, že jazyky, pre ktoré nebudú dostatočne rozvinuté jazykové technológie, riskujú, že v informačnej spoločnosti nebudú môcť plniť komunikačnú funkciu; pretože jazyky a kultúry sú nerozlučne spojené, vážne to ohrozí jednu z najcennejších ľudských hodnôt, jazykovú a kultúrnu rôznosť.“

(A. Zampolli v úvode konferencie v Granade ’98; podľa prekladu F. Čermáka)

Od 60. rokov 20. storočia sme v lingvistike svedkami prudkého rozvoja rôznych, často hraničných disciplín: sociolingvistika, psycholingvistika, pragmatická lingvistika, textová lingvistika, kognitívna lingvistika. Osobitné miesto medzi nimi majú disciplíny kombinujúce lingvistické a matematické metódy, ktoré sa začali rozvíjať s nástupom kybernetiky a záujmami ľudstva o umelú inteligenciu, strojové preklady a pod. V rámci matematickej lingvistiky rozlišujeme dve teoretické disciplíny: kvantitatívnu lingvistiku (alebo štatistickú, systematicky uplatňovanú už od konca 19. storočia) a algebraickú lingvistiku (alebo teóriu matematických modelov jazyka, rozpracovanú najmä Chomského generatívnou gramatikou v druhej polovici 20. storočia). Tretia disciplína matematickej lingvistiky je aplikovaná počítačová lingvistika, ktorá využíva výsledky predchádzajúcich dvoch disciplín a súčasne aj ovplyvňuje ich ďalší rozvoj. Počítačová (alebo strojová) lingvistika sa spočiatku (polovica 50. rokov 20. storočia) a dosť dlho zameriavala predovšetkým na strojový (automatizovaný) preklad. Potreba strojového prekladu bola v tom čase podmienená zvyšujúcimi sa nárokmi na počet prekladov, ale ukázalo sa, že naučiť stroje prekladať nie je také jednoduché. Počítaču síce môžeme pomerne ľahko poskytnúť niečo ako prekladový slovník, ktorý však, ak je, a to zvyčajne je, postavený iba na slovných ekvivalentoch, vyžaduje inteligentný ľudský prístup (znalosti syntaxe, sémantiky, štylistiky, pragmatiky, kultúry, histórie), čo počítač nie je schopný bez príslušnej formalizácie zvládnuť. Po istom období rozčarovania z nedosiahnutia očakávaných rýchlych a prinajmenšom veľmi dobrých výsledkov sa zistené nedostatky a obmedzenia začali využívať na hľadanie riešení a vznikli nové čiastkové výskumy v oblasti analýzy a syntézy reči, vyhľadávania informácií (knižničné automatizované systémy), počítačových učebných programov (najmä cudzie jazyky), automatických slovníkov a pod. Rozvoj počítačového spracovania prirodzeného jazyka (natural language processing – NLP), ktorého výsledky poznáme napr. v podobe korektorov pravopisu alebo automatického delenia slov, sa vzájomne ovplyvňuje s rozvojom novej, veľmi dynamickej oblasti korpusovej lingvistiky. Vyvíjanie systémov NLP totiž vyžaduje rozsiahle, primerane štruktúrované textové korpusy, pričom dobre vyvinutý NLP systém by mal fungovať aj na inom (podobnom) súbore textov.

Ak sa ešte donedávna diskutovalo o otázke, na čo je dobrý korpus – v jednej z odpovedí v dokumentoch Európskeho spoločenstva z r. 1991 sa uvádza: „Technológie reči a jazyka si vyžadujú rozsiahle databázové korpusy … na výskum a rozvoj, na účely testovania a na podporu spisovateľov a prekladateľov“ (citované podľa Čermák, 2000, s. 26) –, dnes sa už vo svetových korpusových veľmociach táto otázka nekladie, ale sa hľadajú a využívajú ďalšie a ďalšie možnosti rozsiahlych textových zdrojov, vyvíjajú sa nové jazykové technológie. V tej istej komisii Európskeho spoločenstva iný člen v r. 1993 konštatuje: „Rozvoj štandardizovaných korpusov a metód a nástrojov na ich spravovanie a aplikačné využitie je dlhodobým projektom presahujúcim možnosti individuálneho projektu. Rozsiahlosť a náročnosť úlohy, ktorá sa má splniť, a náklady na to potrebné naznačujú, že štandardizované korpusy majú byť budované na základe spolupráce v rámci európskej koordinácie národných snáh, ktorá je otvorená medzinárodným výmenám, ako aj to, že vybudované korpusy majú byť verejné a orientované tak, aby uspokojovali rôzne potreby používateľov“ (tamže, s. 27).

Vážnosť situácie plne chápu aj lingvisti, najmä tí, ktorí reprezentujú tzv. malé jazyky. Napr. J. Kořenský pri úvahách o potrebe a podobe novej gramatiky upozorňuje na dôležitosť uvedomenia si, aké bude budúce postavenie príslušného jazyka ako prostriedku medzinárodnej komunikácie, komunikácie v rámci národného spoločenstva, ako sa bude príslušný jazyk podieľať na organizácii a riadení nadnárodných štruktúr …, pričom bude veľmi dôležité, aká bude činnostná, profesná štruktúra tých, ktorí budú príslušný jazyk ako druhý študovať a potrebovať (… počínajúc od tých, ktorí budú daný jazyk potrebovať ako úradníci, diplomati a pod. nadnárodných subjektov, cez tých, ktorí ho budú potrebovať z ekonomických dôvodov, až k tým, ktorí ho budú vyučovať ako cudzí jazyk v zahraničí, alebo k tým, ktorí sa budú profesionálne či inak zaujímať prostredníctvom jazyka o kultúru „malého národa“). „Zatím vše svědčí pro to, že maximální pozornost této oblasti bude důležitou součástí obhájení funkčních pozic našich národních jazyků, součástí úsilí o to, aby se z nich nestal pouze jeden z atributů regionálního koloritu. Nepokrytě je třeba se tázat, jaké bude postavení daného jazyka v globálním i vnitrostátním smyslu jako prostředku technologie ekonomické a politické moci. (Zde se otvírá řada potřeb: od nesmírně složitých otázek funkční i teoreticko-interpretační ekvivalence národního jazyka oficiálním jazykům mezinárodní komunikace ve sférách řízení – ani zdaleka to není jen otázka pojmových nomenklatur, o tom podávají výmluvná svědectví translatologové i tlumočníci – až k vědomí, že národní jazyk musí být vnímán jako „pouhá“ složka reálné proporcionality verbálních, neverbálních a matematicko-logických komunikačních systémů a také v tomto kontextu teoreticky interpretován a „ekvivalentován“.) Jestliže informační toky řízení a moci se budou uskutečňovat prostřednictvím informačních sítí, pak to znamená, že v tomto rámci musí být i po formálně-teoretické stránce takový národní jazyk interpretovatelný tak, aby informatici a programátoři (rodilí i nerodilí uživatelé jazyka) byli schopni operativně a kvalitně řešit každodenní problémy. Tady je přirozená cesta k potřebě logicko-matematicky formulovaných, generativismem, kognitivními vědami fundovaných gramatik, nikoli však jako zaplňování mezer, ale jako realizace budoucích komunikačních požadavků. … Jinak řečeno, takto projektované gramatiky mohou přispět k tomu, aby se příslušné jazyky nestaly programově jazyky malými v tom smyslu, že budou spolu se s nimi spojenou etnickou, národní kulturou pouze koloritním, pouze trpěným atributem globálních struktur“ (Kořenský, 2003).

Sprístupňovanie rozsiahlych textových súborov konkrétneho jazyka v elektronickej podobe na vedecko-výskumné teoretické i aplikačné využitie sa už stalo jednou z programových úloh každého národného spoločenstva hlásiaceho sa k vyspelej spoločnosti.

Ak charakterizujeme korpus ako rozsiahly vnútorne štruktúrovaný a ucelený súbor jazykových dát, ktoré sú elektronicky uložené a spracovávané, je zrejmé, že na takomto projekte musia informatika (matematika, logika) a lingvistika úzko spolupracovať a že technická a ekonomická náročnosť takéhoto projektu by mala byť vyvážená rôznymi možnosťami využitia korpusu, napr. aj v oblasti prekladu. Na to dnes slúžia predovšetkým paralelné (dvoj- a viacjazyčné) korpusy, kde sú rovnaké texty v dvoch alebo viacerých jazykoch (zvyčajne originál a preklad/preklady) spárované po ekvivalentných vetách. Najčastejšie sa však budujú jednojazyčné (národné) korpusy, kde popri korpusoch písaných textov existujú aj korpusy hovoreného jazyka a popri korpusoch konkrétneho jazyka v jeho súčasnej vývinovej fáze (synchrónnych) sa budujú aj korpusy diachrónne, zahŕňajúce prierez určitým historickým obdobím. Základné rozdelenie korpusov je podľa rozsahu a obsahu textov na všeobecné (nešpecifické, základné; dynamické, otvorené) alebo špecializované na určitý typ textov či jazykových javov (korpus textov jedného autora; neformálne prejavy a pod.; tieto korpusy môžu byť finálne, ohraničené, napr. uzavretím tvorby konkrétneho autora alebo literárneho smeru). Špecializovaným korpusom je komparatívny korpus porovnávajúci texty rovnakého druhu a žánru napr. v britskej a americkej angličtine. Korpusy, najmä národné, sa ukladajú nielen v základnej textovej podobe bez lingvistických informácií, ale bývajú aj lematizované (každé slovo má priradený základný tvar) a morfologicky, syntakticky, príp. sémanticky či štylisticky anotované. Prvé korpusy (do r. 1975) disponovali menej ako 1 miliónom slovných tvarov, niektoré súčasné korpusové celky obsahujú miliardy slov. Čím je korpus väčší a textovo pestrejší, tým je väčší predpoklad, že v ňom zachytené jazykové javy budú mať typickú povahu a budú vysoko prevažovať nad javmi okrajovými.

Jednou z dôležitých vlastností korpusov je ich reprezentatívnosť, ktorou sa však nerozumie výber textov s čo najčistejším spisovným jazykom. Reprezentatívne korpusy sa zameriavajú na prezentáciu konkrétneho národného jazyka v celom jeho rozsahu a pri ich budovaní sa dbá na zastúpenie rozličných jazykových variet, typov a žánrov textov z rozličných časových období a od rozličných autorov. To kladie veľké nároky na metódu budovania a štruktúrovania korpusu, pričom sa musia brať do úvahy aj ďalšie (licenčné) podmienky súvisiace s distribúciou korpusových textov.

Korpusy budované na vedecko-výskumné účely sú založené na nekomerčnej báze a texty do nich sa získavajú v súlade s príslušným autorským zákonom podľa zmluvne dohodnutých podmienok s autormi, vydavateľstvami alebo inými držiteľmi autorských práv. Stratégia získavania textov je v princípe dvojaká: buď sa zbierajú vopred presne určené konkrétne texty, alebo sa zhromažďujú akékoľvek dostupné texty a z nich sa variuje korpusový súbor s aktuálne požadovanou štruktúrou. Korpusový materiál sa v súčasnosti získava najčastejšie priamo v elektronickej podobe, príp. prenesením z internetu, zriedkavejšie skenovaním (a následným spracovaním do elektronickej podoby) alebo takmer výnimočne prepisovaním textov do elektronickej podoby.

Získané dáta treba v prvej fáze spracovania očistiť – odstraňujú sa z nich znaky a symboly editorov a programov, v ktorých texty vznikli, odstraňujú sa grafické súčasti textu (obrázky, tabuľky, grafy a pod.) a texty sa konvertujú na jednotný formát, ktorý zaznamenáva štruktúrne vlastnosti textu. Súčasťou prevodu textov na jednotný formát je tokenizácia, čiže segmentácia textu na najmenšie jednotky (tvary slov a iné znaky v texte, napr. interpunkcia, skratky, značky, číslice). V ďalšej fáze sa tokenizovaný text zvyčajne značkuje (tagging) – textu sa pridajú dodatočné informácie, ako sú bibliografické údaje o príslušnom texte, informácie o štruktúre textu, jazykové informácie na úrovni slov (napr. slovný druh, základný tvar slova – lema), jazykové informácie na úrovni viet (funkcia vo vete, sémantika) a pod.

Takto spracované korpusy sa používajú v rôznych vedeckých výskumoch a aplikáciách, napr. v už spomínanej korpusovej lingvistike, ktorej predmetom sú jazykové fenomény zisťované na základe korpusov, teda na príklade veľkého množstva reálnych textov, v ktorých sa slová a jazykové javy nachádzajú v prirodzených kontextoch a dajú sa všestranne a opakovane skúmať. Na základe analýzy korpusových textov môže byť overená väčšina lingvistických teórií a môžu vzniknúť aj nové hypotézy a teórie. Samostatnou aplikačnou zložkou je lexikografické využitie: veľa korpusov bolo vytvorených na podporu tvorby slovníkov a lexikografi sú v súčasnosti najčastejšími používateľmi korpusov. Ďalšou oblasťou využitia korpusov je už takisto spomínané počítačové spracovanie prirodzeného jazyka: niektoré výsledky zo spracovania korpusov, ako sú zoznamy slov, spoločné výskyty / použitia slov (kolokácie), frekvencia slov atď., sa používajú v rôznych nelingvistických aplikáciách, v systémoch na spracovanie textov (automatická kontrola pravopisu, gramatiky, štylistiky, strojový preklad textov), v systémoch na rozpoznávanie reči atď. Korpus môže byť aj dobrým zdrojom fráz a viet potrebných pri výučbe cudzích jazykov i materinského jazyka.

Na Slovensku sa progresívnosť počítačovej a korpusovej lingvistiky vnímala v podstate od začiatku 90. rokov 20. storočia najmä na pôde Pedagogickej fakulty UK a Jazykovedného ústavu Ľ. Štúra SAV v Bratislave. Vzhľadom na sústavnú poddimenzovanosť v programátorskej zložke sme v tejto oblasti takmer desať rokov postupovali vpred iba veľmi malými krôčikmi v porovnaní s niektorými okolitými štátmi, no celý čas sa jednak udržiaval kontakt so zahraničnými korpusovými pracoviskami, jednak sa zhromažďovali texty v elektronickej podobe, ktoré sa na pôde Jazykovedného ústavu hneď využívali na čiastkové gramatické výskumy a najmä na lexikografické účely. V r. 2002 sa inštitucionalizovalo oddelenie Slovenského národného korpusu ako špecializované pracovisko Jazykovedného ústavu, ktoré sa už buduje nielen v podstatne inej spoločenskej atmosfére (európska integrácia istým spôsobom vyvoláva priamu objednávku takéhoto projektu), ale samotná korpusová lingvistika sa dostáva do nového štádia – pomaly ustupuje aj v tomto odbore spočiatku dosť silné presvedčenie o možnostiach plne automatizovaného spracovania jazyka predovšetkým pomocou matematicko-štatistických metód a postupne sa opäť kladie väčší dôraz na lingvistickú zložku.

Slovenský národný korpus sa buduje ako všeobecný jednojazyčný korpus, v ktorom budú v prvej fáze (r. 2003) spracované písané texty z obdobia r. 1990 – 2003 v rozsahu asi 30 mil. slov s lematizáciou, morfologickou a vonkajšou (bibliografickou a štýlovo-žánrovou) anotáciou. V druhej fáze (do r. 2006) sa reprezentatívny záber písaných textov rozšíri o ďalšie obdobia súčasného jazyka (1955 – 2005) na rozsah 200 mil. slov a vybraná vzorka sa bude anotovať aj syntakticky. Súčasne sa bude budovať špecifický podkorpus diachrónnych a nárečových textov, ako aj terminologická databáza a databáza lexikografických diel. Prvá fáza je nesmierne náročná na zber a technické spracovanie dát, v ďalšej fáze sa náročnosť zvýši o lingvistickú anotáciu textov.

Slovenský národný korpus sa buduje predovšetkým pre potreby lexikografov (tvorba slovníkov), pre potreby gramatického a štylistického výskumu (gramatické príručky, pravopisné pravidlá; formy národného jazyka a ich reálne komunikačné uplatnenie). Predpokladáme, že nájde svoje využitie aj na školách (tvorba pravopisných, gramatických a štylistických cvičení; výučba slovenského jazyka pre cudzincov) a vôbec pri písaní (prekladaní) a potrebe overiť si status konkrétneho jazykového prostriedku. Perspektívne špecifické podkorpusy historických a nárečových textov budú predstavovať záchranu a dlhodobé, všeobecne prístupné uchovanie dôležitej časti nášho kultúrneho dedičstva. Primeraným technologickým spracovaním (vrátane terminologickej databázy a NLP systémov) a sprístupnením na internete či prenosných médiách by mal slovenský jazyk potvrdiť svoje nezastupiteľné miesto v rodine moderných jazykov.

Plány Slovenského národného korpusu (2003 – 2006)

Ciele

1. Vybudovanie všeobecného jednojazyčného korpusu písaných textov súčasného slovenského jazyka (1955 – 2005) a sprístupnenie jeho reprezentatívnej časti v rozsahu 200 mil. slov na internete. Sprístupnená časť korpusu bude lematizovaná a morfologicky anotovaná, vybraná vzorka sa bude anotovať aj syntakticky.

2. Sprístupnenie celého súboru elektronicky spracovaných získaných textov bez lingvistických informácií pracovníkom JÚĽŠ SAV a externým spolupracovníkom v jeho priestoroch na vedecko-výskumné, predovšetkým lexikografické účely (rozsah bude podmienený technickými možnosťami a ústretovosťou poskytovateľov textov).

Budovanie špecifických korpusov / databáz

terminologická databáza
databáza lexikografických diel
korpus diachrónnych textov
korpus nárečových textov
paralelný korpus (paralelné korpusy)
korpus hovorených prejavov

Tvorba príslušných programových nástrojov (archivovanie textov; evidenčná databáza; konverzie a filtrácie textov; lematizátor, morfologický anotátor), využívanie a adaptácia existujúcich programových nástrojov (syntaktický parser; korpusový manažér).

Etapy

2003: Vypracovanie koncepcie Slovenského národného korpusu Zber dát, nadväzovanie kontaktov s poskytovateľmi textov; evidenčná databáza Testovanie existujúcich programových nástrojov, výber a aplikácia najvyhovujúcejších Sprístupnenie reprezentatívnej čiastočne anotovanej vzorky (30 mil.) na internete Formulácia pravidiel morfosyntaktickej anotácie a morfologickej dezambiguácie pre slovenčinu Terminologická databáza v spolupráci s MS SR

2004 – 2006: Dopĺňanie písaných textov súčasného slovenského jazyka na reprezentatívny rozsah 200 mil. slov Vývoj a využitie vlastných programových nástrojov na základnú lingvistickú anotáciu Korpus nárečových a diachrónnych textov Paralelný korpus Využitie lingvisticky anotovaných textov Slovenského národného korpusu pri tvorbe gramatiky založenej na korpuse

Textové zdroje

Zber dát bude sledovať princíp „čo najviac a čo najrozmanitejších textov“. Reprezentatívna vzorka písaných textov súčasného slovenského jazyka bude zostavená zhruba z jednej tretiny publicistických textov, jednej tretiny umeleckých textov a jednej tretiny odborných a populárno-náučných textov. Posledné dve skupiny by mali obsahovať približne po tretine preložených textov. Texty sa budú získavať predovšetkým v elektronickej podobe (bezprostredná súčasnosť), ale pokrytie produkcie predchádzajúcich desaťročí si bude vyžadovať manuálnu prácu pri skenovaní a prevode tlačených textov do elektronickej podoby, v obmedzenej miere aj pri prepise textov do elektronickej podoby.

Literatúra

ČERMÁK, František: Jazykový korpus: prostředek a zdroj poznání. In: Studie z korpusové lingvistiky. Acta Universitatis Carolinae. Philologica 3 – 4. Praha: Univerzita Karlova – Nakladatelství Karolinum 2000, s. 15 – 37.
Hajičová, Eva – Panevová, Jarmila – Sgall, Petr: Úvod do teoretické a počítačové lingvistiky. I. svazek – Teoretická lingvistika. Praha: Karolinum 2002. 156 s.
KOŘENSKÝ, Jan: Snění a myšlení o příštích gramatikách přirozených jazyků. In: Tradícia a perspektívy gramatického výskumu na Slovensku. Ed. M. Šimková. Bratislava: Veda 2003 (v tlači).
Páleš, Emil: SAPFO. Parafrázovač slovenčiny. Bratislava: Veda 1994. 305 s.
Slovenčina a čeština v počítačovom spracovaní. Ed. A. Jarošová. Bratislava: Veda 2001. 196 s.
Šulc, Michal: Korpusová lingvistika. První vstup. Praha: Karolinum 1999. 94 s.

Počítačové spracovanie prirodzeného jazyka a Slovenský národný korpus

Mária Šimková

Plány Slovenského národného korpusu (2003 – 2006)

Ciele

Etapy

Textové zdroje

Adresa

Telefón

Mobil

E-mail