Program: Program CIP ICT-PSP – Multilingual Web
Doba riešenia: 2011 – 2013
Koordinátor: Výskumný ústav jazykovedy Maďarskej akadémie vied
Zodpovedný riešiteľ za SAV: Jazykovedný ústav Ľudovíta Štúra Slovenskej akadémie vied
Anotácia: Technológie spracovania ľudského jazyka zásadne závisia od jazykových zdrojov a nástrojov, ktoré sú použiteľné, užitočné a dostupné. Avšak aj tam, kde jazykové zdroje a príslušné nástroje existujú, boli často vyvíjané sporadicky, ako reakcia na konkrétne potreby projektov, pričom sa relatívne málo zohľadňovala ich dlhodobá udržateľnosť, právny status (IPR), interoperabilita, opätovná použiteľnosť v rôznych kontextoch, ako aj ich potenciálne využitie v viacjazyčných aplikáciách. Projekt CESAR, v úzkej súčinnosti s iniciatívou META-NET, si kladie za cieľ riešiť tento problém prostredníctvom rozšírenia, modernizácie, štandardizácie a prepojenia širokej škály jazykových zdrojov a nástrojov, a ich sprístupnením, čím prispeje k otvorenej jazykovej infraštruktúre. Partneri v konzorciu CESAR sú kľúčoví aktéri vo svojich jazykových komunitách s preukázanými skúsenosťami z európskych projektov jazykových technológií, vrátane infraštruktúrnych iniciatív ako TELRI v minulosti a najmä CLARIN v súčasnosti. Projekt sprístupní komplexný súbor jazykových zdrojov a nástrojov pre jazyky: maďarský, poľský, chorvátsky, srbský, bulharský a slovenský. Zdroje budú zahŕňať interoperabilné jedno- a viacjazyčné databázy reči, korpusy, slovníky a wordnety, ako aj relevantné nástroje jazykového spracovania, ako sú tokenizéry, lematizéry, značkovače (taggery) a syntaktické analyzátory (parsre).
Bližšie informácie o projekte nájdete tu.