Zoznam článkov
Hovorený korpus s-hovor-7.0 obsahuje v najnovšej verzii 869 nahrávok, čo predstavuje 851 hodín zvukových záznamov v rozsahu 7 852 469 tokenov. Textový prepis hovoreného korpusu je lematizovaný a morfologicky anotovaný, vyhľadávať sa dá na základe konkrétneho slova, lemy alebo výslovnosti. Pri prepisoch je uvedená sociolingvistická informácia o respondentoch a základné informácie o pôvode a obsahu…
Korpus nárečí SNK dialekt-5.0 obsahuje v najnovšej verzii vyše 100 zdrojových textov v rozsahu 980 643 tokenov. Texty v korpuse nárečí nie sú lematizované ani morfologicky anotované, avšak vyhľadávať sa v ňom sa dá na základe konkrétneho slova (word) a pomocou zástupných (meta)znakov. Pri prepisoch sú uvedené sociolingvistické údaje o informátoroch a explorátoroch, ako aj…
Historický korpus slovenčiny hist-6.0 obsahuje v najnovšej verzii 916 743 tokenov. Texty v historickom korpuse slovenčiny nie sú lematizované ani morfologicky anotované, avšak vyhľadávať sa v ňom dá pomocou tvarov slov a CQL. Na úrovni vyhľadávania bola doplnená možnosť výberu rozlišovať alebo nerozlišovať ypsilon od ÿ. Viac informácií o korpuse, jeho zložení a anotáciách nájdete…
Slovensko-španielsky paralelný korpus obsahuje celkovo 225 knižných titulov, čo predstavuje 35,6 miliónov tokenov (18,9 miliónov tokenov v španielskej časti a 16,7 miliónov tokenov v slovenskej časti). Viac informácií o korpuse, jeho zložení a anotáciách nájdete tu. Korpus možno využívať po bezplatnej registrácii. .