Ôsma verzia webového korpusu sprístupnená

Sprístupnili sme ôsmu verziu webového korpusu – web-8.0. Táto verzia obsahuje 5 889 464 749 tokenov, čo je približne o 600 miliónov tokenov viac než v predchádzajúcej verzii. Najnovšiu verziu webového korpusu nájdete po prihlásení do svojho konta SNK v časti – Písané korpusy – Webové korpusy.

Korpus možno využívať po bezplatnej registrácii

Viac informácií nájdete na tomto odkaze.

 


 

Ak korpus použijete vo svojej práci alebo ho chcete spomenúť, použite, prosím, nasledujúci odkaz:

Benko, V. (2024). The Aranea Corpora Family: Ten+ Years of Processing Web-Crawled Data. In: Nöth, E., Horák, A., Sojka, P. (eds) Text, Speech, and Dialogue. TSD 2024. Lecture Notes in Computer Science, vol 15048. Springer, Cham.