Korpus textov denníka SME z r. 2022 – 2023

Korpus sme01-2022az06-2023 bol sprístupnený dňa 7. 7. 2023 v rozsahu 34 473 536 textových jednotiek. Obsahuje texty zo stránok denníka SME od januára 2022 do júna 2023.

Texty v tomto korpuse majú bibliografickú a štýlovú anotáciu totožnú s anotáciou v korpuse prim, sú lematizované a morfologicky anotované nástrojom MorphoDiTa natrénovaným v SNK na báze tagsetu používaného pri písaných korpusoch. Korpus obsahuje aj automaticky značené nadpisy (<h1>) a podnadpisy (<h2>).