Špecializovaný korpus textov z tematickej oblasti webového copywritingu z prostredia webových sídel spoločností (propagačné a sebaprezentačné texty) cw-2014-all bol pripravovaný v novembri a decembri 2014 a sprístupnený 15. 12. 2014 v rozsahu 1 648 229 tokenov.
Obsahuje 1 441 stránok z 339 webových sídel väčších i menších komerčných spoločností, ako aj verejných inštitúcií. Duplicitnosť niektorých výrazov je spôsobená cieľom výskumu, pre ktorého potreby sa indexoval plný text príslušnej stránky (neodstraňovali sa texty z bočných líšt ani z navigačného menu).
Korpus bol pripravený v SNK JÚĽŠ SAV na základe koncepcie E. Jůnovej z Katedry mediamatiky a kultúrneho dedičstva Fakulty humanitných vied Žilinskej univerzity v Žiline pre potreby jej dizertačnej práce počas študijného pobytu v SNK JÚĽŠ SAV.
Korpus je lematizovaný a morfologicky anotovaný, pri textoch je uvedená informácia o ich zdroji – príslušnosti k webovému sídlu spoločnosti alebo inštitúcie.