Šiesta verzia korpusu wiki-2019-08 bola sprístupnená 27. 1. 2020 v rozsahu 50 619 991 tokenov. Korpus obsahuje slovenské texty z Wikipédie dostupné k 1. 8. 2019. Táto verzia sa od predchádzajúcich líši okrem aktualizácie textov článkov v štyroch zásadných bodoch:
- bolo opravených niekoľko chýb spracovania MediaWiki značiek predchádzajúcich verzií;
- matematické výrazy ( elementy) sú spracované ako jeden token ako štruktúra ;
- pribudla štruktúra (lepidlo) na označenie miest medzi tokenmi, kde sa v pôvodnom texte nenachádza medzera;
- korpus neobsahuje texty Necyklopédie.