Jazykové modely sú vo formáte iARPA s witten-bell vyhladzovaním. Na ich tvorbu bol použitý IRSTLM Tooklit. Modely sú vytvorené z tokenov konvertovaných na malé písmená.
Modely je možné stiahnuť tu.
K dispozícii sú aj neupravené frekvencie 2-, 3- a 4-gramov korpusu prim-6.0-public-all.