Jazykové modely sú vo formáte iARPA s witten-bell vyhladzovaním. Na ich tvorbu bol použitý IRSTLM Tooklit. Modely sú vytvorené z tokenov konvertovaných na malé písmená.
Modely je možné stiahnuť tu.
K dispozícii sú aj neupravené frekvencie 2- a 3-gramov korpusu prim-5.0-public-all.