Jazykové modely

Jazykové modely sú vo formáte iARPA s witten-bell vyhladzovaním. Na ich tvorbu bol použitý IRSTLM Tooklit. Modely sú vytvorené z tokenov konvertovaných na malé písmená.

Modely je možné stiahnuť tu.

K dispozícii sú aj neupravené frekvencie 2-, 3- a 4-gramov korpusu prim-7.0-public-all.