ctext2idngram

コマンドの解説

    ctext2idngram [option] -vocab file.vocab[.gz] -class file.cls[.gz] -idwfreq outf.idwfreq[.gz] [infile.text[.gz] [outfile.idngram[.gz]]]

-vocab で語彙ファイルを指定し， -class でクラスファイルを指定する．計算結果のID wfreq形式データの出力先は，-idwfreqで指定する． infile.text, outfile.idngram を省略すると，標準入力と標準出力が割り当てられる．

-buffer バッファサイズ(MB): 入力のソートに使うメモリサイズを指定する．デフォルトの値はコンパイル時に指定するが，そのままコンパイルすると100MBに設定される．
-hash サイズ: 集計に用いるハッシュ表の最初の大きさを指定する．デフォルトは20000．
-max_class: クラス数の最大値を指定する．デフォルトは65000．
-d デリミタ: textファイルの中の各単語で，クラスの区切りになっている文字を指定する．デフォルトは``+''．
-temp ディレクトリ: ソートのための一時ファイルを置くディレクトリを指定する．
-n 長さ: 生成されるn-gramの長さを指定する．デフォルトは3．
-write_ascii: バイナリでなく，テキスト形式で出力する．
-one_unk: 未知語を１個のシンボルとして扱う．このオプションがない場合，未知語はクラスごとに別なシンボルとして扱われる．
-verbosity 数字: 実行時に，どの程度の情報を出力するかを制御する．0を指定すると，余計な情報の出力をしない．デフォルトは2．