ctext2idngram
コマンドの解説
テキスト形式のデータから,
クラス言語モデルのための
ID n-gram形式のデータと
ID wfreq形式のデータを生成する.
呼び出し形式
ctext2idngram [option] -vocab file.vocab[.gz] -class file.cls[.gz] -idwfreq outf.idwfreq[.gz] [infile.text[.gz] [outfile.idngram[.gz]]]
-vocab で語彙ファイルを指定し,
-class でクラスファイルを指定する.
計算結果のID wfreq形式データの出力先は,-idwfreqで指定する.
infile.text, outfile.idngram を省略すると,標準入力と標準出力が
割り当てられる.
オプション
- -buffer バッファサイズ(MB)
-
入力のソートに使うメモリサイズを指定する.デフォルトの値はコンパイル
時に指定するが,そのままコンパイルすると100MBに設定される.
- -hash サイズ
- 集計に用いるハッシュ表の最初の大きさを指定する.デフォルトは20000.
- -max_class
- クラス数の最大値を指定する.デフォルトは65000.
- -d デリミタ
- textファイルの中の各単語で,クラスの区切りになっている文字を指定する.
デフォルトは``+''.
- -temp ディレクトリ
-
ソートのための一時ファイルを置くディレクトリを指定する.
- -n 長さ
-
生成されるn-gramの長さを指定する.デフォルトは3.
- -write_ascii
- バイナリでなく,テキスト形式で出力する.
- -one_unk
- 未知語を1個のシンボルとして扱う.このオプションがない場合,
未知語はクラスごとに別なシンボルとして扱われる.
- -verbosity 数字
-
実行時に,どの程度の情報を出力するかを制御する.0を指定すると,
余計な情報の出力をしない.デフォルトは2.
参照項目
wfreq2vocab,
text2idngram