text2idngram
コマンドの解説
テキスト形式のデータから,
ID n-gram形式のデータを生成
する.
呼び出し形式
text2idngram [option] -vocab file.vocab[.gz] [infile.text[.gz] [outfile.idngram[.gz]]]
-vocab で語彙ファイルを指定する.
オプション
- -buffer バッファサイズ(MB)
-
入力のソートに使うメモリサイズを指定する.デフォルトの値はコンパイル
時に指定するが,そのままコンパイルすると100MBに設定される.
- -hash サイズ
- 集計に用いるハッシュ表の最初の大きさを指定する.デフォルトは20000.
- -temp ディレクトリ
-
ソートのための一時ファイルを置くディレクトリを指定する.
- -n 長さ
-
生成されるn-gramの長さを指定する.デフォルトは3.
- -d 距離
-
distance bigramを作成する時の距離を指定する。
-d 0 で通常のbigram と等価である。-d を指定する場合、
同時に -n 2 を指定しなければならない。
- -write_ascii
- バイナリでなく,テキスト形式で出力する.
- -verbosity 数字
-
実行時に,どの程度の情報を出力するかを制御する.0を指定すると,
余計な情報の出力をしない.デフォルトは2.
参照項目
wfreq2vocab,
ctext2idngram