text2idngram

コマンドの解説

テキスト形式のデータから, ID n-gram形式のデータを生成 する.

呼び出し形式

    text2idngram [option] -vocab file.vocab[.gz] [infile.text[.gz] [outfile.idngram[.gz]]]

-vocab で語彙ファイルを指定する.

オプション

-buffer バッファサイズ(MB)
入力のソートに使うメモリサイズを指定する.デフォルトの値はコンパイル 時に指定するが,そのままコンパイルすると100MBに設定される.
-hash サイズ
集計に用いるハッシュ表の最初の大きさを指定する.デフォルトは20000.
-temp ディレクトリ
ソートのための一時ファイルを置くディレクトリを指定する.
-n 長さ
生成されるn-gramの長さを指定する.デフォルトは3.
-d 距離
distance bigramを作成する時の距離を指定する。 -d 0 で通常のbigram と等価である。-d を指定する場合、 同時に -n 2 を指定しなければならない。
-write_ascii
バイナリでなく,テキスト形式で出力する.
-verbosity 数字
実行時に,どの程度の情報を出力するかを制御する.0を指定すると, 余計な情報の出力をしない.デフォルトは2.

参照項目

wfreq2vocab, ctext2idngram