changeidvocab
コマンドの解説
ID n-gram形式のデータ
の語彙を変更する.
ある語彙Vで作成したID n-gramデータをDとする.また,
語彙Vのサブセットであるような語彙V'を考えたとき,元のテキストデータ
からV'によって作成したID n-gramをD'とする.changeidvocabは,
DからD'を生成するプログラムである.
呼び出し形式
changeidvocab [options] -from_vocab v1.vocab -to_vocab v2.vocab [in.idngram[.gz]] [out.idngram[.gz]]
オプション
- -from_vocab v1.vocab
- 入力のidngramの語彙ファイルを指定する.
- -to_vocab v2.vocab
- 出力のidngramの語彙ファイルを指定する.v2.vocabに含まれる単語は,すべて
v1.vocabにも含まれていなければならない.
- -buffer バッファサイズ(MB)
-
入力のソートに使うメモリサイズを指定する.デフォルトの値はコンパイル
時に指定するが,そのままコンパイルすると100MBに設定される.
- -hash サイズ
- 集計に用いるハッシュ表の最初の大きさを指定する.デフォルトは20000.
- -temp ディレクトリ
-
ソートのための一時ファイルを置くディレクトリを指定する.
- -n 長さ
-
生成されるn-gramの長さを指定する.デフォルトは3.
- -ascii_input
- 入力をテキスト形式にする.
- -ascii_output
-
出力をテキスト形式にする.
- -verbosity 数字
-
実行時に,どの程度の情報を出力するかを制御する.0を指定すると,
余計な情報の出力をしない.デフォルトは2.
参照項目
text2idngram