ngram2mgram
コマンドの解説
長さnのID-ngramから、長さmのID-ngramを生成する。
呼び出し形式
ngram2mgram [options] -n 長さn -m 長さm file1.idngram file2.idngram
長さmは長さnより小さくなければならない。
オプション
- -ascii_input
- 入力にascii形式を使う.
- -ascii_output
- ascii形式で出力する.
注意事項
ngram2mgramで生成したID-ngramは、最初から長さをmとして
text2idngramで生成したID-ngramと厳密には一致しない。その理由は、
ngram2mgramがID-ngramの再集計を元にしているためである。
例えば、trigramからbigramを求める場合、元となるテキストの最後が
w[n-3] w[n-2] w[n-1] w[n] </s>
で終っていたとすると、再集計によって求めたbigramカウントには、
最後のw[n] </s>が含まれない。これは、大量のデータを元にする場合
には問題ないであろうが、データが多い場合には問題となるかも知れない。
参照項目
text2idngram,
ctext2idngram