ngram2mgram

コマンドの解説

長さnのID-ngramから、長さmのID-ngramを生成する。

呼び出し形式

    ngram2mgram [options] -n 長さn -m 長さm file1.idngram file2.idngram
長さmは長さnより小さくなければならない。

オプション

-ascii_input
入力にascii形式を使う.
-ascii_output
ascii形式で出力する.

注意事項

ngram2mgramで生成したID-ngramは、最初から長さをmとして text2idngramで生成したID-ngramと厳密には一致しない。その理由は、 ngram2mgramがID-ngramの再集計を元にしているためである。 例えば、trigramからbigramを求める場合、元となるテキストの最後が
    w[n-3] w[n-2] w[n-1] w[n] </s>
で終っていたとすると、再集計によって求めたbigramカウントには、 最後のw[n] </s>が含まれない。これは、大量のデータを元にする場合 には問題ないであろうが、データが多い場合には問題となるかも知れない。

参照項目

text2idngram, ctext2idngram