言語モデルのよさをはかる指標としてのパープレキシティ

今日の自然言語処理特論の講義がとても面白かったのでメモ。

今日の自然言語処理特論では、最初に言語モデルとしてn-gramのモデルの紹介があって、それの最尤推定の話。次に言語モデルのよさをはかる尺度としてエントロピー*1を元にしたパープレキシティが紹介された。

パープレキシティの導出のところはこんな感じ。まず情報量やエントロピーの導出のところの話があって、(頻度論的に)真のモデルがあると仮定したときにそのモデルと自分のモデルの仮想的な距離を相対エントロピー(=KLダイバージェンス)ではかろうとする。しかし、真のモデルの分布なんぞは分からないので困るのだが、Shannon-McMillan-Breimanの定理という素晴らしい定理(言語と計算 (4) 確率的言語モデルに説明が載っているらしい)があるらしく、これを利用すると真のモデルとの相互エントロピーを計算できる!!これはすごい。まあ、これに近似を入れるのだが、持ってくる文章長を長くすればある程度よさそうな感じである。

そして最後はn-gramのパープレキシティがどれくらいかというのを見た。ここで最尤推定の弱さが出てくるわけだが、そこでスムージングをすると大分よくなるよ!というのが来週以降の話。授業後質問させてもらったところ、そのスムージングはヒューリステックな感じのものではなく理論的なバックグラウンドが最近(?)証明されたらしく、それは階層的デリィクレ過程というベイジアンの枠組みを利用したものだということが分かった(この辺がノンパラベイズらしい)。

「ヒューリステックでなんだかなあ」と思っていたスムージングに理論的な背景がありそう!というところが一番興奮していました(しかし、数学が明かにやばそうである)。