EMアルゴリズム→一般化EMアルゴリズム→変分ベイズ

EMアルゴリズム

自然言語処理特論で、EMアルゴリズムが紹介されたので、自分たちでやっているゼミでEMアルゴリズムについて紹介した。EMアルゴリズムの基本的な考え方は、対数尤度を変形していき、イェンセンの不等式によって下界を与え、その下界をカルバックライブラーダイバージェンスとQ関数に分解、パラメータについて関係あるQ関数の最大化をすれば、対数尤度関数も最大になる、というものであった。よい下界を与えてあげることで、最適化問題が簡単になりiterationの間、対数尤度対数尤度関数は単調非減少であるという性質から極大な点に収束してくれるというよい性質を持っていた。

一般化EMアルゴリズム

隠れ変数をもっと一般的な状況にしたものについて考える。因果ネットワークと呼ばれるようなものでは、隠れ変数と観測変数の依存関係が指数関数的に増えてしまい、EMアルゴリズムでは現実的な時間での計算が厳しくなる。このような状況においてもEMアルゴリズムの考え方が適用できないか?と考えてできたのが一般化EMアルゴリズムである。途中まではEMアルゴリズムと同じであるが、隠れ変数の同時分布が積の形で分解できるものと仮定するところが違ってくる(ただし、その分布系に関しては限定しない)。このような近似は統計物理学では平均場近似というらしいが物理とか知らな(ry。

この近似を(EMアルゴリズムでやったように)イェンセンの不等式に入れてあげて、KLダイバージェンスとに分ける。そうすると、これまたEステップとMステップをiterateさせるアルゴリズムが出てくる。近似のところを使わなければ普通のEMアルゴリズムなので、近似を使ったこのアルゴリズムを一般化EMアルゴリズムというらしい。

変分ベイズ

さて、EMアルゴリズム、一般化EMアルゴリズムはパラメーターの最尤推定をするためのアルゴリズムであった。これをベイズの枠組みで考えてやることについて考える。ベイズな考え方でいくと回帰問題などでは事後予測分布を計算できたりする点がうれしいところである。観察されたデータ、隠れ変数、パラメータ、モデル構造の4つを確率変数として扱うことを考える(ベイズな枠組みなので)。ベイズの定理より、データを得た後の未知変数に関しての同時事後分布を得ることができる(この式の分母の積分が難しい)。パラメータ以外の変数について周辺化すると、パラメータの事後分布が計算でき、これを使って、新しいサンプルに関しての事後予測分布を計算することができる。

しかしまあ、積分計算が大変なわけです。。。これをサンプリングによって計算しようというのがMCMCなどの方向性。変分ベイズでは、この積分が計算できるように近似を使うという方向性を取るのが特徴である。

歩む道としてはEMアルゴリズムと同様に対数尤度関数をイェンセンの不等式(ry、という感じであるが、今度は下界が関数に依存しており、最適化するために汎関数に関する知識が必要となる。というわけでこの辺から今日はちょっと分からなくなった。

さてはて

前見たときは「意味不明に難しい数式が並んでいる。。。」という印象だった変分ベイズがEMアルゴリズムやその一般化されたについてのさらなる拡張となっている、という結びつきがあるんだということが分かったのが収穫。それと変分ベイズとサンプリング法も関連しているんだ、という地図を頭の中に描けたのでよかったです。さてはて、今度は細かい数式追っていくかなー。