読者です 読者をやめる 読者になる 読者になる

PRML読書会第十回

機械学習 PRML 勉強会

8月から始めたskypeによるパターン認識と機械学習 上 - ベイズ理論による統計的予測の読書会も、こつこつとやってきて今回が第十回目です。予習とか全くなしで、2時間くらいやって10Pとかいう進行度合いですが、10回もやると100Pくらいに到達しました。この本が300Pくらいあることを考えると半年ちょっとで読み終わることになります。もちろん演習問題とかをちゃんと解いていたりするわけではないので、完璧に理解しているとは言えないのですが、これはなかなかな力になっているんじゃないかなと思います。

そんなわけで今日はP95のガウス分布に対するベイズ推論から、P107の周期変数のところまで読みました。

ガウス分布に対するベイズ推論

パターンとしては

  • 平均が未知で、分散が既知
  • 平均が既知で、分散が未知
  • 平均も分散が未知

という場合がある。それぞれの場合で共役事前分布が違うというところがみそ。あと、多次元への拡張も視野に入れると、以下のような表を作ることができる。

状況 一変数の場合の共役事前分布 多変数の場合の共役事前分布
平均が未知で、分散が既知 正規分布 ウィシャート分布
平均が既知で、分散が未知 ガンマ分布 逆ウィッシャート分布
平均も分散が未知 正規ガンマ分布 正規ウィシャート分布

一変数→多変数で見ると自然な拡張に見えない*1。多変数の場合で考えておいて、それを一次元に適用したのがガンマ分布だったり、正規ガンマ分布である、という理解のほうがスムーズに入っていけそうであると思った。

スチューデンツのt分布

統計学で導出するようなやり方と違ってちょっと迷った。xとtauの同時分布を考えて、tauで積分してxの周辺分布にするという作業で導出してあった。t分布の最尤推定解はEMアルゴリズムというので求めるらしい。あとは頑健性の話しとか、多変数への拡張とか。

周期変数

パラダイムがいきなり変わっていて、最初はよく分からなかった。というか今もちゃんと分かっているかは結構あやしい。とりあえず、どういう状況でこういうのが必要かとか、こういうの考えたいとかいうのをやったほうが理解しやすいかも。

密度関数を考えている時に多峰性になってしまうというのは結構ある。データ解析の授業の時とかには、「バイモーダル」とか言う言葉で登場した。
www.yasuhisay.info
まあ、ここでは周期なのでちょっと違うんだけど(この例を知っていたので、逆に混乱した)。ここで言う周期とかっていうのは、例えば降水量とか。12月までいったら1月に戻るとかそういうのを考えている。で、103Pとかの説明があるんだけど、私にはP104の説明から入ったほうが分かりやすかったかな、と思う。周期を持つような分布というのは例えば以下のような性質を満たすp(\theta)と考えることができる。

  1. p(\theta) \geq 0
  2. \int^{2\pi}_0 p(\theta) d \theta = 1
  3. p(\theta + 2 \pi) = p(\theta)

こういうのについて、ガウス分布とかを考える。そして、極座標変換とかをかます。そうすると、三角関数とかを駆使してフォンミーゼス分布という初めて聞くような分布を導出することができる。
p(\theta | \theta_0,m) = \frac{1}{2 \pi I_0(m)} \exp\{m \cos(\theta - \theta_0)\}
応用数理とかでしか見た記憶がないベッセル関数とかが出てきて嫌な感じがする。フォンミーゼス分布は周期を持たせることができるが、単峰性であるという制限があるが、混合分布を考えれば柔軟に色々することができるらしい。なんだか計算が死ぬことになりそうな気がするけど。

パターン認識と機械学習 上 - ベイズ理論による統計的予測

パターン認識と機械学習 上 - ベイズ理論による統計的予測

  • 作者: C. M.ビショップ,元田浩,栗田多喜夫,樋口知之,松本裕治,村田昇
  • 出版社/メーカー: シュプリンガー・ジャパン株式会社
  • 発売日: 2007/12/10
  • メディア: 単行本
  • 購入: 18人 クリック: 1,588回
  • この商品を含むブログ (111件) を見る

*1:少なくとも俺には