読者です 読者をやめる 読者になる 読者になる

PRML読書会第七回

機械学習 PRML 勉強会

第一章が終わったんだぜ!!!あと今回は全員集合でしたー。

相対エントロピーと相互情報量

相対エントロピー

前回の勉強会では微分エントロピーの話とかが出てきたんだけど、それを使ったりして相対エントロピーというものを導出していた。微分エントロピーはH [x] = - \int p(x) \log p(x) dxで与えられた。p(x)をある未知の分布として、近似的にq(x)でモデル化するような状況を考える。

そうするとそれぞれの分布の微分エントロピーの差のようなものを考えることができて、それはカルバックライブラーダイバージェンスと呼ばれるものである。
\mbox{KL}(p||q) = -\int p(x) \log q(x) dx - (- \int p(x) \log p(x) dx) = -\int p(x) \log \frac{q(x)}{p(x)} dx
距離っぽい感じなんだけど、非対称であることに注意。\mbox{KL}(p||q) \geq 0であり、等号が成立するのはp(x)=q(x)のときのみである。

という上のことを直感的にそうだよねーというのを確認した後、凸関数などを導入して示してあった。凸関数はまあよいとして(ぉ*1。数学的帰納法をごにょごにょと使うと、f(\sum^M_{i=1}\lambda_i x_i) \leq \sum^M_{i=1}\lambda_i f(x_i)が示せて、これよりf(E[x]) \leq E[f(x)]f(\int x p(x) dx) \leq \int f(x) p(x) dxがもれなく示せます。で、これを使うとさっきのことが証明できるっと。

q(x)とp(x)とのずれが大きくなると近似に必要な情報量がより必要になる、という付近をid:n_a_u先生に教えてもらった。本にも「最も効率的な圧縮は真の分布を知っているときに達成される」と書いてあった。ふむふむ。

で、p(x)とか未知なのにどうするんだ、ってことで近似式(1.119)が出てくるんだけど、この近似ってどうなんだろうねーという話が出た。「…な条件が満たされる時」とかそういうものはないのかとか思ってしまった。まあ、それは他の本とかでやってくれということかな。

まあ、そんなこんなで\thetaについてカルバックライブラーダイバージェンスを最小化していくんだけど、結局これって尤度最大化と一緒のことをやっているんだよねというのも書かれていた。これはまあよい。

相互情報量

2つの確率変数があったときにそれが独立であるか、または独立に近いかを知るためのツールとして相互情報量というのがある。相互情報量というのは同時分布と周辺分布の積でのカルバックライブラーダイバージェンスで与えられる。すなわちI[x,y] = \mbox{KL}(p(x,y)||p(x)q(y)) = - \int \int p(x,y) \log \frac{p(x)p(y)}{p(x,y)} dxdyということである。独立のときのみI[x,y]=0となる。で、確率の加法定理、乗法定理を使うと、I[x,y] = H[x] - H[x|y]となることが示せたりする。式の証明とかべん図とかは下のurlを参照のこと。

確率分布

ここはまあ知ってることが多かったんだけど、十分統計量の直感的な説明ってむずかしいなーなどした。

参加者のレポート

*1:二階微分が至るところで正である付近は示しておいたほうがよさげかな