@tkf君に(大分昔に)勧めてもらった本をミスドで読んでた。半年くらい積読になっていたような気がするが、気にしたら負けである。学部3年以上なら普通に読めると思う。
情報理論の基礎―情報と学習の直観的理解のために (SGC Books)
- 作者: 村田昇
- 出版社/メーカー: サイエンス社
- 発売日: 2008/08
- メディア: 単行本
- 購入: 4人 クリック: 11回
- この商品を含むブログ (7件) を見る
あとはいつものごとく自分用のメモ。超適当なことを書いている。
KL情報量
Pythagorasの定理というのが重要な役割を果たす。確率分布の差のベクトルと確率分布の対数の差のベクトルの内積を考えると、Pythagorasの定理の定義が成立するのはこの2つのベクトルが直交しているときである。前者をm-表現、後者をe-表現と呼ぶ。
これと「直交葉層化」というのを使うと確率分布の空間での2つの射影を定義することができる。こういう幾何的な見方によれば、最尤推定は、経験分布とモデル間のKL情報量をモデルに関して最小化*1しているので、m-射影と解釈できる。その他もろもろの幾何的解釈のまとめっぽいのはp49辺りに載ってる。
モデル選択
- 不偏推定量の分散の下界を示すクラメルラオの不等式の導出
- 最尤推定量がこの下界を達成すること
などなどがわりと明快に書いてある。あと、最尤推定量の漸近正規性についても(簡潔に)書いてある。
AICの考え方も導出と一緒に幾何的な解釈が書いてあってよい。真の分布と一番近いようなモデルがよいんだけど、真の分布なんて分からない。そこで、推定量の漸近正規性を用いて真の確率分布と推定したモデルの平均を評価してやろう、というのがAICの基本的な考え。
MDL(Minimum Description Length)についても説明がある。MDLの基本的な考え方は確率モデルをパラメトリックなモデルでパラメータ推定し、そのモデルに基づいてデータの符号化、さらにパラメータも符号化して送ろうというようなもの。データの符号化については当たり前のところで、パラメータの符号化についてちょっと書いてある。MDLはデータと確率モデルを同時に伝えるための必要な符号長が一番短かいモデルが最も効率よいモデルである、とするような選択の方法である。
このMDLは真の分布とBayes統計の予測分布におけるKL情報量の推定量として捉えることができる*2。これはBICとも呼ばれる。パラメトリックなモデルの対数尤度関数を考え、事前分布は無情報事前分布とする。これを最尤推定量周りでTaylor展開をすると事後分布の対数が2次関数となり、これよりNが十分に大きければ正規分布に従うことが分かる。また、周辺尤度(エビデンスともいう)の負の対数、すなわち情報量について考えるとMDLと同じ量を導出することができる。その後の付近にどういう状況でAICとMDLを使い分けるとよいかというようなことも書いてある(p111)。