「情報理論の基礎」を読んでた

@tkf君に(大分昔に)勧めてもらった本をミスドで読んでた。半年くらい積読になっていたような気がするが、気にしたら負けである。学部3年以上なら普通に読めると思う。

情報理論の基礎―情報と学習の直観的理解のために (SGC Books)

情報理論の基礎―情報と学習の直観的理解のために (SGC Books)

符号化に関する定理とかを勉強しようと思ってたんだけど、モデル選択とかの話に夢中になって(ry、という感じでした。似たような話題を扱ってる本は色々あると思いますが、一貫して幾何的解釈で説明しようというところがユニークな感じでした。確率モデルや学習理論、モデル選択うんぬんが確率分布の空間におけるモデル多様体との距離で考えられるっていうのはなかなか読んでて萌えました。このくらいの厚さの本は説明する気がないような説明が多かったりするような気がするけど、説明しようという気がある説明でよかったです(ぉ。

あとはいつものごとく自分用のメモ。超適当なことを書いている。

KL情報量

Pythagorasの定理というのが重要な役割を果たす。確率分布の差のベクトルと確率分布の対数の差のベクトルの内積を考えると、Pythagorasの定理の定義が成立するのはこの2つのベクトルが直交しているときである。前者をm-表現、後者をe-表現と呼ぶ。

これと「直交葉層化」というのを使うと確率分布の空間での2つの射影を定義することができる。こういう幾何的な見方によれば、最尤推定は、経験分布とモデル間のKL情報量をモデルに関して最小化*1しているので、m-射影と解釈できる。その他もろもろの幾何的解釈のまとめっぽいのはp49辺りに載ってる。

モデル選択

  • 不偏推定量の分散の下界を示すクラメルラオの不等式の導出
    • 最尤推定量がこの下界を達成すること

などなどがわりと明快に書いてある。あと、最尤推定量の漸近正規性についても(簡潔に)書いてある。

AICの考え方も導出と一緒に幾何的な解釈が書いてあってよい。真の分布と一番近いようなモデルがよいんだけど、真の分布なんて分からない。そこで、推定量の漸近正規性を用いて真の確率分布と推定したモデルの平均を評価してやろう、というのがAICの基本的な考え。

MDL(Minimum Description Length)についても説明がある。MDLの基本的な考え方は確率モデルをパラメトリックなモデルでパラメータ推定し、そのモデルに基づいてデータの符号化、さらにパラメータも符号化して送ろうというようなもの。データの符号化については当たり前のところで、パラメータの符号化についてちょっと書いてある。MDLはデータと確率モデルを同時に伝えるための必要な符号長が一番短かいモデルが最も効率よいモデルである、とするような選択の方法である。

このMDLは真の分布とBayes統計の予測分布におけるKL情報量の推定量として捉えることができる*2。これはBICとも呼ばれる。パラメトリックなモデルの対数尤度関数を考え、事前分布は無情報事前分布とする。これを最尤推定量周りでTaylor展開をすると事後分布の対数が2次関数となり、これよりNが十分に大きければ正規分布に従うことが分かる。また、周辺尤度(エビデンスともいう)の負の対数、すなわち情報量について考えるとMDLと同じ量を導出することができる。その後の付近にどういう状況でAICとMDLを使い分けるとよいかというようなことも書いてある(p111)。

*1:これの根拠がある場所を忘れた。。。

*2:Bayesなのに真のモデルってなんかおかしくないか?