PRML3章線形回帰モデルが終わった

研究科の友達とやっているPRML勉強会で、第3章が終わりました。忘れないようにメモっておきます。

3.1章【線形基底関数モデル】

基底関数を使った線形回帰モデルを定義。加法性のガウスノイズを使って、確率変数にし尤度関数も定義。尤度関数を最大にするように勾配ベクトルを求めるなどすると、いつものdesign matrixが出てくる。基底関数を使うことで非線形なものを扱うことができるようになったけど、パラメータに関して線形であることで正規方程式となって、閉じた形で $w_{\mbox{ML}}$ を求めることができるのでうれしい。

幾何的な解釈を与えた後、バッチ処理ではなくオンライン学習でやる方法。その後、正則化項を導入。しかし、結局wに関して閉じた形で解くことができた。L1正則化(lassoと書いてあるけど)を導入すると、0に近いようなパラメータの数を増やすことができる。その後、出力変数が多次元になった場合にどうすればいいか書いてある。

3.1章は担当していたところだったので、もう少し詳細に書いている。

線形回帰モデル - yasuhisa's blog

3.2章【バイアス-バリアンス分解】

いわゆる普通のバイアスとバリアンスのトレードオフのところ。期待二乗損失を定義して、変形。バイアスの二乗の項とバリアンスの項に分解。図を使って、バイアスとバリアンスがどのようなものであるかを説明。図3.5が分かりやすい例となっている。

正則化パラメータがバイアスとバリアンスを制御している、ということが分かる。バイアスの二乗の項とバリアンスの項が交差するところの正則化パラメータを使うとテストデータでの誤差も小さくなる(図3.6)。

3.3章【ベイズ線形回帰】

3.1章では頻度論的な立場で線形回帰モデルを作っていったが、ここではベイズ流でどうやるかについて説明。「パラメータ」の分布を導入。パラメータの事前分布をガウス分布としておくと、2章のガウス分布に関する結果から、事後分布もガウス分布となる(共役な事前分布)。事前分布に関する分散共分散行列を単位行列に $\alpha^{-1}$ として、 $\alpha \rightarrow \infty$ とすると事前分布はパラメータに関して何も知らない、ということを表わせる。事後分布は尤度と事前分布の積に比例するので、それを使い、事後分布の対数を取る((3.55)式)。そうすると頻度論のときの正則化項を導入したものと同じものが出てくる。つまり、ベイズ流ではパラメータに関する事前分布を取ることで、過学習を抑制する仕組みになっているということである。これはなかなか興味深い結果。

wに関する事後分布が得られたので、それを使うことで新たなtに対する予測事後分布を考えることができる((3.57)式)。予測分布の分散はデータを加えるごとに小さくなるということも分かる。

また、この事後分布の平均解はカーネルの形に持っていくこともできる(等価カーネル)。等価カーネルは共分散と関連があるということや、カーネルの性質に関して少し説明があって、この等価カーネルが内積の形で表現できるということが書かれている。

3.4章【ベイズモデル比較】

1章では、交差確認によって、正則化パラメータの値やモデル選択の方法が与えられた。これに関してベイジアンな考え方でモデルを選択する方法について考察。

モデルがL個あるとして、それぞれの事前分布と尤度(モデルエビデンス)を考えることができる。モデルの事後分布が分かると予測分布について考えることができるが、これは各モデルの事後分布についての混合分布(2.3.9章)となっていることが確認できる。

また、パラメータに関する積分を近似すると、モデルエビデンスの解釈を得ることができる。じごパラメータの事後分布のモードが $w_{\mbox{MAP}}$ 近傍で鋭く尖っているときを考える。そうすると積分がただの長方形の面積のようにすることができる。これの対数を取ると、モデルの複雑さによりトレードオフが起こることが分かる((3.72)式)。これにより、エビデンスを最大にするようなモデルの複雑さは、バランスのよいものとなる。

図3.13を使って、同様に中間程度の複雑さを持つものが選択されるということが説明されている。ここでは「model generates data.」という感じになっていて、モデルが生成するデータ集合というものを横軸に考えている。複雑すぎるモデルだと、予測分布が広域に分布し、p(D)が最大になることはほとんどない。一方、単純すぎるモデルでも、狭い領域にしかないので、この場合もp(D)が最大になることはほどんどない。どういうときに起こりやすいかというと中間程度の複雑さを持つモデル、ということになる。また、期待ベイズ因子というものを考えると、これは真のモデルとのカルバックライブラーダイバージェンスが出てくる。

このようにベイズの枠組みを使うと、cross-validationを行うことなく(よって、計算も軽くなる)、過学習を防ぐことができる。しかし、これは比較するモデルの中に真の分布が含まれていることを前提にしており、この前提が満たされない場合には間違った結果を導くこととなる。また、変則事前分布については、周辺尤度を定義できなくなるなり、エビデンスも定義できないといった問題が起こる。これらの問題から、実際の応用場面では、テスト用のデータを独立に用意しておくというcross-validationの枠組みでやるのが賢明である、というようなまとめがされている。

3.5章【エビデンス近似】

3.3章からベイズ流の線形回帰の枠組みを説明し、事後分布の対数を最大にするようなwを求め、それを使い新たなtの予測分布を求めた。3.4章では複数のモデルがあったときに、中間程度の複雑さを持つモデルが採用されやすいというのをモデルエビデンスの単純な近似により説明された。パラメータwとモデルが求まったということになるが、まだ求まっていないものがある。それはハイパーパラメータ $\alpha$ と $\beta$ である。これをエビデンス近似の枠組みで決定し、その中でハイパーパラメータが果している役割について見ていっている。

$\alpha$ と $\beta$ に関する事前分布を共役なものにすれば、ハイパーパラメータに関する積分ができるが、そうでない一般の場合には積分が困難となる。ハイパーパラメータ $\alpha$ と $\beta$ の同時事後分布が鋭く尖っているようなときには近似を使って、wについて周辺化した予測分布を得ることができる((3.75)式)。周辺尤度関数のことをエビデンス関数というが、行列演算と積分を少し頑張ると、周辺尤度の対数を得ることができる((3.86)式)。ちなみに、(3.80)式を自力で導出しようと苦戦していたが、結局回答を見てしまった。ちょっとトリッキー。

http://research.microsoft.com/~cmbishop/PRML/prml-web-sol-2007-10-05.pdf

これを $\alpha$ と $\beta$ について最大化していく(固有値に関する性質をいくつか使う)。結局閉じた形では求まらないので、収束するまでiterationを回すことになる。

最後にハイパーパラメータ $\alpha$ の解釈について考えてある。固有値 $\lambda_i$ と $\alpha$ の間に $\lambda_i >> \alpha$ のような関係が成立するときには $\lambda_i / (\lambda_i + \alpha)$ は1に近くなる。この場合のパラメータ $w_i$ は最尤解に近くなり、事前分布よりもデータに強く影響されていることが分かる。このようなパラメータのことをwell determinedパラメータと呼ぶ。一方、 $\lambda_i << \alpha$ の場合は逆で事前分布に強く影響され、 $w_i$ は0に近いようなところにくる。これが分かると(3.91)式で定義される $\gamma$ は有効なwell determinedパラメータの数を表わしているということが分かる。その後、分散のベイズ推定はこの $\gamma$ によってバイアスが補正されているということが書かれている。