統計と機械学習の間で

自分は機械学習も勉強している統計屋さんです、と立場表明した上で。

などの機械学習の本を読んでいて感じた違和感というかよく分かっていないことを書いてみます。たぶん、統計と機械学習を一緒に勉強しているからわけわかんなくなっているんだと思う。

機械学習とかを勉強していると正則化最小二乗法とかのところで誤差関数を
$\frac{1}{2} \sum^N_{n=1}\{t_n - \mathbf{w}^T \mathbf{\phi}(\mathbf{x}_n)\}^2 + \frac{\lambda}{2}\mathbf{w}^T\mathbf{w}$
と定義してあるものをよく見かける( $\lambda$ は正則化パラメータ)。正則化項を入れておかないと過学習しちゃうからっていう理由は分かる。こういうのもやったし。だけど、正則化項を入れて正則化最小二乗法とかをしようとした瞬間に、例えば(適当な仮定を置いた上での)統計の回帰分析におけるパラメータの検定とか不偏推定量になっているとかBLUE*1とかそういうよさそうな性質も一気に飛んでしまうよね。統計のほうではなんか結構な手間かけて導いた結果だったりするんだけど、正則化項を入れた瞬間に飛んでしまう。「過学習が問題なら情報量基準とかそういうので判断する方法もあるんじゃない?正規化項を入れないでパラメータ推定して情報量基準とかで最適なモデル決定してあげれば、過学習も防げるし、統計学の結果も使えるしいいんじゃないの?」などなどと考えてしまう。

まあ、そういう感じで機械学習面白いなーと思いつつも、そういうところに全く触れずに書いてあったりするので、僕としてはかなり違和感がある。両書とも(たぶん)機械学習屋さんのために書かれていると思うので、書いてないのも当然と言えば当然なのかもしれないけど。。。

こういうことを感じながらやっているせいか

機械学習を勉強している時は
- なんだか適当な感じがするなー
- パラメータの性質とかそれほど見てやってない付近に
統計を勉強している時は
- なんだか堅苦しい感じがするなー
- 色んな仮定とか、統計の本一冊使って書いてある内容が機械学習だと1章の半分くらいで終わっている付近に

などなどと感じている。どっちがいいとか悪いじゃなくって、ケースバイケースなんだろうけど。

例えば、マーケティングとか心理学で(予測すること自体より)重要な変数を知りたいとかだったら統計学のアプローチのほうがよい場合もあるだろうし、何かを(汎化性能も持った上で)予測精度を上げたいとかだったら機械学習のほうがよい場合もある。そういう感じなのかな。なんかこの辺の住み分けが未だによく分かってません＞＜。

自分としては統計のよい所を機械学習にぶちこんで、機械学習のよいところは統計にぶちこんでみたいなよく分からないものを考えていたりするんだけど、勉強不足でよく分かってない。