すっきりした

何かここ数日ずっと考えて、調べまくって、それでも結局分からなかったところを、マネイジメント実習が終わった後に先生に質問にいった。アポなしで行くというアフォなことをしたけど、とっても親切におしえてくださった先生に感謝。

自分のメモ代りにも書いておこう。不正確過ぎるが、アウトプットとして出しておきたい。なお、(いないと思うが)ここを信用してとんでもないめにあっても何も保証しません。

今回聞きに行ったのは次のこと。

一般の*1線形の回帰モデルにおいて誤差項が正規分布に従う、っていう仮定を置いているものは結構見掛けるように思う。だけど、誤差項が一様分布に従う、としたときでもパラメータの平均、分散、分布はNを無限大にしたときには正規分布に従うと仮定したときと変わらないという結果が理論から導き出され、また、実際のデータからもそうなった。

じゃあ、なんで誤差項が正規分布に従うというような仮定を置いたりしているのか。別にいらない仮定だったらやる必要がないのではないか。

まあ、課題とは関係ないんですがやっているうちに回帰モデルの仮定についてよく分からなくなった、というわけ。

で、分かったことは以下のこと。

誤差項が平均0で有限の分散を持つならば、中心極限定理を使えるくらいNが大きければ誤差項の分布は正規分布ではなくても問題はない。条件を満たしているならば、パラメータは漸近的に*2正規分布に近づき、t検定なども行える。

で、問題になるのは二つくらいある。

ひとつはNが少ないとき。Nが十分に大きくないと、誤差項が平均0で有限の分散を持っていても、中心極限定理が使えない。なので、パラメータの検定や予測値の信頼区間などを出すことができない。しかし、これらをやる必要がないときには誤差項の分布は正規分布である必要はない。また、Nが十分に大きくないといっても経験的に25くらいあれば適用できるし、それくらいのサンプル数なら集められることが多い。というわけで、実際の場面においては誤差項が正規分布に従うというのはそれほど心配する必要はないっぽい。そういう意味ではデータ解析とかで正規分位点分位点プロットとかをやって、誤差項が正規分布に従っているかを確認したのはそれなりに慎重な姿勢、という感じになるのだろうか。

二つめは分散が有限でないとき。例えば誤差項がランダムウォークに従うような場合だとNを無限大にしたときに分散が無限大に行ってしまう。これだと中心極限定理を使うことができず、パラメータも正規分布とはならない。コーシー分布とかでもこのようなことが起こる*3

まあ、一つ目と二つ目は言及している仮定が違うとかいう問題があるのだが、とりあえず気にしない。課題ではないけど、誤差項がランダムウォークする場合とかコーシー分布に従う場合とかも自分で勝手にやってみたりしているところであります。コーシー分布のぶっとびかたが半端なくて面白い。

*1:一般化、じゃないよ

*2:って意味分かってないで使ってる。勉強しないと。

*3:現実問題として、コーシー分布に従うような時ってあるのかなあ