読者です 読者をやめる 読者になる 読者になる

俺的統計の進め方

統計学

id:wakutekaid:HashIntroduction to the theory of statisticsの読書会にこっそりチャットのログを見たりしながら参加しているんだけど、統計な研究室にいる俺がほぼ一年間でどういう感じで勉強を進めてきたかを書いみようと思う。新4年生も入ってくる時期ですしね(あんまり関係ない)。

今俺がいる研究室の先生や先輩の影響と俺のバイアスを強く受けた例である、ということを念頭に置いて読んだがいいと思う。

統計学の基礎

学部の3年から4年になる頃だと、統計学ってt検定だとかX^2検定とか、あるいは重回帰とかの多変量解析みたいなのを想像している頃だったかもしれない。が、そんなのは基礎ができればいくらでも自分で勝手にできると思うので、とにかく基礎となるものを固めるといいと思う。さっき書いたような応用っぽいのは探せばきりがないくらい出てくるし、全部身につけたからって何?って感じだと思っている。それよりもっと幅広く使える基礎をとっとと固めるべきである(俺を含めて)。

「じゃあ、統計学の基礎って何だよ」っていう話になるんだけど、エッセンスはIntroduction to the theory of statisticsにつまっていると俺は思っている。具体的には

  • Probability
  • Random Variable, Distribution Function, and Expectation
  • Special Parametric Families of Univariate Distributions
  • Joint and Conditional Distributions, Stochastic Independence, More Expectation
  • Distribution of Functions of Random Variables
  • Sampling and Sampling Distributions
  • Parametric Point Estimation

といったところかな。この本はまだ

  • Parametric Interval Estimation
  • Tests of Hypotheses
  • Liner Models
  • Nonparametric Method

といったところがあるけど、エッセンスは上に書いたParametric Point Estimationの章までで十分だと思う。

Probability

実は一番難しいとも言える章。id:wakutekaid:Hashがやるんだったら、いい意味で適当に進めていくのがいいと思う。というか本当にやろうと思うと、確率論なところであるし、ルベーグ積分な知識がどうしても必要。なんとなく分かって気になって進めても問題ないと思う。Parametric Point Estimationの章まできた付近で必要性を感じたら、戻ってくればいいと思う。

内容としては標本空間、確率関数、条件付き確率、事象の独立性など。高校までの確率の知識でついていけると言えばいけるところだし、まあそれをちゃんと定義したものだと思って読み進めていけばいいと思う*1

Random Variable, Distribution Function, and Expectation

確率変数の概念、分布関数、密度関数、期待値の定義。この辺からもしかしたら知らないものが出てくる人がいるかもしれないけど、例が豊富に出てくるので、それを読みつつやっていけばいいと思う。Moment Generating Functionことモーメンント母関数のありがたさが分かってくればたぶんこの章が分かってきた感じになるんじゃないでしょうか(うちの学類じゃ2年生でやったことになってますが)。

Special Parametric Families of Univariate Distributions

主要な、というかよく出てくる分布系についての話。知っている分布だったら読んでけばいいし、練習問題とかにはマクアックな分布も出てくるけど、主要なものを抑えれば問題ないと思う。最初勉強するときに何が主要か分からない、ということがあるかもしれないけど、Appendix Bに載っている付近をやれば十分じゃないかな。

Joint and Conditional Distributions, Stochastic Independence, More Expectation

同時分布、条件付確率、確率的独立、様々な期待値の概念といったところ。4年で研究室入った時はこの辺からペースが落ちてきた気がする。Conditional Distributionsとかの定義は分かるんだけど、具体的にどういうものなのか、というのがいまいち自分のものになってなかったというところでした。研究室のホワイトボードに図を書いてああでもないこうでもないといっていたのがなつかしいです。

で、この章は2変数以上の確率変数の同時分布etcに関する章。最初はなじまなかったりするかもしれないけど、証明もかなり詳細に書いてあると思うし、具体例も載っているので、追えないことはないと思う。詳細な計算方法とかは覚えなくていいけど、どういう概念か頭の中にすぐ出てくるようになればよいでしょう。

Distribution of Functions of Random Variables

確率変数の関数の分布に関する章。この辺うちの学類ちゃんとやってな(ry。確率変数XとYのdensityが与えられていて、その和Z=X+Yの分布がどうなるかとかX^2の分布はどうなるかetcみたいな章。この辺がさくさくできるようになってくれば、例えば確率過程みたいなやつとか現実に出てきそうなものにも対応できる力ができてきた、という感じか。

問題解けるようにもなっておいたほうがいいとともに、定理として与えられているものも導出できるようになっておくといいかもですね。

Sampling and Sampling Distributions

標本理論な章。大数の(弱|強)法則、中心極限定理がメインといえばメインだけど、ここはむしろ確率論をやってからのほうがすっきりするかなあ。X^2分布とかF分布など検定によく使いそうな分布の導出が書いてあって、前までの章の知識が必要なものだったんだなーと思える章。ああ、order statisticsはやっておいたほうがいいですね。

Parametric Point Estimation

ある意味この本で一番重要な章(だと俺は思ってる)。統計学がどういう考え方をしているのかのエッセンスがつまっている。様々な推定量の導出から、推定量がよいというのはそもそもどういうことなのかなどなど。

  • 十分統計量
  • 完備統計量
  • 分解定理
  • 最小十分統計量
    • あれ、俺忘れて(ry
  • 指数分布族(重要!!)
  • UMVUE
    • 頻度論者の最終兵器(ぇ
  • location scale fimily
  • ベイズベイズベイズ

などなど統計学にとって重要な概念がつまりまくっている。前の章までの理解ができなかったところがあったとしても是非この章は読んで欲しいところ、と思う。色々旅立つ準備が整うところだろうと思う。

旅立つ先

そういえば去年の終わりに書いていた。おいらは4年生の間にこんなところに手を出してみました。

*1:ちゃんと、とは言ってもさっき言った確率論的な意味では全然ちゃんとじゃないんだけど、この本はIntroductionな本なのでまあいいでしょう