卒論についてそろそろ一言言っておくか

こんなん書いたりしているんで、もうノンパラってことは分かってるんですけど、なんでそれになったかの経緯とかについて書いておこうかとも思う。あと4年生の卒論の現状(?)とか。僕を見て「あ、もっとやばいやついるんだ」とか思うといいよ!!

推薦入試で大学院へ入学するということで、研究計画書というものを提出しないといけなかったので、6月の終わりにこんなのをでっちあげたりしました。

先生とも少し相談したんですが、まあ5分程度w。それから夏休みの終わりとかまで卒論関係のゼミとかもなかったし、自分でもやっていなかったので、僕の卒論が本格的にスタートしたのは今週の火曜日からです。いや、本当に。院に進むんだから、院に行ってそれなりに活躍できるような基礎力を付けるようにしようということだったので夏休みはやりたい放題勉強していました。

  • 統計学の基礎(7割はカバーできたか((練習問題あんまりやってないけど)))
  • ベイズ統計学(これはほとんど進まなかった)
  • 測度論(2/3くらいはやれたか)
  • 機械学習(読書会中心)
  • 集合位相(これも読書会中心)
  • 最適化理論(のお遊びのようなこと)
    • 最急降下法とか、遺伝的アルゴリズムとか
  • Rプログラミングの上達(は趣味か)
    • Tsukuba.Rを二回ほど開催

とまあこんな感じのことをやってました。本当は保険数理っぽいことも勉強する予定だったらしいですが、全然やってないですね。まあいいか(ぉ。

で、火曜日にほぼ初めての卒論どうするかゼミが。説明変数問題のこととかやるかと思っていたんですが、結局調整済み散布図において異常値をどうやって見つけるか問題にできそうだよね、ということになったので、どういう手法を使って異常値を検出するかという問題とほぼ同値になりました。「先生、機械学習でやりたいです!!」的なことは言ったんですが、よしノンパラでやろうかということになってましたw。まあ、研究室も統計学の研究室なのでノンパラとかのほうがやりやすいし、隣にノンパラを研究されているドクターの先輩の方もいらっしゃるので、ノンパラということにしました。まあ、機械学習の読書会のやつにも異常値検出が…っていうのはあったなぁ(P42とか)。でも、調整済み散布図とかで異常値を検出するために学習データを入力させるのも面倒と言えば面倒なので、ノンパラのほうがやりたいことには向いていそうな気がします*1

そういうわけで、ノンパラをやることになったわけですが今までノンパラとか一度もやったことがないというか何かすら分かっていない状態から始まりました。先生が計量経済学系の本でノンパラの章を書いていたということでその章をコピーさせてもらって火曜日から読んで、実装したりしながら理解を進めているという段階です。

ノンパラメトリックというのは、パラメトリックな手法と比較させるとちょっと分かりやすいです。パラメトリックな手法というのは、母集団に対して分布の仮定をしてその分布のパラメータについて推定、検定というのをやります。例えば、正規分布に従うとして平均と分散を最尤法で求めるとか。理論統計学の最後のほうでは様々なパラメトリックな方法で求めた統計量の性質*2を見ていったりしていました。ノンパラメトリックな手法ではそういう分布に対する仮定を一切おかないものです。

そういう仮定をおかないで、条件付き期待値を使ったりして密度トレイスや、単回帰を行なったりします。たぶん、これに信頼区間とかもくっつけて異常値検出の準備とするんだろうなあという予想なんですが、これだとやってること簡単すぎるっぽい。ていうか、どこに新しさがあるのか(ry。そういうわけなので、既存研究とかを調べたりしながらなんか新しいことを考えたいと思います。。。という段階です。

*1:若干あと付けっぽいがw

*2:十分統計量とかそういうの