現状での問題点を上げておく

11月も終わり区切りがちょうどいいので、データ採取はもうやってもいいとして。

  • Rpyのインストールにこける
    • これは結構まずい。12月半ばまでにはどうにかする
    • できなくはないが、見た目のかっこよさ的なものもあり*1
  • Rでのarimaモデル
    • これについては後述
  • モデルの形について
    • 重回帰モデルのようなものを作ってもいいのだが、説明変数となるものをスクレイピングしてくるのが結構難しくなる気がする
      • ログデータで連続な数値になるものってどういうものがあるのかしら?
    • ログデータばっかりじゃなくって、自分が書いたブログに含まれる情報も採り入れることも考えたほうがいいかも
      • 例えばブログを更新したとか、Rのカテゴリを更新したとかそういう情報?
    • sarimaxモデルくらいで止まってくれればいいけど
      • 重回帰のやつを作ってもaicなり、mseとかでもarimaモデルのほうが説明力あるよね、って結論に落ちてくれないかなとか考えたりもするw
    • この辺はもうちょっと先生達に相談してみる必要あり
  • やることの有意性
    • こういうことやればこういう風に役に立つよね、的なこと。俺がすごいと思っても、理解してもらえないと無意味
    • インターン行っている時にOLAPとかいう言葉を聞いた気もしたので、使えないかと思ったが、微妙に外れてますか?
    • 担当の先生に今年はちょうど香田先生がいらっしゃるので、ここら辺を相談するにはよさげ

Rでのarimaモデルについての話

Rには「予測したいときにはとりあえずpredict関数!」という合言葉があって*2

*1:http://www.okada.jp.org/RWiki/index.php?%A5%D0%A5%C3%A5%C1%A5%E2%A1%BC%A5%C9というのがあるのは知っている

*2:今俺が決めた