いよいよ大詰めになってまいりましたよ、データ解析

もはや、数理計画とか応用数理の単位のことなんか頭にない。データ解析の最終プレゼン&レポートで最高のパフォーマンスを見せることしか眼中にありません。

プレゼンはAM8:00からでトップバッターです*1。一発目で一番いいもの見せてやるぜ。

データ解析の発表とかで忘れないようにポイントをまとめておこうっと。

  • 結論が最初に来ているかどうか
    • 顧客が最短の時間で結論にいけて、解析の妥当性が判断できるような構成になっているか
  • 必要な5つのプロットはそろっているか
    • 一般化ドラフツマン表示
    • 説明変数を選択するための調整済み散布図
    • モデル選択のためのCpプロット
    • 分散の不均一性を調べるための垂直一片ごとに書き込んだボックスプロット
    • 残差が正規分布をしているかを調べるための正規Q-Qプロット
  • 取り除いたデータについて、触れていて、正当な理由が示せているかどうか
    • 個々の車種に当たって、正当な理由を探す
    • このような作業を通じて、データに十分慣れ親しむようなことも求められている
  • 従属変数の正規性
  • 欠損値のデータハンドリングの方法
  • 説明変数の作り方についての説明
  • 一般化ドラフツマン表示をきちんと説明できているか
    • 間違っても散布図の相関から説明変数を決定しているようなことはやっていないか
      • プレゼン止められちゃうよ
    • 相関があるもの
      • 相関があるとどのようなことがおきるのかを説明できるか
    • ダミー変数について、一様乱数を振っているか
      • プラスマイナス0.3くらいを振る
  • 調整済み散布図が何ものであるかきちんと理解し、説明できるか
    • 相関
    • t値、または標準偏差
    • 符号条件
    • 調整済み散布図の傾きと回帰の係数の関係性が分かっているか
  • 最適モデルは現実的に意味を成すものになっているか
    • 符号条件等を含めて、線形のモデルとして妥当なものであるか
  • Cpプロット
    • Cpプロットがどのようなものかをきちんと説明できるか
    • 視覚的に分かりやすいようにCpプロットが書けているか
    • フルモデルのCp値がフルモデルの説明変数の数と一致することは確認できているか
  • 正規分位点分位点プロット
    • なぜ、価格の残差が正規分布していないといけないかを理解しているか
    • 理論的qqplotがどういうものであるか説明できるか
    • 異常値のようなものについて触れているか
    • 取り除くとしたら、十分な理由はあるか
    • 系統的に直線から外れているような分布をしていないか
      • このような場合はモデルがよいものと言えないことがあるかもしれない
  • 分散の不均一性
    • なぜ分散の不均一性を調べる必要があるのかが分かっているか
    • 説明に使うボックスプロットの作り方をきちんと説明できるか
    • また、なぜ普通のボックスプロットではだめなのか分かっているか
      • 右端、左端でボックスプロットに含まれるデータの数が少なくなり、偶然変動の影響を受けやすくなってしまうので、きちんとしたボックスプロットが描けなくなってしまう恐れがあるから
    • 一貫して分散が増えているような様子は見られないことが確認できているか
  • 解析結果から解析の枠を超えた理論を引き出していないか
  • 不必要なことは言っていないか
    • 顧客はどれだけ頑張ったかを求めているのではない。
    • むしろ、そのようなことを書くと、未熟さを自ら露呈しているようなもの

ここまで書いたのはいいけれど、マインドマップで描けばよかったなと思っているのは内緒です。

*1:自分で選んだ。もちろん!!