読者です 読者をやめる 読者になる 読者になる

プレゼン&最終レポートの流れ

データ解析 R

これでやればいいってわけでもないとは思うけど、一つの例として。

データハンドリング

従属変数の正規性

線形回帰モデルの仮定として、従属変数は正規分布をしているという仮定を置いているので、従属変数が正規分布に従っているかを見てみる必要性がある。従っていないようであれば、従うように変換を施す必要性がある。例えば右にテールが長いようであれば、logなどの変換を施すのが有効である。

欠損値の取扱いについて

解析を行う上で、欠損として取り扱ったものはどれか顧客に説明をする必要がある。正当な理由がないものは欠損としてはならない。

どうしても取り除かないといけない場合は欠損値の処理の仕方 - yasuhisa's blogで説明したような手法を使い、欠損を取り除く。

説明変数の作り方

自分作ったような説明変数があれば*1、その説明などをすること。

一般化ドラフツマン表示

一般化ドラフツマン表示にて、説明変数間同士に多重共線性が見られれば、それらの説明変数を同一モデルに組み込むのは難しいということを説明。くれぐれもこの一般化ドラフツマン表示で価格との相関から係数を決定したとか言わないように。

調整済み散布図

モデルに説明変数を加えていくためにやっていく調整済み散布図を説明する。その後、しぼられたモデルについて説明する。

Cp基準

Cp基準が何者であるかを説明する。Cpプロットを簡単に書くための方法はCpプロットを書くプログラムを出力させるPerlスクリプト - yasuhisa's blogを参照のこと。

*1:合成したようなもの