データに関する分布の仮定を評価することに関して勉強。ようやく正規分布とか登場。
- どうして正規分布と仮定することが多いのか?
平均と標準偏差を与えると話をすごく簡単にできるから。
仮定を設けることが統計的順序自体を導いてくれることにつながるから。
- 95%信頼区間の話。
プレゼンでは必ず出すという話。押さえておきましょい。
95%信頼区間の中に登場する平均や標準誤差というのはランダムサンプルの取り方で違ってくる。(サンプルを100回取ったりすればいろんなサンプルが取れるよね。)なので信頼区間自体が分布しているのだという考え方を押さえることが大切。
95%信頼区間の意味というものは、ランダムサンプルを100個取ってくれば、95この信頼区間が入るものということ。その値で真のμの値を推定できるということ。
- 標準偏差と標準偏差の違い。
標準偏差はルートのs^2/nのこと。これはXが平均からどれだけ離れているかという推定値のことである。(要するに標準誤差はランダムサンプルの取り方で変動するってこと。)一方、標準偏差というのは理論値のことである。
- 正規分布から生成されるということ。
実際のデータが純粋な正規分布からくることはまずない。要するに尋ねたいことは「このデータの経験的分布は、自分の解析の目的にかなう程度に正規分布で十分に近似されているか」ということ。例えば、データが丸め誤差によって、有効数字二桁まで離散かされていても、それほど問題にならなかったりすることなど。(丸め誤差は上下大体均等に発生しているものと思われるから。)
ただし、テールが長い場合などは正規分布に近似するとは言えないことなどには注意する。
- 理論的分位点分位点プロット
とりあえず経験的分位点分位点プロットのことを思い出そう。(経験的分位点分位点プロットとはデータの分布の仕方を見るためのプロットのこと。)
そのプロットのY軸に実際のデータを、X軸に理論値を入れるもののことを言う。これがY=Xの直線状にあるということがいえれば、データが正規分布に従うか確かめることができる。
ちなみにコマンドの例としては
qqnorm(lograinfall.seeded,ylab='Log Seeded Raidall'
といった具合。実際のデータのほうを入れるだけで出してくれる。便利だね�。
- サンプル数に関する話。
理論的分位点分位点プロットにおいてサンプル数が少なすぎることは弊害が大きくなるので非常に危険。(端に行くにつれて直線との乖離が大きくなり、ホントに正規分布に従っていないのかどうかが分からなくなる。)
- Y=Xにはならないけど正規分布とみなしていい場合。(直線編)
この例から分かることはとにかく直線であれば正規分布に従うという風にみなしていいということ。
-
- 傾きは一緒だがYの値がXの値より一定量小さい場合~
分布は同じような正規分布と同じような感じなのだが、左右どちらかにずれているということ。今場合はμのロケーションは違うが、正規分布であるとは言うことができる。
-
- 直線だが傾きが違う場合
Yの分布がXの分布より広がり方が小さいということが言えて、正規分布の分散が小さいパターンということができるだろう。
- もはや直線のパターンにすらなっていない場合。
4パターンある。
-
- 両単位はずれ値、もしくは異常値がある場合
基本はデータソースに戻って値を確かめる→データを修正、取り除く。
-
-
- 取り除くには理由が必要。''統計的なものでは理由は示せない''ということが重要!例えば、回帰の目的が価格を推定することだったのなら、ロールスロイスは異常値としてはずすなど。(ロールスロイス買うような人はいくら出しても買うよねって観点で。)3σより外側だからはずすとかはできないということをよく押さえておくこと。
- 取り除かなかったら、別のパターンとして調べるということが必要。
- 両端において曲線、すそ長さを意味する場合
-
こういう分布を示すものには回帰直線が使えない。(αやβが信頼できないものになってしまうから。)
-
- 下に凸もしくは凹曲線、非対称性に関係する場合
ログや平方根などを取ってうまく対称性を生かせるような形に持っていくことが重要。
-
- 水平な線分、平らな部分、間隔がある場合
これらのものはあまり心配する必要がないものが多い。(データが丸められている時とかにおきやすい。)