読者です 読者をやめる 読者になる 読者になる

第四章

R データ解析

さまざまなプロットが出てくるがそれぞれの特徴、性質、顧客に説明することなどを押さえることが大切。

経験的分位点分位点プロット(empirical q-q plot):X軸Y軸にくるデータが本物のものでプロットしたもの。

⇔理論的プロット(x、yのどちらかが理論に基づいているもの)

経験的分位点分位点プロットでの増加パターン

  • 定数倍だけ増える
  • 何倍かに増える

これらは最低限考えること。またこれらでうまくいかないときには対数をとるなどをやってみること。

経験的分位点分位点プロットで説明すべきこと

  • Y=Xよりも上にあるのかしたにあるのか。
  • 値が増えるにしたがってY=Xとの乖離が大きくなるなどの傾向はないか。
  • データの散らばり具合はどのようになっているか。
    • データが地位さん部分にたくさん集中している場合、対数をとるとうまくいく可能性を示唆している。←データ解析をする際にはよく見られることなので驚かないこと。

降雨剤による雨量の変化の話の例


データがかなり小さいところに固まっている。

対数をとるとうまくいく。

対数をとるとlogY=logX+0.4という式がでてきた。

0.4単位の増加分はデータ値の分布全体にわたっている。

対数をはずしてみるとY=10の0.4乗×Xという式が出てきた。

これは降雨量が2.5倍に増えるということを意味しており、降水量が0に近いところではあまり効果がないということがわかる。

散布図と経験的分位点分位点プロットの違いと果たす役割:非常に重要なので必ず押さえておくこと!!

  • 散布図

「もしニューアークで暑い月があればその月にはリンカーンの気候も暑くなるのか?」といった質問を答えるのに役に立つ。

  • 経験的分位点分位点プロット

「長い期間に渡って考えた場合、リンカーンに住んでいる人はニューアークに住んでいる人と同じような暑い日、穏やかな火、それに寒い日の組み合わせを経験するのだろうか?」といった質問に答えるのには適している。
散布図は対応する点が同じ時間であるということ、経験的分位点分位点プロットは小さいものから順に並べたものであるということに注意する。また散布図は幅があることにも注意する。
これらの違いを説明できて初めて散布図と経験的分位点分位点プロットを理解できたことになるし、これらのことは顧客に必ず説明できなければならない。

経験的分位点分位点プロットを実際に書く際に注意する点

  • Y=Xの線を必ず入れること。(比較するために使う)

Y=Xよりも上にあればどちらかのほうが高いということができる。

ノッチのついたボックス点プロットについて

ノッチとは偶然で起こる変動の幅のこと。ノッチが重なっていなければ中央点が違うということが統計的に有意であるといえそうである。
ノッチが重なるか重ならないかを調べる意義は''「2つの中位点の差はたまたま起こったものなのか、それとも何らかの原因で起こったものなのか」''を明らかにしてくれること。
例:もし、人口散布剤を散布シニア他の雲とした他の雲から同様にデータを集めた場合、その中位点はこの実験に見られるほど互いに異なっているといえるかということ。
ノッチが重ならない→同様な状況下で集まられた他のデータセットにもその程度の差が見られるという強力な証拠があるということを意味している。「同じ状況で繰り返しても」ということを必ず言うこと!!

注意すること

ノッチを使って判定する場合には平均値の差の検定の場合と同様に3つ以上の場合には簡単には適用できないので注意すること。