読者です 読者をやめる 読者になる 読者になる

第三章

R データ解析

グラフィックスを評価する基準

誰が作っても一緒になるか。

ヒストグラムなどは幅の大きさなどによってデータの本質が隠されてしまうことがある。)

すべてのデータを表示しているか。

(域外値が異常値として取り除かれたりしている場合は問題が発生してくる。)

プレゼンテーションとして適切かどうか。

(データを分析するときと顧客に見せるプレゼン用のものは分けたりするようにしなければいけない。分位点プロットなどはプレゼン用としては不適切だがデータ解析には有用である。)

中央値と平均

中央値は右左が50%づつに分かれる点のこと。平均と混同しないこと!

テールが長い

データの右側の分布の分位点の中央値から隔離が期待される以上に増えていくようであれば、このデータは右に向かって歪んでいる、すなわち''分布のテールが右に長い''という。

正規分布との関連と対称性

これから分析していくデータは必ずしも正規分布に従うようなものばかりではない。むしろ正規分布に従わないもののほうが多い。しかし、必ずしも正規分布に従っていなくても、対称性があれば解析はできる!!

ボックスプロット

データを要約するものと考えてよい。しかし、要約する以上は必要な要素が何らかの形で抜けてしまうので''ボックスプロットは分位点プロットを行ってから''行うようにする。

域外値と異常値

  • 域外値

ウィスカー(ひげと呼ばれる縦の点線)より外側にあるもののこと。
異常値の候補とはなるが必ずしも異常値とは限らない。
→データをむやみに取り除くことは許されない。

  • 異常値

全体のパターンにそぐわないもの。
→必ず域外値といえる。
パターンにそぐうかそぐわないかは自分で判断しなければならない。
(例:車の価格の例で高級車は異常値として取除く。)

テールとボックスプロット

次に二つのパターンを考える。

  • 右にテールが長い。
    • ウィスカーは上が長くなる。
    • ボックスは多少上が長くなる程度でほとんど同じ。
  • 全体的に右にテールが長い。
    • ボックスの上が長くなる。
    • ウィスカーも上が長い。

ヒストグラム

グラフィックスの判断基準に照らし合わせてみると…

  1. 人によって違ったものができてしまう。
  2. すべての点をあらわしているわけではない。
  3. しかし、素人の人でもわかるのでプレゼンテーションクオリティは高い!!

ヒストグラムを作る際に問題になること

  • 幅を細くすると偶然による変動が大きくなってしまう。
  • 幅を太くすると検出されるはずのデータが出てこない恐れがある。

→何種類かヒストグラムを書き出してみる必要性が出てくる!!

ヒストグラムの一般的な原則

データの数が増えるにつれて柱の本数を増やしていく。
例:データが1000個から8000個に増えた。
柱の数は''2倍''にする必要がある。(8倍にはならないことに注意。)
柱の数はデータの数の三乗根で考えるとちょうどいい感じになることが知られている。

対称プロットと変換

右にテールが長くなっていく場合などを考える。
→データ全体が非対称というわけではないが、ある点から急にテールが長くなる。
→そこで変換を施してデータが対称になるようにする。

変換の仕方

基本的にはlogで変換を施していく。
小さすぎたりした場合は累乗根などで調整していく。