第二章

欠損値の扱いについて

欠損値とは値が入っていないデータのこと。

  • 生産工程の実験で方法に依存しない原因で結果の一部が欠損した。
  • 所得に関する質問で回答を拒むなど。(分散が小さくなるなどの問題点がある。)
  • 極端な考えを持っている人は自分の意見を隠すなど。


欠損値を入れないでやるとデータがゆがんでしまう。
→欠損値はデータとしての意味を持つということ!!
しかし、通常の統計パッケージでは欠損値は除かれてしまっている…
欠損値があれば推定を行うなどして補う努力をしたほうがいい!!
(講義のレベルでは欠損値を入れないことはやむ終えないこととする。)

データの要約

測定値と観測値の違いについて
一言でいうと「比較可能か」と「因果関係までか相関関係までか」が重要!!
観測値
意識による差をなくす。
測定したいもの以外のバイアスをなくすことができるため因果関係まで示すことができる!!
例:新薬の効果を計る。
観測値
母集団が比較可能なものでないもの。
比較したしたいもの以外にもバイアスを受けてしまうため、相関関係までしか示すことができない。
例:タバコによる肺がん率(教育、性別などにバイアスの影響を受ける。)

一年の数学では「平均」、「標準偏差」などを多用していたがそれは必ずしも適切とは限らない。
データの特徴を見て使い分けて行くことが重要となってくる。
例:裾野が長い分布(所得の分布など)
mean>mediamとなりやすいので安易にmeanをしようすることは避けたほうがいい!!

ファイルの保存

ファイルの保存は/home/shakog/yoshid50に保存すること!!
欠損値は「-」で表されている。後で欠損値を除く際に必要になるので「-」を「NA」に変更しておく。

データの読み込み

ozone<-read.table("ozone.txt")
テーブルという関数を使ってデータを読み込ませることができる。
ここではそれをozoneに代入している。

4分位点間距離(interquartile range)

データの25%点と75%点の距離のこと。