読者です 読者をやめる 読者になる 読者になる

異常値と域外値違い

R データ解析

異常値と域外値は基本的に違うものであるから違いを押さえておかねばならない。

域外値とは

ボックスプロットで言えば、ウィスカー(ひげ)より外側にあるもの。域外値は異常値である可能性があるが、必ずしもそれであるとは言えない。
また、上のような理由で必ずしも異常値ではないので、データを取り除くことは許されない。

異常値とは

異常値とは、全体のパターンにそぐわないデータのことである。異常値であれば、必ず域外値である、ということは言える。異常値は域外値と違い取り除くことが許される。例えば「一般の車市場を調べたいので、そのパターンにそぐわない高級車は異常値として取り除く」などである。取り除いてもよいが、なぜ取り除いたかの理由を説明をしなければならない。