読者です 読者をやめる 読者になる 読者になる

平滑化について

R データ解析

平滑化の基本的なアイデア、説明すべきことなどを記述していく。

まず、なぜ平滑化が必要なのかを説明する。よくある考え方として直線回帰がある。しかし、現実の問題として直線でちょうど回帰できないものも存在する。例えば、ハムスターの睡眠時間と寿命の例などだ。睡眠時間が長いハムスターは平均寿命が長い傾向があるが、寿命には限界がある。このような場合、右側が寝てしまうような散布図になることが考えられ、これを直線で回帰することは正しいとは思えない。このような場合でも、対処できるように平滑化というものを考える。

次に、平滑化の基本的な考え方を説明する。平滑化では、データ全体を見るのではなく、局所的にデータを見ることを考える。そして、あるデータ点に対して、その回りを局所的に見て、そのデータ点に近いほど、重みを重くするという手法を取る。このように局所的に見ることで、先の寝てしまうようなパターンに対しても対応することができるようになる。これを行った後に頑健性というものを考える。頑健性とは、異常値ともいえるようなデータが存在することで、平滑化後の曲線に奇妙なパターンが表れないようにするための手法である。具体的には平滑化後の点と元の点との差の残差が大きいほど、その点に対するウエイトを小さくするということをやる。頑健性の考え方を平滑化に採り入れることによって、極端な値より大きく影響されることを軽減している。このような平滑化のしくみを用いる。