読者です 読者をやめる 読者になる 読者になる

密度トレイス

R データ解析

密度トレイスとは

ヒストグラムは柱の数などで、大きく影響を受けてしまうのが欠点である。そこでヒストグラムの欠点を補ったものを考えることにする。それがここで書く密度トレイスというものである。密度トレイスというのは、ヒストグラムの各点に対し、レンガや正規分布のようなものを積み上げていくイメージである。これによって滑らかなヒストグラムのようなものを作ることができる。これが密度トレイスである。

具体例

密度トレイスを使うにはdensityという関数を使う。例えば以下のような感じである。

plot(density(stmf.ozone,n=50,window="r",width75),type=p)

このようにすると、密度トレイスの点を取ることができる。これに線を加えたければ、

lines(density(stmf.ozone,n=50,window="r",width=75))

のようにすればよい。ここでlinesを使っているのは、もう一度plotを使ってしまうと上書きされてしまうからという技術的な問題による。これではなく、最初から線を書きたいときには

plot(density(stmf.ozone2,n=50,window="r",width=75),type="l")

とやればよい。この例では、積み上げるものとして、レンガ(長方形)を積み上げていったようなものを使っている。このパラメーターは変更することができて、winddow="c"とすればコサインを積み上げていくようにすることが可能である。また、widthは滑らかさを調整するためのパタメーターで、大きいほど滑らかになる。

メリット

密度トレイスのいいところは、ヒストグラムで作るとたまたまできたのか、そうでないのかの判断に迷うようなもの(バイモーダルな分布かどうかを調べるときなど)の判断に使えるというところである。

デメリット

密度とレイスはwindowやwidthのパラメータによって、いかようにも作り替えることができてしまい、恣意性が入る可能性がある。また、ヒストグラムと違い、誰もが知っているわけではないので説明しないといけない点はデメリットとも言える。

RStudioではじめるRプログラミング入門

RStudioではじめるRプログラミング入門