読者です 読者をやめる 読者になる 読者になる

経験的分位点分位点プロット(empirical quantile-quantile plot)

データ解析 R

定義、使いかた、他のプロットとの違いについて。

定義

ふたつのデータセットを小さい順に一番目、二番めと並べていって、それを組にしてプロットしていったものである。ふたつの分布が同じかどうか調べるときによく用いられる。

特徴

分布が同じような感じならばy=x上に乗ったような感じになるはずである。
小さい順に並び替えたので、右さ下がりになることはありえない。

使いかた

以下のような感じで使う。

qqplot(rainfall.control,rainfall.seeded,xlab="rainfall from control clouds",ylab="rainfall from seeded clouds")

最初のふたつの引数はsortなどで並び替える必要はない(これは便利)。また、経験的分位点分位点プロットではy=xの上に乗るかどうかということを見たいことがしばしばあるのでablineをよく併用する。これの使いかたも示しておく。

abline(切片,傾き,lty=2)

第三引数は任意。この例だと点線で直線を引いてくれる。

他のプロットとの違い(散布図との違い)

散布図は対になったデータを用いて、ふたつのデータに相関がないかどうか調べるのに用いられる。一方、経験的分位点分位点プロットはふたつのデータが同じような分布をしているかどうかを調べるのに用いられる。また、散布図はふたつのデータセットの長さが同じでないと使えないのに対し、経験的分位点分位点プロットは長さが異なっていても使用することができる。

他のプロットとの違い(理論的分位点分位点プロットとの違い)

理論的分位点分位点プロットは一組のデータセットがある理論に基づいた分布と同じかどうかを調べるときに用いられる。例えば「このデー足せっとは正規分布に従うのか…?」といった具合である。一方、経験的分位点分位点プロットは具体的な二組のデータセットの分布が同じかどうか調べるのに用いられるものである。

分布y=xから遥かに乖離してしまっている場合

社工の場合「値の小さなところにたくさんデータが固まっていて、右上の点は散らばり具合が大きい」ということがよくある(例えば所得や価格など)。このような場合、データに大して、ルートやlogを取ってやることによってデータの分布をある程度対称に持っていくことができる。これはノッチの付いたボックスプロットなどではよく行われる技法である。この変換を行ってデータから規則性を導き出し、変換前ではどのようになっていたのかを調べる、という手段が有効である。