自分の勉強用メモです。統計の区間推定や検定でほぼ必ずお世話になる分布やt分布だけど、正規分布と比べると確率密度関数が覚えきれないくらい複雑。天下り的に分布やt分布を定義されても結構しんどい。現実的なモチベーションから必要な道具を作っていった結果、分布やt分布が手に入る、というストーリーが自分としてはしっくりくるので、区間推定を例に整理する。
区間推定: 正規母集団かつ分散既知を仮定
スタートはいつもここから。簡単な前提(正規母集団の仮定 & 分散既知)を置ける場合を考えてから、現実に近づけるために仮定を少しずつ取り外していく。ヨビノリ分かりやすい。
標本平均はであるが、正規母集団を仮定しているのではそれぞれ平均分散の正規分布に従う確率変数。正規分布の再生性*1より、標本平均も正規分布に従い、その平均はで分散は。標準化したは標準正規分布に従う。
標準正規分布の(例えば)95%に入ることを考えると、だが、これをについて整理するととなり、母平均の区間推定の式が手に入る。
なお、正規母集団の仮定を外しても標本平均の分布については(nが大きい場合)中心極限定理で同様に正規分布に従うことを証明できるが、最初はなるべく簡単な道具で済ませる。
区間推定: 正規母集団かつ分散が未知
現実的に母分散が既知という状況はほぼないため、分散が未知の場合でも使えるようにしたい。
分散が未知なので、のを不偏標準偏差で代用するが、そうするとZはもはや標準正規分布に従わなくなってしまう。なぜならは定数だが、は確率変数であるから。も確率変数であるからで置き換えたものは確率変数の比となるが、この比がどういった分布に従うかは自明ではない。
このあたりから分布やt分布が登場する。先にネタバレすると
- に基づく統計量が分布に従う
- 正規分布に従う確率変数と分布に従う確率変数の比が従う確率分布を考える
とt分布が登場する、という流れである。
前提
- 不偏分散に基づく統計量は自由度n-1の分布に従う
- 自力でこれやるのは大分しんどいので、ある程度受け入れるといいと思う。証明は一回追うといいと思う
- 不偏分散と自由度n-1のカイ二乗分布 | 高校数学の美しい物語
- 標本平均と不偏分散の独立性(こっちもこっちで示すのまあまあ大変)、分布のモーメント母関数などを駆使して証明する
- 標準正規分布の二乗や二乗和が分布に従うあたりのイメージから連想できるようにしておくと便利
- こちらはモーメント母関数を使って比較的簡単に証明できる
t分布の導出
いよいよ本題。
標本平均を標準化したは標準正規分布に従う(標本平均の分散は)。母分散が未知の場合はを計算することができないため、不偏分散で代用したを考えてみたい。この統計量のことをt統計量と呼ぶ。をに置き換えたので、t統計量は標準正規分布に従うわけではない。t統計量がどういう確率分布に従うかを考えてみよう。
t統計量は以下のように、二つの統計量の比の形に分解できる。
できる、とは書いたが、知らないと分解できないわーという類のものではある。この分解は以下の本が分かりやすかった。この本、省略されがちな確率統計の証明が結構分かりやすく書いてあってオススメ。
- 作者:皆本 晃弥
- 発売日: 2015/06/10
- メディア: 単行本
分解できた2つの統計量の性質は以下の通り。
- 標準正規分布に従う統計量:
- 自由度n-1の分布に従う統計量:
- を(n-1)で割ったり、平方根を取ったもの
「統計量は何ぞや」という気持ちになるけど、↓が分かりやすい。標本平均からのずれを分散で正規化したものを足し合わせているんだ、という気持ち。
t分布の定義
これまでの結果を元に、t分布を一般の形として定義する。
Xは標準正規分布に従い、Yは自由度nの分布に従うとし、XとYは独立であるとする。このときで定義される確率変数の分布を自由度nのt分布と定義する。
t分布の実際の確率密度は、確率変数の変数変換を使って計算する。XとYは独立なので、XとYの同時分布はそれぞれの積の形で書き表わすことができる。
- 、と変数変換
- XとYの同時分布を元にZとWの同時分布を考える
- ZとWの同時分布をWについて周辺化する
そうすると、ついにt分布の確率密度関数が得られる。
話を元に戻すと、我々は正規母集団を仮定するが母分散は未知の場合に出てくる統計量の確率分布を知りたかったわけだが、これがt分布に従うことを示せたので、その分位点などを計算することによって母平均の区間推定ができるようになった。
区間推定: 非正規母集団かつ分散が未知
分布も未知なので、不偏分散で代用することと標本をたくさん集めることでどうにかする。キーになるのは中心極限定理。特定の分布について仮定をせず標本平均についての分布について言えるのが中心極限定理の強力さ。
*1:モーメント母関数を計算し、それが正規分布のものであること(再生性)を示せばよい