母平均の区間推定を例にt分布を導入するモチベーションを整理

自分の勉強用メモです。統計の区間推定や検定でほぼ必ずお世話になるX^2分布やt分布だけど、正規分布と比べると確率密度関数が覚えきれないくらい複雑。天下り的にX^2分布やt分布を定義されても結構しんどい。現実的なモチベーションから必要な道具を作っていった結果、X^2分布やt分布が手に入る、というストーリーが自分としてはしっくりくるので、区間推定を例に整理する。

区間推定: 正規母集団かつ分散既知を仮定

スタートはいつもここから。簡単な前提(正規母集団の仮定 & 分散既知)を置ける場合を考えてから、現実に近づけるために仮定を少しずつ取り外していく。ヨビノリ分かりやすい。

標本平均\bar{X}\bar{X} = \frac{1}{n} \sum_{i=1}^n X_iであるが、正規母集団を仮定しているのでX_iはそれぞれ平均\mu分散\sigma^2の正規分布に従う確率変数。正規分布の再生性*1より、標本平均\bar{X}も正規分布に従い、その平均は\muで分散は\frac{\sigma^2}{n}。標準化したZ = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}}は標準正規分布に従う。

標準正規分布の(例えば)95%に入ることを考えると、-1.96 \leq \frac{\bar{X} - \mu}{\sigma / \sqrt{n}} \leq 1.96だが、これを\muについて整理すると\bar{X} -1.96\frac{\sigma}{\sqrt{n}} \leq \mu \leq \bar{X} +1.96\frac{\sigma}{\sqrt{n}}となり、母平均\muの区間推定の式が手に入る。

なお、正規母集団の仮定を外しても標本平均\bar{X}の分布については(nが大きい場合)中心極限定理で同様に正規分布に従うことを証明できるが、最初はなるべく簡単な道具で済ませる。

区間推定: 正規母集団かつ分散が未知

現実的に母分散が既知という状況はほぼないため、分散が未知の場合でも使えるようにしたい。

分散が未知なので、Z = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}}\sigmaを不偏標準偏差Uで代用するが、そうするとZはもはや標準正規分布に従わなくなってしまう。なぜなら\sigmaは定数だが、Uは確率変数であるから。\bar{X}も確率変数であるからUで置き換えたものは確率変数の比となるが、この比\frac{\bar{X} - \mu}{U / \sqrt{n}}がどういった分布に従うかは自明ではない。

このあたりからX^2分布やt分布が登場する。先にネタバレすると

  • U^2に基づく統計量がX^2分布に従う
  • 正規分布に従う確率変数\bar{X}X^2分布に従う確率変数U^2の比が従う確率分布を考える

とt分布が登場する、という流れである。

前提

  • 不偏分散U^2に基づく統計量\frac{(n-1)U^2}{\sigma^2}は自由度n-1のX^2分布に従う
  • 標準正規分布の二乗X_1^2や二乗和\sum_{i=1}^n X_iX^2分布に従うあたりのイメージから連想できるようにしておくと便利
    • こちらはモーメント母関数を使って比較的簡単に証明できる

t分布の導出

いよいよ本題。

標本平均\bar{X}を標準化したZ = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}}は標準正規分布に従う(標本平均の分散は\sigma^2 / n)。母分散\sigma^2が未知の場合はZを計算することができないため、不偏分散U^2で代用したt = \frac{\bar{X} - \mu}{U / \sqrt{n}}を考えてみたい。この統計量のことをt統計量と呼ぶ。\sigmaUに置き換えたので、t統計量は標準正規分布に従うわけではない。t統計量がどういう確率分布に従うかを考えてみよう。

t統計量は以下のように、二つの統計量の比の形に分解できる。

t = \frac{\bar{X} - \mu}{U / \sqrt{n}} \frac{\sigma}{\sigma} = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}} \frac{\sigma}{U} = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}} \sqrt{\frac{(n-1) \sigma^2}{(n-1) U^2}} = \frac{\bar{X} - \mu}{\sigma / \sqrt{n}}  / \sqrt{\frac{(n-1) U^2}{\sigma^2} / (n-1)}

できる、とは書いたが、知らないと分解できないわーという類のものではある。この分解は以下の本が分かりやすかった。この本、省略されがちな確率統計の証明が結構分かりやすく書いてあってオススメ。

分解できた2つの統計量の性質は以下の通り。

  • 標準正規分布に従う統計量: \frac{\bar{X} - \mu}{\sigma / \sqrt{n}}
  • 自由度n-1のX^2分布に従う統計量: \frac{(n-1) U^2}{\sigma^2}
    • を(n-1)で割ったり、平方根を取ったもの

「統計量\frac{(n-1) U^2}{\sigma^2}は何ぞや」という気持ちになるけど、↓が分かりやすい。標本平均からのずれを分散で正規化したものを足し合わせているんだ、という気持ち。

49BCA2E8-C128-47AC-BB4A-515FF47D8B87.jpeg (325.4 kB)

t分布の定義

これまでの結果を元に、t分布を一般の形として定義する。

Xは標準正規分布に従い、Yは自由度nのX^2分布に従うとし、XとYは独立であるとする。このときT = \frac{X}{\sqrt{Y / n}}で定義される確率変数の分布を自由度nのt分布と定義する。

t分布の実際の確率密度は、確率変数の変数変換を使って計算する。XとYは独立なので、XとYの同時分布はそれぞれの積の形で書き表わすことができる。

  • Z = X / \sqrt{Y / n}W=Yと変数変換
  • XとYの同時分布を元にZとWの同時分布を考える
  • ZとWの同時分布をWについて周辺化する

そうすると、ついにt分布の確率密度関数が得られる。

話を元に戻すと、我々は正規母集団を仮定するが母分散は未知の場合に出てくる統計量t=\frac{\bar{X} - \mu}{U / \sqrt{n}}の確率分布を知りたかったわけだが、これがt分布に従うことを示せたので、その分位点などを計算することによって母平均の区間推定ができるようになった。

区間推定: 非正規母集団かつ分散が未知

分布も未知なので、不偏分散で代用することと標本をたくさん集めることでどうにかする。キーになるのは中心極限定理。特定の分布について仮定をせず標本平均についての分布について言えるのが中心極限定理の強力さ。

*1:モーメント母関数を計算し、それが正規分布のものであること(再生性)を示せばよい