すうがくぶんか 統計検定1級対策講座 第六回

前回はこちら。

今回は完備十分統計量を使ったUMVUEの構成法や検出力について。長かった(?)推定論の話も、今回で一段落ですね。

十分統計量の定義の復習

十分統計量は定義がいくつかあるが、前回の講義では直感が効くようにフィッシャー情報量を経由した定義がなされた。

  • 元々のデータと同じく、何らかの統計量Tについてもフィッシャー情報量を定義できる
  • 「元々のデータが一番データを持っているわけだから、\thetaを少し動かした場合分布の変化は、Tを使った場合は変化が緩やかになるのではないか?」という直感をサポートする定理が存在する
    • I_T(\theta) \leq I_N(\theta)
  • 不等式の等号が成立する場合のTを十分統計量と呼ぶ
    • 元々のデータと同じだけの(最大の)フィッシャー情報量を持つ、というのが直感的な意味合い

十分統計量の別の定義とFisher-Neymanの因子分解定理

今回、我々は十分統計量を起点として、Lehmann-Scheffeの定理を使ってUMVUEを構成するのが目的。フィッシャー情報量を使った十分統計量の定義は直感的には分かりやすいのだが、Lehmann-Scheffeの定理を使う場合にはもう少しテクニカルな定義が必要となるので、別の定義を行なう。

ここでの定義は「統計量T=tであるもとでの条件付き分布が、もはや真のパラメータ\thetaに依存しないこと」というもの。wikipediaとかはこっちで書いてある。この定義とf(x_1, \cdots, x_n; \theta)f(x_1, \cdots, x_n; \theta) = h(x_1, \cdots, x_n) g(T(x_1, \cdots, x_n); \theta)の形で書けることが同値、というのがFisher-Neymanの因子分解定理として知られている。講義では離散の確率質量関数の場合について、この定理の十分条件と必要条件を示していった。

十分統計量を用いた不偏推定量のRao-Blackwellization化

\thetaの不偏推定量\hat\thetaに対して、十分統計量 Tを条件付けて(その後で期待値を取る)やると元の推定量より分散が改善する場合がある(少なくとも悪くはならない)よ、というのが知られている(重要ポイント1)。十分統計量で条件付けて分散を改善させることを「Rao-Blackwellization化する」とよく呼ぶ。

十分統計量 Tで条件付けると、因子分解定理から\thetaを用いない式となり、\thetaの推定量として利用できることも頭の中に入れておく。Tで条件付けても、\thetaが式の中に含まれていれば推定量として使うことができないので、そういった意味でも十分統計量の定義がこうなっている、ということである(重要ポイント2)。

Rao-Blackwellization化で分散が改善する例

例がとても分かりやすかった。X_1, X_2 \sim N(\mu, 1)がそれぞれ独立。不偏推定量として\hat\mu = X_1を考えてみよう。例なので、あえてX_1だけ使ってる。正規分布の平均パラメータ\muの十分統計量はデータの和であることが分かっているので、T = X_1 + X_2

Tを使って、\hat\muをRao-Blackwellizationしてみよう。Rao-Blackwellization化はE(X_1 | X_1 + X_2 = s)であるが、ここでE(X_1 | X_1 + X_2 = s) + E(X_2 | X_1 + X_2 = s) = E(X_1 + X_2 | X_1 + X_2 = s) = sであり、X_1X_2は対称であるからE(X_1 | X_1 + X_2 = s) = \frac{1}{2} S = \frac{1}{2} (X_1 + X_2)となる。これは標本平均であり、この分散は\frac{1}{2}。標本平均の分散は頻出の話題。一方で、元の推定量\hat\muの分散は1であるから、十分統計量を条件付けた上で期待値を取ると、推定量の分散が改善していることが分かる。

実はこのTは後述する完備十分統計量となっており、Lehmann-Scheffeの定理からRao-Blackwellizationした推定量はUMVUEとなっている。先ほどの例で、Tで条件付けたことで標本平均が出てきたことはちょっとびっくりするが、裏側にはそういうことが隠れている。

不偏性の証明

Rao-Blackwellization化が主張していることを証明したい。まず、Tで条件付けても不偏性は壊れない、ということを示す。Rao-Blackwellization化した統計量はE(\hat\theta | T)だから、その期待値E(E(\hat\theta | T))\thetaに一致することが言えればよい。

タワー定理よりE(E(\hat\theta | T)) = E(\hat\theta)となるが、\hat\thetaは不偏になるものからスタートしていたので、E(\hat\theta) = \thetaとなり不偏性は満たされる。E(E(\hat\theta | T))の外側の期待値はTの分布での期待値を取っていることに注意。

タワー定理については以下を見ると分かる。こういう時は期待値の定義に立ち戻って書いていくと難しくない。周辺化でYが消えるのが肝。

分散が改善することの証明

正確には悪くならない、だが。今度はV(E(\hat\theta | T)) \leq V(\hat\theta)が示せればよい。これを示すのはそんなに難しくなくて、以下を使って割と機械的に示すことができる。

  • 分散の定義
  • 分散の公式
    • 分散は二乗の期待値 - 期待値の二乗
  • 分散は0以上
  • タワー定理

以下でも詳しめで書いてあった。

Lehmann-Scheffeの定理

十分統計量(+完備性)とRao-Blackwellization化を組み合わせることで、UMVUEを構成できるというめちゃくちゃかっこいい定理があり、Lehmann-Scheffeの定理として知られている。

UMVUEはかなり性質のよい推定量であるが、そのために必要な不偏性と十分統計量は割と容易に手に入る。

  • 不偏推定量
    • 先ほどの例でも見たが、X_1でも正規分布の平均パラメータの不偏推定量になってしまう
  • 十分統計量
    • 尤度関数を書き下してあげれば何かしら十分統計量はゲットできる

簡単に手に入るものからいい推定量が手に入るなんてうまい話はやっぱり世の中にはなくて(あったらそれは詐欺)、Lehmann-Scheffeの定理が成立するための最後の重要な条件が「十分統計量が完備性を満たしている」ということである。そして、この完備性はいつでも示せるものではなく、Lehmann-Scheffeの定理を経由してUMVUEを構成するためには結構大きな仮定が入るということでもある。

Lehmann-Scheffeの定理を使ってUMVUEを示す問題は2019年の統計検定1級でも出た話題らしいので、押さえておこう。

完備十分統計量

完備十分統計量の定義はE_\theta(g(T)) =0 \Rightarrow g(T) = 0。「何言ってるんや...」という気持ちになるが「任意のパラメータ\thetaについてgの期待値が0ならば、そういうgは定数0しか存在しないぞ」ということを言っている。

完備性の気持ちについて考えたくなるが、これはどっちかというとLehmann-Scheffeの定理のためのテクニカルに必要な要件、くらいで捉えておくとよさそう。

Rao-Blackwellization化を使って、Lehmann-Scheffeの定理を示す

さて、これで道具が出揃ったので、Lehmann-Scheffeの定理を示そう。

\thetaの不偏推定量として、例えば\hat\theta_1\hat\theta_2を持ってこよう。こいつらは別に何でも(X_1でもUMVUEでも)いい。これらの推定量をRao-Blackwellization化したものはE(\hat\theta_1|T)E(\hat\theta_2|T)になるが、Rao-Blackwellization化しても不偏性は維持されるのでこれらの不偏推定量。

ここで、Rao-Blackwellization化した二つの推定量の差の期待値E(E(\hat\theta_1|T) - E(\hat\theta_2|T))について考える。期待値の線形性と不偏性から

E(E(\hat\theta_1|T) - E(\hat\theta_2|T)) = E(E(\hat\theta_1|T)) -E(E(\hat\theta_2|T)) = \theta - \theta = 0

となる。さて、ここで完備性の出番(ここまでの議論で完備の前半の条件(E_\theta(g(T)) =0)が出てきたわけなので)。E(\hat\theta_1|T) - E(\hat\theta_2|T)は十分統計量Tの関数。Tが完備十分統計量の定義の後半より、g(T) =0だから期待値の中身であるE(\hat\theta_1|T) - E(\hat\theta_2|T) = 0となる。つまり、E(\hat\theta_1|T) = E(\hat\theta_2|T)

ここで思い出したいのは、\hat\theta_1\hat\theta_2は何でもよいと言っていたということ。仮に\hat\theta_1 = X_1\hat\theta_2はUMVUEだったとしよう。そうすると、完備十分統計量を使ってRao-Blackwellization化された推定量は一致する、ということを言っている。\hat\theta_2はUMVUEでそもそも改善のしようがなく、\hat\theta_1は完備十分統計量によってめでたくUMVUEになれた、ということである。これがLehmann-Scheffeの定理が言っていること。

ただの十分統計量を使うだけだと、Rao-Blackwellization化で分散は小さくできるものの、最小であるUMVUEに到達できるかは保証できない。

しかし、完備十分統計量を使うと元の推定量が何であれRao-Blackwellization化でUMVUEに必ず到達できる。

昔の自分がいい絵を書いていた(別に連続な関数なわけでもないので、ただのイメージです)。

練習問題として、一様分布の最大値パラメータについて標本の最大値(に\frac{n+1}{n}のバイアスをかけたもの)がUMVUEであることを示した。

推定量の中でも不偏推定量が大きく取り扱われているのは、Lehmann-Scheffeの定理によって完備十分統計量があればUMVUEにできる、という存在も大きいようだ。UMVUEを示すための道具として、クラメルラオの下限とLehmann-Scheffeの定理の二つが手に入ったので、レベルアップした気がしますね。推定論は楽しい。

検定論: 検出力

残り25分くらいだったので、簡単なメモだけ残しておく。計算は難しくないけど、手順を覚える必要がある。

  • 検出力: 対立仮説が正しいとき、検定統計量が棄却域に収まる確率
    • 「検定統計量が棄却域に収まる」とは帰無仮説H_0を棄却すること
帰無仮説を採択 帰無仮説を棄却(対立仮説を採択)
帰無仮説が真 正しい判断 第一種の誤り(有意水準を設定するのはここ)
対立仮説が真 第二種の誤り ここの確率が検出力

参考

日本統計学会公式認定 統計検定 1級・準1級 公式問題集[2018〜2019年]

日本統計学会公式認定 統計検定 1級・準1級 公式問題集[2018〜2019年]

  • 発売日: 2020/03/11
  • メディア: 単行本(ソフトカバー)