すうがくぶんか 統計検定1級対策講座 第七回

前回はこちら。

今回は検定論の話。話題がそもそも難しい & 自分の理解も不十分なところが結構あるので、間違っていることが結構あるかもしれない。色んな本を見ながら書いているので、表記も結構バラバラです。

全体像

検定論全般について復習したことをまとめているため、統計検定1級対策講座で話題にされていないトピックも含んでいる。個別の検定の話がばらばらに出てくると繋がりが分からなくて迷子になってしまうけど、全体像を描けると安心しながら前に進めるようになってきた。

  • 検定論にはそもそもαエラー(第一種の過誤)とβエラー(第二種の過誤)が付き物
  • ネイマンピアソン流では、αエラーは確実に一定以下に抑えたい
    • 一方、βエラーもなるべく最小にしたい
  • 一様最強力検定: αエラーが一定以下の検定手法の中で、他のどの検定手法よりもβエラーが小さい検定手法のこと
    • 単純仮説の場合、尤度比検定が一様最強力検定となる(ネイマンピアソンの補題)
  • 複合仮説の場合、一様最強力検定が存在するとは限らないが、尤度比に単調性があり、片側検定ならば一様最強力検定が存在する
    • 不偏検定もそういった類のもの
  • 一様最強力などいい性質を持つ尤度比検定だが、帰無分布に正規性を仮定できる場合などは尤度比検定とt検定は同一のものと考えられる
    • 尤度比検定のよさから、t検定のよさも言えるということ

定義

帰無仮説と対立仮説

  • 帰無仮説H_0: \theta \in \Omega_0
    • \{\theta_0\} = \Omega_0のような要素が一個しか入っていない場合を単純仮説と言う
  • 対立仮説H_1: \theta \in \Omega_1
  • \Omega = \Omega_0 \cup \Omega_1, \Omega_0 \cap \Omega_1 = \phiを満たすものを考える

検出力

  • 決定関数(または検定関数): \delta
    • 英語だとtest function
    • X= xを観測したとき帰無仮説を棄却するならば1、受理するならば0を取る関数
  • 検出力: \pi(\theta | \delta)
    • \deltaの有意水準(critical region)をS_1とすると、\pi(\theta | \delta) = \text{Pr}(X \in S_1 | \theta), \theta \in \Omega
  • αエラー: 帰無仮説が正しいときに、帰無仮説を棄却してしまうこと
    • \pi(\theta | \delta), \theta \in \Omega_0
    • \alpha(\delta) = \text{Pr}(\text{Rejecting} H_0 | \theta = \theta_0)
  • βエラー: 帰無仮説が正しくないときに、帰無仮説を採択してしまうこと
    • 1 - \pi(\theta | \delta), \theta \in \Omega_1
    • \pi(\theta | \delta), \theta \in \Omega_1のことを普通は検出力と呼ぶと思う
    • \beta(\delta) = \text{Pr}(\text{Not Rejecting} H_0 | \theta = \theta_1)

よく行なわれるのは任意の\theta \in \Omega_0に対して\pi(\theta | \delta) \leq \alpha_0を満たしつつ、\pi(\theta | \delta), \theta \in \Omega_1が最大になるような方法を探す、というやつ。ネイマンピアソン流とも言われる。

一様最強力検定

検定手法が複数考えられる中で、検定手法の評価を行ないたい。まず、言葉を定義する。

検定手法がより強力であるとは

2つの検定手法T_1T_2があって、それぞれの検出力関数を\beta_1(\theta)\beta_2(\theta)とする。このとき、次を満たす場合、T_1T_2より強力(more powerful)であるという。

  • 全ての\theta \in \theta_0に対して、\beta_1(\theta) \leq \alpha, \beta_2(\theta) \leq \alpha
    • \theta_0に対して言っていて、これは第一種の誤りが\alpha以下であることを要請している
  • 全ての\theta \in \theta_1に対して、\beta_1(\theta) \geq \beta_2(\theta)であり、少なくとも一点で不等式が成り立つ
    • 対立仮説が正しいもとで、検出力がT_2より高い

一様最強力検定とは

レベル\alphaの検定の全体をC_\alphaで表わす。このとき、検定Tが一様最強力検定であるとは、Tがレベル\alphaの検定であり、C_\alphaの中のどんな検定よりも強力であることをいう。すなわち

  • \beta_T(\theta)Tの検出力関数とすると、すべての\theta \in \Theta_0に対して\beta_T(\theta) \leq \alphaである
    • 第一種の誤りが\alpha以下だよ
  • 任意の検定S \in C_\alphaに対して、その検出力を\beta_S(\theta)とすると、すべての\theta \in \Theta_1に対して\beta_T(\theta) \geq \beta_S(\theta)が成り立つ
    • \thetaがどんな値だろうと、他の検定よりも第二種の誤りを抑えられる

ということ。一様最強力検定は必ずしも存在するとは限らないが、単純仮説の場合など限定された状況においては一様最強力検定が作れる場合がある。一様最強力検定が構成できるいくつかのケースを見ていく。

ちなみに、βエラーを一定、αエラー最小にしたいという逆の場合も考えられるが、帰無仮説と対立仮説を入れ替えれば同じ議論ができる。

尤度比検定

  • 帰無仮説H_0: \theta \in \Omega_0
  • 対立仮説H_1: \theta \in \Omega_1
  • 尤度比統計量\Lambda(\mathbf{x}) = \frac{\sup_{\theta \in \Omega_0} f_n(\mathbf{x} | \theta)}{\sup_{\theta \in \Omega} f_n(\mathbf{x} | \theta)}を使って検定する
    • 分母は\Omega_1じゃなくていいのか?
    • 久保川本もこうなってるから間違いではない。パラメータ空間を限定しないでいい
      • 単純仮説の場合、それしかないから値をつっこめばいい
      • 複合仮説の場合、丁寧に場合分けしつつ尤度比を計算するしかない
  • 尤度比検定量をいじった-2 \log \Lambda(\mathbf{x})X^2分布に分布収束するのが知られている
    • https://en.wikipedia.org/wiki/Wilks%27_theorem
    • これはテイラー展開やスラツキーの定理を使って割とゴリ押す必要があるため、初手で証明追う必要はない
    • しかし、統計検定1級では頻出なので、使い方は理解する必要があり
    • 分布収束することを言うためには、ある程度のサンプル数を仮定する必要があることには注意
      • テイラー展開した後に二次近似するため
    • X^2分布の自由度については少し注意が必要
      • 帰無仮説を定める\Theta_0の空間としての次元をd_0、対立仮説を定める\Theta_1の空間としての次元をd_1としたとき、-2 \log \Lambda(\mathbf{x})は自由度d_1 - d_0X^2分布に従う
      • 「空間としての次元」というのがミソで、これはパラメータ数のことではない。仮説が一点からなる集合であれば次元は0、直線からなる集合であれば次元は1といった具合になる
  • 尤度比検定が広く使われているのには、理論的な根拠がいくつかある
    • 代表的な根拠はネイマンピアソンの補題。一様最強力検定であることが言える
    • 使える条件は限定されるが、単調尤度比や不偏検定も尤度比検定のよさをサポートしている

ネイマンピアソンの補題: 単純仮説における尤度比検定

単純仮説からなる検定問題H_0: \theta = \theta_0 vs H_1: \theta = \theta_1 (\theta_0 \neq \theta_1)を考える。ランダムサンプル\mathbf{X} = (X_1, \cdots, X_n)の同時確率密度をf_n(\mathbf{x} | \theta)で表わすと、尤度比検定統計量は\frac{f_n(\mathbf{x} | \theta_0)}{f_n(\mathbf{x} | \theta_1)}となる。これがC(C>0)より小さくなるとき、帰無仮説を棄却するのが尤度比検定である。すなわち、k = \frac{1}{C}とするとH_0の棄却域は

R = \{\mathbf{x} \in X | f_n(\mathbf{x} | \theta_1) > k f_n(\mathbf{x} | \theta_0)\}

と書ける。棄却域がこの形で与えられる尤度比検定は最強力である(ネイマンピアソンの補題)。証明は区間を分けて、不等式で押さえる形式。

「尤度比検定にはsupが付いてるけど、ネイマンピアソンの補題にはsup付いていないのはなぜ?」と疑問に思ったが、ネイマンピアソンの場合は単純仮説しか考えていないので、\theta_0とかの取り得る値がそもそも一個しかないので、それが最尤推定。ネイマンピアソンの補題を複合仮説にも拡張(そのためにsupを取る)したのが尤度比検定、と捉えると分かりやすい。

ネイマンピアソンの補題を使って一様最強力検定であることを示す

ネイマンピアソンの補題は単純仮説でしか成り立たないから、あまり使い物にならないかと思っていたが、実はそんなことは全然ない。ある検定方法が一様最強力検定であるかを示すためによく使われる。

検定問題H_0: \theta = \theta_0 vs H_1: \theta > \theta_0を考える。これは複合仮説。ここで、\theta_1 > \theta_0について考えよう。\theta_1を対立仮説に置くと、これは帰無仮説と合わせて単純仮説となる。単純仮説であるからネイマンピアソンの補題を使って、点\theta_1において一様最強力検定であることが示せたとする。示す際に棄却域が出てくるわけだが、棄却域の式中に\theta_1が出てこなければ、点\theta_1でないところでも一様最強力検定が成立している、という理屈。

まとめると、こういう使い方。統計検定1級にもよく出るようなので、何回も練習しよう。

  • 対立仮説のある点\theta_1で、ネイマンピアソンの補題が成立することを言う
  • 棄却域が\theta_1に依存していない式ならば、ネイマンピアソンの補題がどこでも成立している
  • つまり、一様最強力検定であることが示せる

単調尤度比 (monotone likelihood ratio)

単純仮説のとき、ネイマンピアソンの補題から尤度比検定が一様最強力検定であることが示された。一般に複合仮説の場合には一様最強力検定を構成するのは困難である。しかし、尤度がある性質を持つとき、一様最強力検定を求めることができる。

T = T(\mathbf{X})\thetaに対する十分統計量とすると、因子分解定理よりf_n(\mathbf{x} | \theta) = h(\mathbf{x}) g(T(\mathbf{X}) | \theta)と表わされる。尤度比検定はTの関数になることが分かる。\theta_1 \leq \theta_2に対して、g(t | \theta_2) / g(t | \theta_1)tに関して非減少であるとき、g(t | \theta)は単調尤度比を持つという。

十分統計量T(\mathbf{X})に対して、g(t|\theta)が単調尤度比を持つとする。H_0: \theta = \theta_0 vs H_1: \theta > \theta_0なる片側検定について、P_{\theta_0}(T(\mathbf{X}) > t_0) = \alphaとするとき、棄却域がR = \{\mathbf{x} | T(\mathbf{x}) > t_0\}で与えられる検定は一様最強力検定となる。両側でなくて、片側のみであることに注意。

例: 片側Z検定

久保川本の7.19 163ページの例。X_1, \cdots, X_nN(\mu, \sigma_0^2)からの独立な標本とする。\sigma_0^2は既知とする。実際に尤度比を計算してみると、\mu_1 = \mu > \mu_0なる\mu_1に対して以下のようになる。

\frac{f(\mathbf{x} | \mu_0)}{f(\mathbf{x} | \mu_0)} = \exp{\left( \frac{n(\mu_1 - \mu_0)}{\sigma_0^2} \left(\bar{x} - \frac{1}{2} (\mu_0 + \mu_1) \right) \right)}

十分統計量は\bar{x}で、単調性が成り立つことが分かる。従って、H_0: \mu = \mu_0 vs H_1: \mu > \mu_0なる片側検定に対しては、尤度比検定R = \{\mathbf{x} | \sqrt{n} (\bar{x} - \mu_0) / \sigma_0 > z_\alpha\}が一様最強力検定となる。

この辺の詳しい式展開はProbability and Statistics: Pearson New International Editionが詳しい。

不偏検定

単調尤度比と片側検定に限定すれば一様最強力検定が構成できるが、両側検定については一般には最強力検定が存在しない(棄却域の場合分けが必要になってしまう)。しかし、検定方法を不偏な検定に制限するならば、その範囲で一様最強力検定を求めることができる。

H_0: \theta \in \Theta_0 vs H_1: \theta \in \Theta_1なる検定において、ある検定の検出力関数\beta(\theta)が全ての\theta^\prime \in \Theta_1と全ての\theta_0^\prime \in \Theta_0に対して\beta(\theta^\prime) \geq \beta(\theta_0^\prime)を満たすとき、不偏検定(unbiased test)と呼ぶ。

意味合いとしては「対立仮説の下で、検出力が常に有意水準以上であるような検定」。ここでいう「不偏」は不偏推定量のようなunbiasedという意味ではなく、片側などに限らずどこででも成り立つという意味での不偏(universalっぽい感じ...?)と捉えておくとよいかな。

指数分布族であれば、一様最強力検定を構成できる、という定理が知られているようだ。統計検定での出題回数は多くないので、初手では後回しにしておいても悪くなさそう。

尤度比検定としてのXX検定

母集団が正規分布(分散既知)の状況で、平均値の間に差があるかを尤度比を使って求めることを考える(ここでは片側とする)。ゴリゴリと計算を進めていくと、尤度比はt分布に従うことが分かる。あれ、これってどこかで聞いたことがある話。統計検定2級などでもよく出てくる平均値の差の検定で見るt検定である。そう、t検定は(特定の状況下において)尤度比検定から導出できるものだったのだ。この場合、尤度比は単調性も満たし、片側検定であるため、t検定が一様最強力検定であることも分かる。

こういった性質はt検定だけでなく、F検定など他の検定にも成り立つ。つまり、こういうこと。

  • どういう性質が成立すれば尤度比検定が一様最強力検定になるか、よく研究されている
  • 特定の検定と尤度比検定のつながりと前提条件を満たしているかを調べれば、特定の検定が一様最強力検定であるかも分かる

F検定などその他の例についてもProbability and Statistics: Pearson New International Editionに詳しく書いてあって、面白かった。

その他の検定統計量を使った検定方法

尤度比でない検定統計量を使った検定方法も世の中考えられていて、代表的なものとしてはワルド検定やスコア検定がある。サンプルサイズが少ない場合は尤度比検定が適していないケースもあるらしく、偏回帰係数の検定などはワルド検定が利用される場合もあるようだ。まあ、でも初手はとにかく尤度比検定について抑えておくのがよさそう。

コーヒーブレイク: 検定論と区間推定

ここまで色々書いたが、統計的検定は結構難しい。統計のこと興味ある人でも正しく結果の解釈をするのはまあまあ難しいし、「統計のこと全く興味ないっす」という人向けに統計的検定の話をするのはさらに難しい。そして、世の中的には統計のこと興味ない人のほうが圧倒的に多いので、統計的検定の結果を説明するときには大体頭を悩ませることになる(これはid:syou6162の個人の主観です)。

「統計的検定よりも区間推定のほうが一般的な人々向けには説明しやすいかな?」と思うことがあり「統計的検定の代わりに区間推定で説明しても大丈夫ですか?」と質問してみた。一般的にはNGだが、ケースによってはOKという回答をもらった。どういうケースはNGで、どういうケースはOKなのかを理解するために、区間推定の評価指標について考えてみよう。

区間推定のよさをはかる

数理統計学は推定量のよさだったり、検定方法のよさだったりについて議論をすることが多い学問だが、区間推定についても当然評価指標の話が存在する。推定量のよさほどは話題になることが少ないが...(私は今日初めて知った)。

以降は久保川本の8.3をベースに書く。考えたいパラメータ\thetaが確率1-\alphaでこの区間にあるはず、というのをカバレージ確率という。ここでいくつかの評価軸が考えられる。

  • A: 同じカバレージ確率を持つ信頼区間であれば、区間の平均的な長さが小さいほうが望ましい
  • B: 同じ長さの信頼区間ならばカバレージ確率が大きいほうが望ましい

Aの基準で選んだ区間推定のことを最短信頼区間といい、Bの基準で選んだ区間推定のことを最精密信頼区間という。

検定方式との対応

詳しくは久保川本を読んで欲しいが、最精密信頼区間は統計的検定をある意味反転させて信頼区間を作る方法であり、裏側には一様最強力検定の考え方が入っている。一方で、最短信頼区間は統計的検定のことは特に考慮していない区間推定になっている。「統計的検定の代わりに区間推定で説明しても大丈夫か?」という質問に対しては、最精密信頼区間であれば統計的検定と対応しているのでOK、最短信頼区間は統計的検定の結果と(意思決定の結果が)食い違うことがあるので一般にはNGということだった。なるほど、確かに。

統計検定2級までで出るような一般的な区間推定は、最精密信頼区間がベースの考えで作られていることが多い。そういったケースでは統計的検定の代わりに、区間推定で説明しても問題ない。自分が説明に使おうとしている区間推定がどういう考えのもので作られた方法かを意識しましょう、という話。

こういう結構答えにくい質問に関しても「こういう考えが背後にはあって〜」というのを説明してもらえるので、統計検定1級対策講座はいい講座だなと思います。なんと来週が最終回〜。