すうがくぶんか統計検定1級対策講座第五回

前回はこちら。

今回は最尤推定量や推定量の一致性、十分統計量の話がメイン。

推定量のよさ: 一致性
- 一致性を示す上で便利な不等式グッズ
一致性を満たす推定量の例: 最尤推定量
- 最尤推定量のよさ: 不変性
十分統計量
次回予告: 十分統計量の欠点と完備十分統計量。Lehmann-Scheffeの定理を使ったUMVUEの示し方

推定量のよさ: 一致性

前回の内容にある不偏性も推定量のよさの一つだけど、今回の一致性も推定量のよさをはかる性質の一つ。パラメータ $\theta$ に対して、n個の標本から作られる推定量 $\hat{\theta}_n$ が任意の $\epsilon > 0$ に対して、以下が成立するとき、推定量が一致性を持つと呼ぶ。

$\lim_{n \rightarrow \infty} P(|\hat{\theta}_n - \theta| \geq \epsilon) = 0$

不偏性は標本サイズnに依存せず、exactに真のパラメータに一致することを言っていた。一致性は標本サイズを飛ばした極限で一致する(確率収束)することが言えればいい。

一見、不偏性のほうが強いことを言っているような気もするが、不偏性を満たすが一致性を満たさない例はすぐ作れる。 $X_i \sim N(\mu, 1) i=1, \cdots, n$ とし、 $X_1$ を $\mu$ の推定量とすると、これは不偏推定量になっている。しかし、標本一個しか使わないわけで当然一致性を満たすことはできない。不偏性と一致性、どっちが強い弱いというより、独立した概念。

一致性を示す上で便利な不等式グッズ

一致性を示すためには、確率不等式を使うことが多い。不等式テクは知らないとどうしようもないことが多いので、知識として頭に入れておく。一致性を示すのに便利な不等式は以下の二つ。

マルコフの不等式
チェビシェフの不等式
- これはマルコフの不等式からすぐに示せる

これらの不等式の強さは任意の分布*1で使える点。正規分布などを仮定せずに使える点がとても強力だが、不等式の中身を追っていくと相当ガバガバな上限くらいしか示せていないことに注意。

とはいえ、大数の法則(標本平均が真の平均に確率収束する)もチェビシェフの不等式を使って示されるし、便利なグッズであることには間違いない。統計検定一級を受験する上でも当然使えて欲しい道具の一つであるようだ。

一致性を満たす推定量の例: 最尤推定量

一致性は推定量のよさの性質の一つであることが分かったが、どういう推定量は一致性を持っているか。一致性を満たす推定量の一つに最尤推定量が挙げられる。最尤推定量が一致性を満たすことの一般の証明はかなり大変なので、証明は省略。

不偏推定量の場合、「XXX分布に対する期待値を計算してそれが真のパラメータと一致していたら不偏推定量」というのを個別に計算していた。最尤推定量の場合、何の分布を仮定していようが最尤推定している限りは一致性がすでに示されている。最尤推定というフレームワークの利用者側としては、お手軽に使える割に、使う推定方法のよさの根拠がきちんと言えるので便利なわけである。

最尤推定量のよさ: 不変性

最尤推定量は様々なよさを持っており、それがゆえに世の中で広く使われているわけだが、よさの一つに不変性がある。不変性は「元々のパラメータの最尤推定量を関数gで変換したものと、関数gで変換した後のパラメータについて最尤推定量が一致する」ということ。

...なんだか当たり前のような気もするが、不偏推定量は不変性を一般には満たさない。現代数理統計学に書いてあった例だと、「不偏分散の平方根を取ったものは、 $\sigma$ の不偏推定量ではない」というのがある(!)。 $\sigma$ の不偏推定量自体を計算することはできるが、これは割と素直ではない形になってしまう。ガンマ関数などモリモリ出てきてマジか...という気持ちになる。

このように不偏推定量の場合は、不偏推定量を計算した後に関数をかますと、もはや不偏推定量ではなくなってしまう。不変性は当たり前に成立するものではないわけだ。

最尤推定量の場合、関数をかましてから最尤推定しても、最尤推定したものに関数をかましても、不変性からそれらは一致する。そのため、色々扱いが簡単になる、というのが最尤推定量のうれしいところの一つ。

その他、最尤推定量はさらに漸近正規性のようなうれしい性質も持っているが、講義ではひとまず省略。統計検定一級では漸近正規性の証明は出題されていないが、漸近正規性を使った問題は出されたことが過去に一度だけある、くらいの温度感の様子。

十分統計量

不偏推定量の中でもさらに性質のよいUMVUEを構成するための方法の一つにLehmann-Scheffeの定理があるが、そのための準備として十分統計量を定義する。統計検定一級でも頻出のトピックであり、講義でもがっつり時間を割いて説明があった。

十分統計量は「Tをある統計量とすると、十分統計量であることの定義は $T=t$ であるもとでの条件付き分布がもはや真のパラメータ $\theta$ に依存しないこと」と定義されることが多い。しかし、これは何のことを言っているか直感的に全然分からないし、過去の自分の勉強したログを見ても全然ピンときていないことが分かる...。

今回の統計検定1級対策講座ではそれとは異なり、フィッシャー情報量を通じて十分統計量の定義付けが行なわれた。個人的にもこちらのほうが十分統計量とは何かしっくりきたのでメモを残しておく。

フィッシャー情報量の復習

「パラメータ $\theta$ が少し動いたとき、推定量の同時分布はどれくらい変化するか」がフィッシャー情報量の意味だった。

フィッシャー情報量は元々は確率密度関数 $f$ について考えていたものであったが、どんな任意の統計量 $T$ について考えられる。つまり、 $T$ の確率密度関数を $g$ と書くと、 $g$ についてのフィッシャー情報量も定義できるということ。例えば、 $T$ として不偏分散を考えると、 $g$ は $X^2$ 分布となり、 $g$ についてのフィッシャー情報量を考えることもできる、といった具合である。

フィッシャー情報量に関する不等式と十分統計量の定義

$g$ についてのフィッシャー情報量とは一体何を意味しているか。元々のフィッシャー情報量の意味合いを考えると、「パラメータ $\theta$ が少し動いたとき、元々のデータ $X_1, \cdots, X_n$ を何らか縮約した統計量 $T$ の分布はどれくらい変化するか」ということになる。「元々のデータが一番データを持っているわけだから、変化は緩やかな方向に行くのではないか?」という直感が働くが、これをサポートする定理が存在する。

元々のフィッシャー情報量を $I_n(\theta)$ 、統計量 $T$ についてのフィッシャー情報量を $I_T(\theta)$ と定義する。すると、任意の統計量 $T$ について、 $I_n(\theta) \leq I_T(\theta)$ であることが示せる。不等式の証明を見ていくと、不等式の中で等号が成立する条件は

$\frac{d}{d \theta} \log f(x_1, \cdots, x_n; \theta) = \frac{d}{d \theta} \log g(t(x_1, \cdots, x_n); \theta)$

であるということが分かり、これはtが $f(x_1, \cdots, x_n; \theta) = h(x_1, \cdots, x_n) g(t(x_1, \cdots, x_n); \theta)$ の形を満たす場合(この式はネイマンの分解定理と呼ばれているやつ)。等号が成立している場合のTのことを十分統計量と呼ぶ。不等式からも分かるように、元のデータを何らかの形で統計量Tに縮約すると、フィッシャー情報量は基本的には小さくなる方向に動くのだが、元々のデータと同じだけの(最大の)フィッシャー情報量を持つようなものが十分統計量の意味合いと考えることができる。

フィッシャー情報量を経由しない十分統計量の定義

ここまでくると、最初の「条件付き分布がもはや真のパラメータ $\theta$ に依存しないこと」というよく分からなかった十分統計量の定義と比べて、大分直感が働くようになった。自分だけが難しいと感じていたわけではなくて、他の受講生の方も感じていたようでちょっと安心(?)した。

講義中に紹介された十分統計量の定義は、フィッシャー情報量が定義される分布にしか適用できない(例: 一様分布の最大値パラメータに関するフィッシャー情報量はフィッシャー情報量を定義できない)。しかし、十分統計量はフィッシャー情報量なしに(冒頭に書いたように)定義できるように拡張することができる。

しょっぱなから拡張したほうの十分統計量を定義すると意味が分かりにくいが、フィッシャー情報量を用いて十分統計量の定義を構成していくと理解がしやすいので、自分としてはこちらのほうで今後は覚えていこうと思う。

次回予告: 十分統計量の欠点と完備十分統計量。Lehmann-Scheffeの定理を使ったUMVUEの示し方

十分統計量はフィッシャー情報量を最大に保つ統計量である、ということが分かった。しかし、十分統計量は困ったことにいくつも構成できてしまう。例えば、正規分布の平均パラメータの十分統計量として、 $T(x)= (\sum_{i=1}^n X_i)$ が考えられるが、 $T^\prime(x)= (X_1, \sum_{i=2}^n X_i)$ など $T(x)$ をばらしたものも十分統計量になる。