Rao-BlackwellとLehmann-Scheffeの違いについて

現時点でなんとなく分かってきたようなことを書いてみる。たぶん嘘が入っているけど。プロセス大事だよプロセス。

似たようなことを言っているんだけど、前提条件とか言っていることに関する違いとかをしっかり把握しておくことが必要。

Rao-Blackwell

$X_1,\cdots,X_n$ を確率密度関数 $f(x|\theta)$ からの標本とし、 $T=T(X_1,\cdots,X_n)$ を $\theta$ に対する十分統計量であるとする。 $\hat{\theta}=\hat{\theta}(X_1,\cdots,X_n)$ を $\theta$ の不偏推定量とし、 $\hat{\theta}^*=E(\hat{\theta}|T)$ とする。すると

$E(\hat{\theta}^*)=\theta$

$\mbox{Var}(\hat{\theta}^*) \leq \mbox{Var}(\hat{\theta})$

である。

Introduction to the Theory of Statisticsとか理論統計のレジメとかには2つじゃなくて3つ書いてあったりする。抜けて(?)いるところは、

$\hat{\theta}^*$ も統計量であって、それは十分統計量Tの関数である

というところか。これだけだとよく分からないんだけど、Introduction to the Theory of StatisticsのP322にあるExample 31が分かりやすいと思った。

Example 31

どういう例かっていうと、ベルヌーイ試行の例。

$X_1$ は $\tau(\theta)=\theta$ の不偏推定量になっている。 $\tau(\theta)$ っていきなり何やねんと思うんだけど、P321とかを見ると、

(ii) $E_\theta[T^{\prime}] = \tau(\theta)$ ; that is, $T^{\prime}$ is an unbiased estimator of $\tau(\theta)$ .

と書いてある。つまり、 $\tau(\theta)$ は真のパラメータを引数として持つ関数ということか。って、そのままだなw。で、Example 31に戻ってくると、 $X_1$ は $\tau(\theta)=\theta$ の不偏推定量ということらしいんだが、本当だろうか?と思ったが、なんてことはなくて、 $E[X_1]=\sum^1_{x_1=0}x_1 \theta^{x_1}(1-\theta)^{1-x_1}=\theta$ と計算すればいいだけの話だった。で、 $\sum X_i$ は十分統計量であるらしい。この辺は分解定理を使えば、すぐに示せるかな。ここで、 $S=\sum X_i$ を十分統計量の集合とする。ここで、Rao-Blackwellの定理によると、 $T^{\prime}=E[T|S]=E[X_1|\sum X_i]$ は $\theta$ の不偏推定量となっていて、かつ、 $T=X_1$ の分散よりも小さくなっている、ということが言える。おお、これだと大分言っていることが分かりやすくなっている。講義では、分散が改善されているとか、そういう言葉が使われていたような気がする。

で、ごりごりと計算がしてあるわけだけど、本当に改善されているかがやってあるという感じ。 $X_1$ の分散はベルヌーイの分散なので、 $\theta(1-\theta)$ なんだけど、十分統計量で条件付けた統計量、すなわち $T^{\prime}$ の分散は $\frac{\theta(1-\theta)}{n}$ となっていて、改善されている!!

とこういうわけで、Rao-Blackwellの定理がどういうことを言っているかについては大分つかめてきた気がする。

Rao-Blackwellの定理のまとめ

まず、前提条件として

$T_1$ は不偏推定量であること
何かしらの十分統計量 $S$ を見つけてくること

が必要とされている。この時、十分統計量で条件付けられた $T_1$ の期待値 $T_1^*$ というのは( $T_1^* = E(T_1|S)$ )、もとの $T_1$ の分散以下である、ということが言える。すなわち $\mbox{Var}(T_1^*) \leq \mbox{Var}(T_1)$ が成立するということである。

簡単に言うと何か不偏推定量があって、どっかから十分統計量を持ってきて、その条件付き期待値を取ると、元の分散より小さくなっているよということを言っている。

しかし、Rao-Blackwellの定理というのは、それほど強いことを言えるわけではない。条件付き期待値を持ってくると、元の分散より改善される、ということが言えているだけである。どういうことかと言うと、 $T_1$ とは異なる不偏推定量 $T_2$ を持ってきて、 $S$ で条件付けると、 $T_2$ の分散は改善できるということは言えるんだけど、 $T_1^*$ と $T_2^*$ のどっちがよい(=不偏推定量であることは同じなので、分散が小さいということ)については何も言えない、ということである。イメージとしてはこんな感じ。

横軸が $\theta$ の不偏推定量の集合とか考えておくとして、縦軸はその分散と考える。すると、条件付けた分散というのは矢印のように分散が小さくなる方向に動いていく。これが改善されると言うこと。ただ、これがglobalに最適(最小分散)であるかについては、Rao-Blackwellの定理は何も言ってない。しつこいけど、Rao-Blackwellの定義は条件付けると分散が改善されるということしか言ってない。

じゃあ、不偏推定量の中で分散を最小にするようなものを探したいよねーと考えるのが自然な流れ。そこで、Lehmann-Scheffeですよ。

あ、ちなみに「不偏推定量の中で分散を最小にするようなもの」っていうのは一様最小分散不偏推定量(uniformly minimum variance unbiased estimator)、いわゆるUMVUEのことですね。Lehmann-Scheffeを使うとUMVUEがうまーな感じで探せるということです。

Lehmann-Scheffe

UMVUEを探せちゃう、うまーなLehmann-Scheffeの定理ということですが、世の中そんなに甘くはない。UMVUEを探してくれる代償として、一つ条件が必要になってくる。それは、さっきの十分統計量 $S$ が完備十分統計量である必要がある、ということだ。

そもそも統計量が完備である、とは?

数理統計学のP20より。

$X_1,\cdots,X_n$ を確率密度関数 $f(x|\theta)$ からの無作為標本とする。このとき、統計量 $T=T(X_1,\cdots,X_n)$ の分布を $g(t|\theta)$ とする。もし、すべての $\theta$ に大して $\int_{-\infty}^{\infty} h(t) g(t|\theta)dt =0$ となるとき、 $-\infty < t < \infty$ 上で $h(t) \equiv 0$ を満たせば、統計量 $T$ は完備(complete)であると言う。確率関数の時は、上記積分は和に起き換える。関数 $h(t)$ には、 $\theta$ が含まれていないことに注意すること。

わーん、分けがわからないよーという感じだが、意味するところはとりあえず置いておくか。これが示せれば、とりあえず完備であるらしい。すべての $\theta$ とか、恒等的に、という付近が大変重要である。

Lehmann-Scheffeの定義

Introduction to the Theory of StatisticsのP326のTheorem 10より。

Let $X_1,\cdots,X_n$ be a random sample from a density $f(\cdot,\theta)$ . If $S=s(X_1,\cdots,X_n)$ is complete sufficient statistic and if $T^* = t^*(S)$ , a function of S, is an unbiased estimator of $\tau(\theta)$ , then $T^*$ is an UMVUE of $\tau(\theta)$ .

色んな意味で日本語でおkという感じなので、日本語にしていこう。 $S=s(X_1,\cdots,X_n)$ が完備十分統計量であって、かつ、 $T^*$ がその完備十分統計量の関数である( $T^* = t^*(S)$ )時、 $T^*$ は $\tau(\theta)$ の不偏推定量となっている。そして、それは $\tau(\theta)$ のUMVUEでもある、ということが書いてある。理論統計学のレジメにも書いてあるけど、どこまでがRao-Blackwellの定理を内包しているのかを確認していきながらやることが重要になってくる。Rao-Blackwellの定理の

$\hat{\theta}^*$ 十分統計量Tの関数である
条件付き期待値を取ったものも、不偏推定量になる

のところはLehmann-Scheffeでも同じ。つまり、違いは分散のところについて言っていることが違うということだ。理論統計学の資料(Parametric Point Estimation)p290にこんなことが書いてある。

It remains to show that $T^*$ does not depend on which unbiased estimator of $h(\theta)$ we start with.

示す必要があるってことは、that以下が証明されて言えるということで。Rao-Blackwellの定理では、スタートする位置によって、分散が最小となるものが違ってしまったんだけど、Lehmann-Scheffeではそんなことはない。Lehmann-Scheffeでは他のどんなものと比較してもよい統計量がある、どういうTからスタートしても、ということである。またまた超適当なイメージで書いてみるとこんな感じである。

適当すぎてあれなんだけど(笑)、どっからスタートしても最小となる分散に辿りつけるということを表わしています。で、Lehmann-Scheffeでは異なる2つの不偏推定量 $T_1$ と $T_2$ があったとき、完備十分統計量を与えてやると $T_{1c}^*=T_{2c}^*$ とならなければならない、ということを言っています。

まとめ

長々と書いてきたので、表形式でまとめてみます。

	Rao-Blackwellの定理	Lehmann-Scheffeの定理
必要とされているもの	不偏推定量、十分統計量	不偏推定量、完備十分統計量
言えること	十分統計量を与えることで、よりよい(分散が小さいという意味で)不偏推定量を得ることができる	UMVUEを見つけることができる
デメリット	よりよいものは見つけることができるけど、一番よいもの(UMVUE)がどれかは分からない	完備であることを示さないといけない