Rao-BlackwellとLehmann-Scheffeの違いについて

現時点でなんとなく分かってきたようなことを書いてみる。たぶん嘘が入っているけど。プロセス大事だよプロセス。

似たようなことを言っているんだけど、前提条件とか言っていることに関する違いとかをしっかり把握しておくことが必要。

Rao-Blackwell

数理統計学のP18より。

X_1,\cdots,X_nを確率密度関数f(x|\theta)からの標本とし、T=T(X_1,\cdots,X_n)\thetaに対する十分統計量であるとする。\hat{\theta}=\hat{\theta}(X_1,\cdots,X_n)\thetaの不偏推定量とし、\hat{\theta}^*=E(\hat{\theta}|T)とする。すると

  1. E(\hat{\theta}^*)=\theta
  2. \mbox{Var}(\hat{\theta}^*) \leq \mbox{Var}(\hat{\theta})

である。

Introduction to the Theory of Statisticsとか理論統計のレジメとかには2つじゃなくて3つ書いてあったりする。抜けて(?)いるところは、

\hat{\theta}^*も統計量であって、それは十分統計量Tの関数である

というところか。これだけだとよく分からないんだけど、Introduction to the Theory of StatisticsのP322にあるExample 31が分かりやすいと思った。

Example 31

どういう例かっていうと、ベルヌーイ試行の例。

X_1\tau(\theta)=\thetaの不偏推定量になっている。\tau(\theta)っていきなり何やねんと思うんだけど、P321とかを見ると、

(ii) E_\theta[T^{\prime}] = \tau(\theta); that is, T^{\prime} is an unbiased estimator of \tau(\theta).

と書いてある。つまり、\tau(\theta)は真のパラメータを引数として持つ関数ということか。って、そのままだなw。で、Example 31に戻ってくると、X_1\tau(\theta)=\thetaの不偏推定量ということらしいんだが、本当だろうか?と思ったが、なんてことはなくて、E[X_1]=\sum^1_{x_1=0}x_1 \theta^{x_1}(1-\theta)^{1-x_1}=\thetaと計算すればいいだけの話だった。で、\sum X_iは十分統計量であるらしい。この辺は分解定理を使えば、すぐに示せるかな。ここで、S=\sum X_iを十分統計量の集合とする。ここで、Rao-Blackwellの定理によると、T^{\prime}=E[T|S]=E[X_1|\sum X_i]\thetaの不偏推定量となっていて、かつ、T=X_1の分散よりも小さくなっている、ということが言える。おお、これだと大分言っていることが分かりやすくなっている。講義では、分散が改善されているとか、そういう言葉が使われていたような気がする。

で、ごりごりと計算がしてあるわけだけど、本当に改善されているかがやってあるという感じ。X_1の分散はベルヌーイの分散なので、\theta(1-\theta)なんだけど、十分統計量で条件付けた統計量、すなわちT^{\prime}の分散は\frac{\theta(1-\theta)}{n}となっていて、改善されている!!

とこういうわけで、Rao-Blackwellの定理がどういうことを言っているかについては大分つかめてきた気がする。

Rao-Blackwellの定理のまとめ

まず、前提条件として

  • T_1は不偏推定量であること
  • 何かしらの十分統計量Sを見つけてくること

が必要とされている。この時、十分統計量で条件付けられたT_1の期待値T_1^*というのは(T_1^* = E(T_1|S))、もとのT_1の分散以下である、ということが言える。すなわち\mbox{Var}(T_1^*) \leq \mbox{Var}(T_1)が成立するということである。

簡単に言うと何か不偏推定量があって、どっかから十分統計量を持ってきて、その条件付き期待値を取ると、元の分散より小さくなっているよということを言っている。

しかし、Rao-Blackwellの定理というのは、それほど強いことを言えるわけではない。条件付き期待値を持ってくると、元の分散より改善される、ということが言えているだけである。どういうことかと言うと、T_1とは異なる不偏推定量T_2を持ってきて、Sで条件付けると、T_2の分散は改善できるということは言えるんだけど、T_1^*T_2^*のどっちがよい(=不偏推定量であることは同じなので、分散が小さいということ)については何も言えない、ということである。イメージとしてはこんな感じ。

横軸が\thetaの不偏推定量の集合とか考えておくとして、縦軸はその分散と考える。すると、条件付けた分散というのは矢印のように分散が小さくなる方向に動いていく。これが改善されると言うこと。ただ、これがglobalに最適(最小分散)であるかについては、Rao-Blackwellの定理は何も言ってない。しつこいけど、Rao-Blackwellの定義は条件付けると分散が改善されるということしか言ってない。

じゃあ、不偏推定量の中で分散を最小にするようなものを探したいよねーと考えるのが自然な流れ。そこで、Lehmann-Scheffeですよ。

あ、ちなみに「不偏推定量の中で分散を最小にするようなもの」っていうのは一様最小分散不偏推定量(uniformly minimum variance unbiased estimator)、いわゆるUMVUEのことですね。Lehmann-Scheffeを使うとUMVUEがうまーな感じで探せるということです。

Lehmann-Scheffe

UMVUEを探せちゃう、うまーなLehmann-Scheffeの定理ということですが、世の中そんなに甘くはない。UMVUEを探してくれる代償として、一つ条件が必要になってくる。それは、さっきの十分統計量S完備十分統計量である必要がある、ということだ。

そもそも統計量が完備である、とは?

数理統計学のP20より。

X_1,\cdots,X_nを確率密度関数f(x|\theta)からの無作為標本とする。このとき、統計量T=T(X_1,\cdots,X_n)の分布をg(t|\theta)とする。もし、すべての\thetaに大して\int_{-\infty}^{\infty} h(t) g(t|\theta)dt =0となるとき、-\infty < t < \infty上でh(t) \equiv 0を満たせば、統計量Tは完備(complete)であると言う。確率関数の時は、上記積分は和に起き換える。関数h(t)には、\thetaが含まれていないことに注意すること。

わーん、分けがわからないよーという感じだが、意味するところはとりあえず置いておくか。これが示せれば、とりあえず完備であるらしい。すべての\thetaとか、恒等的に、という付近が大変重要である。

Lehmann-Scheffeの定義

Introduction to the Theory of StatisticsのP326のTheorem 10より。

Let X_1,\cdots,X_n be a random sample from a density f(\cdot,\theta). If S=s(X_1,\cdots,X_n) is complete sufficient statistic and if T^* = t^*(S), a function of S, is an unbiased estimator of \tau(\theta), then T^* is an UMVUE of \tau(\theta).

色んな意味で日本語でおkという感じなので、日本語にしていこう。S=s(X_1,\cdots,X_n)が完備十分統計量であって、かつ、T^*がその完備十分統計量の関数である(T^* = t^*(S))時、T^*\tau(\theta)の不偏推定量となっている。そして、それは\tau(\theta)のUMVUEでもある、ということが書いてある。理論統計学のレジメにも書いてあるけど、どこまでがRao-Blackwellの定理を内包しているのかを確認していきながらやることが重要になってくる。Rao-Blackwellの定理の

  • \hat{\theta}^*十分統計量Tの関数である
  • 条件付き期待値を取ったものも、不偏推定量になる

のところはLehmann-Scheffeでも同じ。つまり、違いは分散のところについて言っていることが違うということだ。理論統計学の資料(Parametric Point Estimation)p290にこんなことが書いてある。

It remains to show that T^* does not depend on which unbiased estimator of h(\theta) we start with.

示す必要があるってことは、that以下が証明されて言えるということで。Rao-Blackwellの定理では、スタートする位置によって、分散が最小となるものが違ってしまったんだけど、Lehmann-Scheffeではそんなことはない。Lehmann-Scheffeでは他のどんなものと比較してもよい統計量がある、どういうTからスタートしても、ということである。またまた超適当なイメージで書いてみるとこんな感じである。

適当すぎてあれなんだけど(笑)、どっからスタートしても最小となる分散に辿りつけるということを表わしています。で、Lehmann-Scheffeでは異なる2つの不偏推定量T_1T_2があったとき、完備十分統計量を与えてやるとT_{1c}^*=T_{2c}^*とならなければならない、ということを言っています。

まとめ

長々と書いてきたので、表形式でまとめてみます。

Rao-Blackwellの定理 Lehmann-Scheffeの定理
必要とされているもの 不偏推定量、十分統計量 不偏推定量、完備十分統計量
言えること 十分統計量を与えることで、よりよい(分散が小さいという意味で)不偏推定量を得ることができる UMVUEを見つけることができる
デメリット よりよいものは見つけることができるけど、一番よいもの(UMVUE)がどれかは分からない 完備であることを示さないといけない

完備でないからと言って、UMVUEがないとは限らないので*1、Lehmann-Scheffeの定理があればおkというわけにはいかないんですが、Lehmann-Scheffeの定理があると大分簡単にUMVUEを見つけることができて、ハッピーになれます。

数理統計学

数理統計学

*1:反例がある。理論統計学のレジメにあったはず。