十分統計量&完備統計量の付近を復習するよ

十分統計量

The likelihood ratio

十分統計量を示す付近でlikelihood ratio使った話が出てたんだけど、どういう文脈で出てくるものだったかをさっぱり覚えていない。ということで復習。Introduction to the Theory of Statisticsには載ってないっぽい。というわけで理論統計学のレジメP199付近からそのまま引用してみると

In most applications, we consider families \mathfrak{F} in which the functional form of the probability density function is specified but in which a set of values a finite number of parameters \mathbf{\theta} = (\theta_1,\cdots,\theta_k) takes in unkown. Denote the probability density function as f_{\mathbf{Y}}(\mathbf{Y};\mathbf{\theta}) where \mathbf{y} = (y_1,\cdots,y_k) are realized values of random variables \mathbf{Y} = (Y_1,\cdots,Y_k). Since any particular f_{\mathbf{Y}}(\mathbf{Y};\mathbf{\theta}) specifies how the density varies across the sample space of possible \mathbf{y} values, it is useful to invert this property, and to examine how the density changes at the particular observed value \mathbf{y} as we consider different possible \mathbf{\theta} = (\theta_1,\cdots,\theta_k).

などと書いてあって、そこから尤度、対数尤度の話が書いてある。で、\mathbf{Y}をone-to-one transformationした新しい確率変数ベクトル\mathbf{Z} = (Z_1,\cdots,Z_n)を考える。変数変換などを経て、この尤度関数はL(\mathbf{\theta};\mathbf{z}) = L(\mathbf{\theta};\mathbf{y}) |\frac{\partial \mathbf{y}}{\partial \mathbf{z}}|と書ける。ここまではよい。

で、分かってないのはここから。尤度関数のパラメータは\thetaなんだけど、\theta_0\theta_1の可能性があるとして、どっちのほうがありえそうか判断したい状況があるとする。尤度関数でかいほうがありえそうじゃん、と思うけどちょっと黙って聞いておいて!!(ぉ。

尤度の差を取って考えてもいいんだけど、それだとヤコビアンが残ってしまうので嫌な感じ。だから、ヤコビアンが打ち消しあって消えてくれる比の形を考える。具体的には尤度比をSとして、S = \frac{L(\theta_1;\mathbf{Y})}{L(\theta_0;\mathbf{Y})} = \frac{f_{\mathbf{Y}}(\mathbf{Y};\theta_1)}{f_{\mathbf{Y}}(\mathbf{Y};\theta_0)}について考える。ある2点、\mathbf{y}^1 = (y^1_1,\cdots,y^1_n)\mathbf{y}^2 = (y^2_1,\cdots,y^2_n)が同じ尤度比を持つとしたら、同じSの値を持つはずである(日本語でうまく表現できない)。ということで、Sの十分性(?)を見ていくよというのがP201からの内容。必要十分とかじゃなくて、十分統計量とかというコンテクストかなあ。

Sが十分統計量である、ということを見ていきたいので、定義にそって、Sの条件付き確率を見ていくことにしよう。ここでは\theta_0のほうが正しいものだとしておくことにする。するとSで条件付けた確率はPr\{\mathbf{Y} = \mathbf{y} | S = s;\theta_0\} = \frac{Pr\{\mathbf{Y} = \mathbf{y},S=s;\theta_0\}}{Pr\{S=s;\theta_0\}}と書ける。で、とりあえず離散のケースについて考えてみましょう。周辺分布っぽいものを考えてあげれば、Pr\{S=s;\theta_0\} = \sum^*_{\mathbf{y},S=s}f_{\mathbf{Y}}(\mathbf{y};\theta_0)とできる。離散だからさめーしょんを取ってるよ。

んんん、こっから書いてある流れがよく理解できない。。。

関連

完備性

測度の完備性とかの話ではなく、完備十分統計量とかに関する完備性(Completeness)のお話。昔ちょっと書いてたものがあった。

Completenessのdefinitionはこんな感じになっている。

Let T be a sufficient statistic for \theta in the family of distributions indexed by \theta \in \Theta. Then T is complete if a necessary condition for
E[h(T);\theta] = \int h(t) f_T(t) = 0 \, \mbox{for all} \, \theta \in \Theta
is h(T) = 0, \, \mbox{for all} \, \theta \in \Theta
except possibly on sets of measure zero with respect to all the distributions concerned.

E[h(T);\theta] = \int h(t) f_T(t) = 0 \, \mbox{for all} \, \theta \in \Thetah(T) = 0, \, \mbox{for all} \, \theta \in \Thetaであることの必要条件であるならば、Tが完備統計量であるということらしい(日本語が変?)。

で、理論統計学のレジメとかIntroduction to the Theory of Statisticsに俺が直感的に分かる例が載っていない。というか、完備なのは分かったけど、完備じゃないのはどういうの?という疑問が湧いていたのだった。が、宿題にいい例が載っていた。これならちょっと理解が進むかなー。こういうの。

Let X have the density f_X(x;\theta) = (\frac{\theta}{2})^{|x|}(1-\theta)^{1-|x|} where x=-1,0,1 and 0 \leq \theta \leq 1.

という設定で、

Is X complete?

という問題。
E[h(X)\theta] = (1-\theta) \sum^1_{x=-1} h(x) (\frac{\theta}{2(1-\theta)})^{|x|} \equiv 0 \, \mbox{for all} \, 0 \leq \theta \leq 1
となる必要条件は
\sum^1_{x=-1} h(x) (\frac{\theta}{2(1-\theta)})^{|x|} \equiv 0
となることである。

Introduction to the Theory of Statistics

Introduction to the Theory of Statistics