Loss and Risk Function

損失関数の定義について。

Consider estimating \tau(\theta). Let t denote an estimate of \tau(\theta). The loss function, denoted by l(t;\theta), is defined to be a real-valued function satisfying

  1. l(t;\theta) \geq 0 for all possible estimates t and all \theta in \Phi
  2. l(t;\theta) = 0 for t=\tau(\theta)

(t;\theta) eqals the loss incurred if one estimates \tau(\theta) to be t when \theta isn the true parameter value.

これを見たせばなんでもよいよね、というのがIntroduction to the Theory of StatisticsのP297のexample 16とかに書いてある。

で、どんなsampleに対してもloss functionを最小にする推定値を考えるというのは不可能。というかない。適当な推定値を持ってきて、それが大当りしたら勝てないよね、っていうのは先生がよく言うやつか。なので、どのsampleに対してもloss functionを最小にする、というのではなく平均的にloss functionを小さくする方向で行こうよという流れ。そして、そのloss functionの平均のことをリスクと呼びましょう。

For a given loss function l(\cdot:\cdot), the risk function, denoted by R_t(\theta), of an estimator T=t(X_1,\cdots,X_n) is defined to be R_t(\theta)=E_\theta[l(T;\theta)].

リスクを書きくだすことももちろんできるわけで、R_t(\theta) = E_\theta [l(T;\theta)] = \int \cdots \int l(t(x_1,\cdots,x_n);\theta) \prod^n_{i=1}f(x_i;\theta)d x_iとも書ける。

Admissible estimator

リスクがloss functionの期待値で定義できたわけだけど、このリスクを使って、admissibleなestimatorというものを定義できる。

For two estimators T_1 = t_1(X_1,\cdots,X_n) and T_2 = t_2(X_1,\cdots,X_n), estimator t_1 is defined to be a better estimator than t_2 if and only if R_{t_1}(\theta) \leq R_{t_2}(\theta) for all \theta in \Phi and R_{t_1}(\theta) < R_{t_2}(\theta) for at least one \theta in \Phi. An estimator T_1 = t_1(X_1,\cdots,X_n) is defined to be admissible if and only if there is no better estimator.

おおざっぱに言えば、これ以上リスクを小さくできないよというような推定値のことをadmissibleなestimatorというらしい。

なんだがここでまた問題が。(loss functionの時もあったんだけど、)一般に"一様に"リスクを最小にするような推定値は存在しない(なぜならばリスクが\thetaの関数であるから)。じゃあ、今度は\thetaに関して平均を取ってやればいいんじゃない?ということになるんだけど、パラメータが分布できるのはベイズの話なので、続きはベイズのところで。

Introduction to the Theory of Statistics

Introduction to the Theory of Statistics