Definition
Prior and Posterior Distributions
確率の基本法則
- 加法定理
- 乗法定理
を用いて、導出される以下のベイズの定理
を使って
と計算できるが、これを事後分布(posterior distribution)という。
事後分布のmodeでを推定することもできる(mleにつながってくる)が、事後分布は単に
の関数ではなく、分布関数である。なので、
を推定するのに事後分布のmedianやmeanを使うこともできるわけである。meanを使うことで
を推定して出てくる推定値のことをposterior Bayes estimatorと言う。
で、ここでは(Introduction to the Theory of StatisticsのP341)もっと一般にの関数
の推定値を考えて定義してある。
Let
be a random sample from a density
, where
is a value of the random variable
with known density
. The posterior Bayes estimator of
with respect to the prior
isn defined to be
.
で、こやつを計算するとこんな感じにできるよねっいうのが書いてある(Introduction to the Theory of StatisticsのP341の(21)式)。
分母の積分は定数なので、期待値に関する計算は分子のみにかかってくることに注意する。Pitman estimatorとの類似性などが書いてあったりもする。
posterior mean、すなわち、posterior Bayes estimatorをの推定値として使うこともできると書いたが、posterior Bayes estimatorは、一般にはunbiased estimatorではない(不偏推定量ではないということ)。
Posterior distribution is a function of sufficient statistics
Prior Predictive Distribution
Posterior Predictive Distribution
Posterior Mean
Loss-function Approach
loss function、リスク、admissibleなestimatorの話についてはこっちでまとめてみた。
リスクを最小にするような推定値について考えたいんだけど、リスクはの関数なので、一般的には一様にリスクを最小にするような推定値は存在しない。だから、リスクの平均を取って考えるようにすればいいんじゃない?ベイズならパラメータが分布できるからリスクの平均を考えることができるでしょ?というのがここまでの流れ。
そういうことなので、リスクの平均を考えましょう。んでもって、それをBayes riskと呼びましょう。
Let
be a random sample from a density
, where
is the value of a random variable
with cumulative distribution function
and corresponding density
. In estimating
, let
be the loss function. The risk of estimator
is denoted by
. The Bayes risk of estimator
with respect to the loss function
and prior cumulative distribution
, denoted by
.
これでベイズリスクの定義をすることができた。ここでBayes estimatorの定義をすることができるようになる。Bayes estimatorとはベイズリスクを最小にするような推定値のことなんだけど、ちゃんと書くとこういう感じ。admissible estimatorの時もこんなの出てきたな。
The Bayes estimator of
, denoted by
, with respect to the loss function
and prior cumulative distribution
, is defined to be that estimator with smallest Bayse risk. Or the Bayes estimator of
is that estimator
satisfying
for every other estimator
of
.
ベイズに関する推定値ではposterior Bayes estimatorがあったんだけど、ちょっとそれと比較してみる。
- posterior Bayes estimator
- loss functionが必要なかった
- その代わり、一般的には不偏推定量にはならないという性質があった
- Bayes estimator
- あとで見るけど、色々よい性質がある
- だけど、loss functionがはっきりしてないと推定値計算するのとかに困るんだよね
こんな風なトレードオフがあったりする。完璧な推定値というのは中々ないねーという感じ。条件を付けることで強いことが言えたりとか。
なんだけど、loss functionが二乗和誤差の形だと結構簡単にBayes estimatorを求めることができるよねーというのがIntroduction to the Theory of StatisticsのP345の付近。
Loss functionが二乗和誤差である時のBayes estimatorを求める
結構簡単にとか言いながらも、Introduction to the Theory of StatisticsのP345の説明だといまいち分からなかったので、パターン認識と機械学習 上 - ベイズ理論による統計的予測のP45からのところで見てみることにする。このページに書いてある期待損失というのは
という風に書いてあって、Introduction to the Theory of StatisticsのP345の記述とは微妙に違ったりする。こっちには
という風に書いてある(最後はベイズの定理を使って自分で計算した)。
これで、yとtに、xを、pをfに、tを
におきかえれば同じ式に見えるところまできた(xはベクトル)。これからは、
のほうで考えるようにしていくことにする。
変分法というのを使うと、これを最小にする推定値が計算できるらしいんだが、知らないので使わないアプローチのほうで行く。パターン認識と機械学習 上 - ベイズ理論による統計的予測のP46。とりあえず二乗和誤差を以下のように変形する(とできるのは答えがこれだと知っているからなんだけど、すまして使ってしまうw)。
これをリスクに入れて、tで積分を取ると、クロス項は消えて、リスクは
という形に計算できるらしい。が、本当か分からないので計算することにした。
クロス項が消える
まず、条件付き期待値がxの関数であることを思い出しておこう。Introduction to the Theory of Statisticsのp158付近に例がある。これより、クロス項の部分の積分は、xに関する関数の部分を前に出して
とできる。の部分について考えると、後半部分はベイズの定理を使って
とできる*1。これより前半部とキャンセルアウトされて、クロス項が消える。
条件付き分散の項
第三項を展開していくと
条件付き期待値がxの関数であることを考えつつ、第二項を考えると
とできる。また、第一項は
となる。これより、第一項と第二項によってが出てくる。第三項は
となる。条件付き分散の定義*2より全体として、
とできる。
これによりを導くことができた。長かった。。。
リスクを最小にする推定値を考える
の第一項のみが推定値に関係している。第一項の
が0になればリスクは最小となるので、リスクを最小にする推定値は
となる。これをよく見ると、データが与えられたもとでの事後平均となっていることが分かる。
*1:条件付き期待値の定義を使っている。Introduction to the Theory of Statisticsのp157のdefinition 21