前回はこちら。
確率変数の変数変換
前回は導出メインだったけど、今回は実際の問題を解きながら。
変数変換の公式自体は「なるほど」という感じだけど、実際の問題を解くときには変換後の変数の積分範囲をきちんと考える必要があって、そちらほうが難しい。統計学というより微積分の範疇なので、単純に自分の筋トレ不足感が否めない...。
順序統計量
最小値 / 最大値 / 中央値などが代表的な順序統計量ですね。元の分布がXX分布に従うとき、独立にn個サンプリングしてきた際の最小値や最大値の確率密度関数を実際に計算する。最大値や最小値の分布は極値統計学などの分野でもさらに細かく研究されており、自分の異常検知関連のサーベイをする際に少し勉強した。
最小値 / 最大値などは計算しやすいけど、2番目に小さい値の統計量などはちょっと面倒になる。場合分けをちまちまとしてあげる必要があるが、その際に便利なのが、前回やった「累積分布関数を用いた確率変数の変数変換」のアプローチ。累積分布関数ではxに関する条件をbooleanの形で書けるので、場合分けを丁寧に書いていったりするとよい。累積分布関数の形で綺麗に書き表わせれば、確率密度関数の定義より、累積分布関数を微分してあげればよい。
max - minのような「範囲」の確率密度関数も計算した。何も知らないと結構困るが、これも確率変数の変換の応用で解ける。まず、minとmaxの同時分布を求める(累積分布関数を経由すると楽)。同時分布が求まったら、畳み込み(Z = X + Y)の応用でZ = X - Yの確率分布を計算すると思えばよい。これも積分区間を間違えやすいので、注意しよう...。
不偏性と標準誤差
割と基本的なところ。推定量が不偏であることの定義をまずやって、標本平均やn-1で割ったほうの標本分散の不偏性を証明した。
また、正規分布を仮定した場合のSの標準誤差を求めた。この計算は素でやると大変ダルいので
- (n-1) S / σ2が自由度n-1のX2分布に従う
- 自由度nのX2分布の分散は2nである
という事実から計算できるが、頭の中の道具箱からこの辺をまださっと取り出せないので、押さえておかないとなぁ。
次回
不偏推定量は別に一意に決まったりしないので、色んな推定量が不偏推定量になりうる。不偏な中で分散が一番小さいものが一番いい推定量と言えるんじゃない?という考え方の一様最小分散不偏推定量(UMVUE)の定義を行なう。一様最小分散不偏推定量を構成するのは一般に簡単なことではないが
- Cramer-Raoの下限を使った構成方法
- 推定量の分散がフィッシャー情報量を使った下限で示せる。推定した分散が下限と一致すれば最小であることが言えて、UMVUEであると言える
- Lehmann-Scheffeの定理を使った構成方法
- はるか昔に勉強した後があった...
- Rao-BlackwellとLehmann-Scheffeの違いについて - yasuhisa's blog
- 線形な不偏推定量に限った構成方法
などを次回は見ていく。