GMLについて自分用まとめ

はげしく間違っている。ということで参考にしないほうがいい。

一般の回帰モデル*1の統計モデルでは従属変数が

  • 正規分布に従う
  • 分散は一定

などの条件がある。

正規分布に従う例も多いが、必ずしもデータが正規分布に従うということはない。また、ポアソン分布のようなものを考えると分散は平均に依存し、分散は一定とは言えない。

GLMでは従属変数の確率分布は(正規分布に限らない)指数関数族の確率分布を取ることができる。指数関数族というのは例えば

  • ポアソン分布
  • 二項分布
  • ガンマ分布

などのことである。

線形予測子z
z=\sum_j \beta_j x_j

GLMはモデルの中に、この線形予測子を持つ統計モデルのことである。

線形予測子zと従属変数の平均\muを偸美付ける関数をリンク関数と呼ぶ。例えばlogリンク関数というものを適用すると
\log \mu=z

\mu=\exp(\beta_1+\beta_2x_1+\cdots)
という形で書き表すことができる。

ポアソン分布の例で考える。ある個体iの種子数y_iを考える。

ポアソン分布の平均は0以上であるという制約があるが*2、この指数の形で表しておけば\lambda_iは常に非負の値となる。

*1:OLS(最小二乗法)など

*2:ポアソン分布では平均と分散が等しい。分散は正であるから、0以上でないといけない。