はげしく間違っている。ということで参考にしないほうがいい。
一般の回帰モデル*1の統計モデルでは従属変数が
- 正規分布に従う
- 分散は一定
などの条件がある。
正規分布に従う例も多いが、必ずしもデータが正規分布に従うということはない。また、ポアソン分布のようなものを考えると分散は平均に依存し、分散は一定とは言えない。
GLMでは従属変数の確率分布は(正規分布に限らない)指数関数族の確率分布を取ることができる。指数関数族というのは例えば
- ポアソン分布
- 二項分布
- ガンマ分布
などのことである。
線形予測子z
GLMはモデルの中に、この線形予測子を持つ統計モデルのことである。
線形予測子zと従属変数の平均を偸美付ける関数をリンク関数と呼ぶ。例えばlogリンク関数というものを適用すると
が
という形で書き表すことができる。
ポアソン分布の例で考える。ある個体iの種子数を考える。
ポアソン分布の平均は0以上であるという制約があるが*2、この指数の形で表しておけばは常に非負の値となる。