変数選択問題の概要等について

問題点

統計学の重回帰モデルにおいて、変数選択の問題は重要な問題である。不適切な説明変数を採用してしまった場合、次のような問題が起こることが知られている。

  • 回帰モデルに無駄な変数(真の回帰係数が0であるような変数)が含まれている時、誤差分散の推定値の自由度が小さくなるため、推定の精度が悪い
    • 後半が意味が分からない
  • 必要な変数がモデルからもれている場合、回帰係数の推定値や予測値は偏りを持つことになり、誤差分散の推定値は過大評価されていることになる
  • 多重共線性の問題
    • 説明変数間に互いに相関の高い変数が含まれている場合には、分散共分散行列の行列式がほとんどゼロになるため、逆行列の要素の値が大きくなり、回帰係数の推定値の精度が悪くなり、モデルが不安定になるといった問題がよく知られている

従来の方法

既存方法として、以下の4つが特によく使われている。

  • 強制投入法:全ての変数を強制的に取り入れる方法
  • 変数増加法:単回帰から出発し順次変数を取り入れていく方法
  • 変数減少法:全ての変数を含んだ重回帰モデルから出発し、順次変数を減少させていく方法
  • ステップワイズ法:変数増加法と変数減少法を組み合わせた方法。事実上標準的方法
  • ref 重回帰分析

厳密な方法?

データ解析でやったような方法ってなんて言うんだろう?調整済み散布図で符号条件を見たりする方法。すべての特徴の部分集合について、前提条件等を見ていくやり方。

回帰モデルの当てはめの最中のプロット

回帰分析を行っている最終に用いる診断プロットとして、調整済み散布図というものがよく用いられる。

すでにある重回帰モデルが与えられた時に、新たに一つ説明変数が加えられるかどうかを知りたいという状況を考える。新たに加えたい説明変数をモデルに含まれている説明変数で回帰したものの残差と従属変数を新たに加えたい説明変数で回帰したものの残差をプロットしたものを調整済み散布図と言う。この調整済み散布図がほぼ線形と見なすことができ、かつ、符号条件に合致していれば、新たな説明変数をモデルに組み込んでよい、とするのが調整済み散布図を用いた回帰モデル構築中に用いられる診断の方法である。

しかし、部分集合の数は、特徴の数が増加に伴い、指数関数的に増大する。従って、特徴の数が多い場合には、すべての部分集合に対して評価をする、という方法は現実的ではない。

自分が考えた方法

数理計画で言うところの枝刈りのようなものが使えないか。つまり、符号条件等を予め明示しておき、総当たりで探していく中でその条件に反していたら、探索を打ち切るというようなやり方である。

ちゃんと書いた

ナップサック問題における分枝限定法のような解法を目指す。分枝限定法では、最適解になり得ない解を無視する工夫をしているが、ここでは符号条件のようなものを考えればよいのではないか。