多層パーセプトロンとSVM

  • パーセプトロンの多層化
    • 多層化というより、前処理というようなイメージ
    • ニューラルネットは意識しているけど...
  • 結合重みをランダムに生成
  • 資料の赤のほうをランダム、青のほうはパーセプトロンで学習
    • 汎化能力という意味ではあんまりよろしくない(まあ、そうだ)
  • 多層パーセプトロン
    • これって完全にニューラルネットなんじゃ...
    • ちょっと違うか
  • 関数近似能力
    • 必要な素子数が次元に依存しない
      • 次元の呪いにかからない
      • ただし、うまく選んであげないとちゃんとうまくいかない
      • そういう次元数は存在するが、どうやって選べばいいかは自明ではない(というか分からない)
    • 学習曲線が不思議な形(プラトー)をしている
  • 正則モデル
    • 実現したい入出力パラメータが一意に決まる
  • 特異モデル
    • パラメータの組み合わせがあるときに違う組み合わせでも同じ入出力になってしまう
    • ニューラルネットのようなもの
  • 特異モデルの汎化誤差は正則モデルより小さい
    • "余分なパラメータがあっても、汎化誤差は増えない!!"
  • NNとかMLPはパラメータが変わると出力がえらい変わるので使いにくい => RBFネットワークのようなものが使われるようになってきている
  • Mixture of Experts
    • boostingとかアンサンブル学習とかとは違うんかな
  • カーネルのうれしいところ => 計算量が特徴空間の次元数に依存しない
  • 新しいカーネルが非負定値であることを示すのは大変なので、現実的には合成とかが使われる
  • ガウシアンカーネルはフーリエ変換と本質的に同じ
    • 周波数分解をしているのと同じ
  • マージンが大きいほど汎化誤差が小さいことが理論的に示されている
  • サポートベクターの数が小さいほうが汎化誤差が元論文で示されている
    • 汎化誤差はサポートベクターの数によって決まる
    • カーネル法は高次元に飛ばすが、SVMは特徴空間の低い次元に写像している
  • SVMの問題点
    • 高次元特徴空間は汎化能力が低下する
  • ソフトマージン
    • \alphaに上限が加わるのが違い
  • 正則化項の何乗と汎化誤差はどういう関係があるのか?
  • \nu-SVMだとCの意味がはっきりする
    • 幾何的意味を考えられる
    • 1/n \leq C \leq 1で決めれる

カーネル多変量解析―非線形データ解析の新しい展開 (シリーズ確率と情報の科学)

カーネル多変量解析―非線形データ解析の新しい展開 (シリーズ確率と情報の科学)