強化学習

よく分からないです><。

  • 半教師あり学習
  • No Free Lunch
    • モデルの誤りが大きな誤差を生む
    • クラスタリングを使うこともある
  • この辺は知ってるので、メモは略
    • Self-Training
    • Co-Training
    • Transductive SVM
  • 強化学習
    • マルコフ決定過程
      • 状態を知覚
      • 政策で行動を選択
      • 報酬を受領すると、状態が変化
      • 収益最大化を目指す
    • 政策のみが自分で設定でき、他のものは環境によって決まる
    • 報酬は未来のものも考える
      • 将来のものは割り引いて考える => \gamma \leq 1
      • 経済っぽい感じ
  • 誤差が正確に計算できないような時によく使われる
    • 行動と結果の関係が不明確でも利用可能
  • 変更できるのは政策のみ
    • 最適な政策は決定論的
  • Temporal Difference学習
    • V(s)を価値関数
    • V(s(t)) = r(t +1) + \gamma V(st(t+1))
      • 将来のものは割り引いて
      • 再帰を使って書き表わせる => ベルマン方程式
  • Q学習
    • 状態sでの行動aの価値関数
      • これも再帰を使って書く => DP
  • Exploration-Exploitation Dilermma
    • 多数の試行を実際にしてみないと分からない
    • 推定結果を利用して収益を最大化
  • ソフトマックス戦略
  • \epsilonグリーディ戦略
  • パラメータ設定が非常に難しい
  • 強化学習はマルコフ決定過程
    • 観測される系列
  • 強化学習の問題がマルコフ決定過程に変わる
  • コインの例
    • ずーっと0が出る系列が一番確率が高いが、その確率は長い系列を考えると0
  • 個数じゃなくって、集合で考える => 集合で考えるとcombinationが出てくる => それの確率でいくと3:1になる確率が1になる
    • こういうのが典型集合
    • これを強化学習に使う
  • 対数尤度に応用する
    • 典型集合は確率1
  • 典型系列の確率は等確率であると分かる(大数の法則の確率の中のところを使う)
  • 小偏差、大偏差(平均より大きいものが出るのはどれくらいの確率か?)
    • 大偏差はどのオーダーで0に行くのか
  • Sanovの定理
  • 強化学習の漸近等分割性
    • エントロピー => 確率的複雑さ
  • ポリシーの確率は制御可能
  • 環境の確率は不変
  • 政策を変えることで、典型集合が収益を最大にするように動かす
    • 典型集合が最良系列を含むようにして
    • 典型系列を小さくする
      • 漸近速度に下限が存在 => 小さくする速度を早くしすぎると典型系列にならなくなってしまう
  • うまくいくためには非常に時間がかかるということを示唆している
  • 情報理論の立場からは強化学習はなかなか厳しいということが言えそう...?