サットン氏の本(ドラフト版)の章立てに沿ってメモ、とりあえず導入部分。覚書程度で細かい内容に踏み込む予定も細かい式を参照したりもしない予定、だいぶ昔に勉強しただけなので復習も兼ねて少しずつ進めていけたらいいな。

強化学習の基本

Introduction to Reinforcement Learning with Function Approximation

NIPS2015での発表資料がありました。

f:id:misos:20161130024318p:plain

Q-Learningはoff-policyということで。

Q-learningの場合は動的計画法とtemporal-differenceの考えを用いて解けたけど、現実世界では探索すべき空間が大きすぎるので関数で近似する。関数のパラメータが無限に発散してしまうと×。

banditの文脈でも出てきますが、ε（小さい確率）でランダムな挙動をするようにした戦略。Semi-gradient Sarsaで触れます。

各手法と〜０９までのトレンドを式付きで紹介、古い手法の復習。

ユニヴァーシティ・カレッジ・ロンドンでの講義資料を参照します。David Silver氏(Deep mindの人)の講義資料です。なんと強化学習の講義の動画も公開していました。けどLecture1からLecture9になる頃には再生数が十分の1になってしまっている...。

David Silver氏トップ＞講義資料より