サットン氏の本(ドラフト版)の章立てに沿ってメモ、とりあえず導入部分。 覚書程度で細かい内容に踏み込む予定も細かい式を参照したりもしない予定、だいぶ昔に勉強しただけなので復習も兼ねて少しずつ進めていけたらいいな。
強化学習の基本
Introduction to Reinforcement Learning with Function Approximation
NIPS2015での発表資料がありました。
pdf: https://webdocs.cs.ualberta.ca/~sutton/Talks/RLtutorialNIPS2015.pdf
Temporal-Difference Learning
pdf: https://www.tu-chemnitz.de/informatik/KI/scripts/ws0910/ml09_6.pdf
Bellman expectation equation
off-policy
Q-Learningはoff-policyということで。
Function approximation
Q-learningの場合は動的計画法とtemporal-differenceの考えを用いて解けたけど、現実世界では探索すべき空間が大きすぎるので関数で近似する。関数のパラメータが無限に発散してしまうと×。
ε-greedy policy
banditの文脈でも出てきますが、ε(小さい確率)でランダムな挙動をするようにした戦略。Semi-gradient Sarsaで触れます。
Model-based reinforcement learning
各手法と〜09までのトレンドを式付きで紹介、古い手法の復習。
pdf: http://mlg.eng.cam.ac.uk/mlss09/mlss_slides/Littman_1.pdf
活用と探索のジレンマ
ユニヴァーシティ・カレッジ・ロンドンでの講義資料を参照します。David Silver氏(Deep mindの人)の講義資料です。なんと強化学習の講義の動画も公開していました。けどLecture1からLecture9になる頃には再生数が十分の1になってしまっている...。
David Silver氏トップ>講義資料より
pdf: Exploration and Exploitation
次回
- 作者: Richard S.Sutton,Andrew G.Barto,三上貞芳,皆川雅章
- 出版社/メーカー: 森北出版
- 発売日: 2000/12/01
- メディア: 単行本(ソフトカバー)
- 購入: 5人 クリック: 76回
- この商品を含むブログ (29件) を見る