ゆるふわめも

東京か京都にいます。

強化学習の資料メモ1:基本

サットン氏の本(ドラフト版)の章立てに沿ってメモ、とりあえず導入部分。 覚書程度で細かい内容に踏み込む予定も細かい式を参照したりもしない予定、だいぶ昔に勉強しただけなので復習も兼ねて少しずつ進めていけたらいいな。

強化学習の基本

Introduction to Reinforcement Learning with Function Approximation

NIPS2015での発表資料がありました。

f:id:misos:20161130024318p:plain

pdf: https://webdocs.cs.ualberta.ca/~sutton/Talks/RLtutorialNIPS2015.pdf

Temporal-Difference Learning

pdf: https://www.tu-chemnitz.de/informatik/KI/scripts/ws0910/ml09_6.pdf

Bellman expectation equation

Bellman方程式 - 機械学習の「朱鷺の杜Wiki」

off-policy

Q-Learningはoff-policyということで。

d.hatena.ne.jp

Function approximation

Q-learningの場合は動的計画法とtemporal-differenceの考えを用いて解けたけど、現実世界では探索すべき空間が大きすぎるので関数で近似する。関数のパラメータが無限に発散してしまうと×。

連続な空間における強化学習

ε-greedy policy

banditの文脈でも出てきますが、ε(小さい確率)でランダムな挙動をするようにした戦略。Semi-gradient Sarsaで触れます。

Artificial Intelligence - foundations of computational agents -- 11.3.9.1 SARSA with Linear Function Approximation

Model-based reinforcement learning

各手法と〜09までのトレンドを式付きで紹介、古い手法の復習。

pdf: http://mlg.eng.cam.ac.uk/mlss09/mlss_slides/Littman_1.pdf

活用と探索のジレンマ

ユニヴァーシティ・カレッジ・ロンドンでの講義資料を参照します。David Silver氏(Deep mindの人)の講義資料です。なんと強化学習の講義の動画も公開していました。けどLecture1からLecture9になる頃には再生数が十分の1になってしまっている...。

David Silver氏トップ>講義資料より

pdf: Exploration and Exploitation

www.youtube.com

次回

paper.hatenadiary.jp


強化学習

強化学習

  • 作者: Richard S.Sutton,Andrew G.Barto,三上貞芳,皆川雅章
  • 出版社/メーカー: 森北出版
  • 発売日: 2000/12/01
  • メディア: 単行本(ソフトカバー)
  • 購入: 5人 クリック: 76回
  • この商品を含むブログ (29件) を見る