めも

メモ.

強化学習の資料メモ1:基本

サットン氏の本(ドラフト版)の章立てに沿ってメモ、とりあえず導入部分。 覚書程度で細かい内容に踏み込む予定も細かい式を参照したりもしない予定、だいぶ昔に勉強しただけなので復習も兼ねて少しずつ進めていけたらいいな。

強化学習の基本

Introduction to Reinforcement Learning with Function Approximation

NIPS2015での発表資料がありました。

f:id:misos:20161130024318p:plain

pdf: https://webdocs.cs.ualberta.ca/~sutton/Talks/RLtutorialNIPS2015.pdf

Temporal-Difference Learning

pdf: https://www.tu-chemnitz.de/informatik/KI/scripts/ws0910/ml09_6.pdf

Bellman expectation equation

Bellman方程式 - 機械学習の「朱鷺の杜Wiki」

off-policy

Q-Learningはoff-policyということで。

d.hatena.ne.jp

Function approximation

Q-learningの場合は動的計画法とtemporal-differenceの考えを用いて解けたけど、現実世界では探索すべき空間が大きすぎるので関数で近似する。関数のパラメータが無限に発散してしまうと×。

連続な空間における強化学習

ε-greedy policy

banditの文脈でも出てきますが、ε(小さい確率)でランダムな挙動をするようにした戦略。Semi-gradient Sarsaで触れます。

Artificial Intelligence - foundations of computational agents -- 11.3.9.1 SARSA with Linear Function Approximation

Model-based reinforcement learning

各手法と〜09までのトレンドを式付きで紹介、古い手法の復習。

pdf: http://mlg.eng.cam.ac.uk/mlss09/mlss_slides/Littman_1.pdf

活用と探索のジレンマ

ユニヴァーシティ・カレッジ・ロンドンでの講義資料を参照します。David Silver氏(Deep mindの人)の講義資料です。なんと強化学習の講義の動画も公開していました。けどLecture1からLecture9になる頃には再生数が十分の1になってしまっている...。

David Silver氏トップ>講義資料より

pdf: Exploration and Exploitation

www.youtube.com

次回

paper.hatenadiary.jp


強化学習

強化学習

  • 作者: Richard S.Sutton,Andrew G.Barto,三上貞芳,皆川雅章
  • 出版社/メーカー: 森北出版
  • 発売日: 2000/12/01
  • メディア: 単行本(ソフトカバー)
  • 購入: 5人 クリック: 76回
  • この商品を含むブログ (29件) を見る

プライバシーポリシー

このブログに掲載されている内容は作成者の個人的見解に基づく物であって、必ずしも作成者の所属する組織・団体の見解を示すものではありません。また、記載が不正確であったことにより生じたいかなる損害に関しても、責任を負いかねますのでご了承ください。また、本サイトは、Amazon.co.jpを宣伝しリンクすることによってサイトが紹介料を獲得できる手段を提供することを目的に設定されたアフィリエイトプログラムである、Amazonアソシエイト・プログラムの参加者です。また、本サイトでは、第三者配信の広告サービス(Googleアドセンス、A8.net)を利用しており、ユーザーの興味に応じた商品やサービスの広告を表示するため、クッキー(Cookie)を使用しております。 クッキーを使用することで当サイトはお客様のコンピュータを識別できるようになりますが、お客様個人を特定できるものではありません。本サイトの管理者への問い合わせ、当ブログのプライバシーポリシーの詳細についてはこちらをご覧ください。