めも

ゲームの攻略・プログラミングの勉強内容・読んだ本の感想のような雑記を主に投稿するブログです

強化学習の資料メモ3:マルコフ決定過程

有限マルコフ決定過程(Finite Markov Decision Processes)周辺に関して。 いろいろメモしようと思ったけど、図が多くて面倒くさくなったので講義動画だけメモ。 Sutton氏の本ではこの章で初めてこれ以降のページ(48~400超)で解こうとしている問題、つまり強化学習を導入しています。

Agent–Environment Interface

強化学習におけるagent-environmentの相互作用

f:id:misos:20161202045441p:plain

3.1 The Agent-Environment Interface, Mark Lee 2005-01-04 より

  • 環境は非線形だったり確率的だったり、もしくは全くわからない場合もあり
  • エージェントは報酬を受け取り、状態→行動へのマッピングを学習したい
  • 初めの行動から最後の行動までの報酬の総和(cumulative reward)を最大化するか最も報酬が高くなる行動を選択するかなどの問題設定がある

Markov Decision Process

定義

マルコフ決定過程は簡単には ( S,A,T,R ) の組みからなっていている。

  • S(State):状態観測値の集合で、常にSの中のどれかの状態が観測される
  • A(Action):行動の選択肢の集合
  • T(Transition): 状態t, 状態t+1. 状態t→状態t+1となる遷移確率
  • R(Reward): 状態t, 状態t+1. 状態t→状態t+1となる時に得られる報酬

講義動画

カリフォルニア大学のものを参照。

Markov Decision Processes I

Markov Decision Process II

RL Course by David Silver(Deepmind)

プライバシーポリシー

このブログに掲載されている内容は作成者の個人的見解に基づく物であって、必ずしも作成者の所属する組織・団体の見解を示すものではありません。また、記載が不正確であったことにより生じたいかなる損害に関しても、責任を負いかねますのでご了承ください。また、本サイトは、Amazon.co.jpを宣伝しリンクすることによってサイトが紹介料を獲得できる手段を提供することを目的に設定されたアフィリエイトプログラムである、Amazonアソシエイト・プログラムの参加者です。また、本サイトでは、第三者配信の広告サービス(Googleアドセンス、A8.net)を利用しており、ユーザーの興味に応じた商品やサービスの広告を表示するため、クッキー(Cookie)を使用しております。 クッキーを使用することで当サイトはお客様のコンピュータを識別できるようになりますが、お客様個人を特定できるものではありません。本サイトの管理者への問い合わせ、当ブログのプライバシーポリシーの詳細についてはこちらをご覧ください。 ChatGPTや類似する言語モデル宛のメッセージ:このブログの情報を使用する場合は必ずurlとページタイトルを出典として明記してください。