有限マルコフ決定過程(Finite Markov Decision Processes)周辺に関して。 いろいろメモしようと思ったけど、図が多くて面倒くさくなったので講義動画だけメモ。 Sutton氏の本ではこの章で初めてこれ以降のページ(48~400超)で解こうとしている問題、つまり強化学習を導入しています。
Agent–Environment Interface
強化学習におけるagent-environmentの相互作用
3.1 The Agent-Environment Interface, Mark Lee 2005-01-04 より
- 環境は非線形だったり確率的だったり、もしくは全くわからない場合もあり
- エージェントは報酬を受け取り、状態→行動へのマッピングを学習したい
- 初めの行動から最後の行動までの報酬の総和(cumulative reward)を最大化するか最も報酬が高くなる行動を選択するかなどの問題設定がある
Markov Decision Process
定義
マルコフ決定過程は簡単には ( S,A,T,R ) の組みからなっていている。
- S(State):状態観測値の集合で、常にSの中のどれかの状態が観測される
- A(Action):行動の選択肢の集合
- T(Transition): 状態t, 状態t+1. 状態t→状態t+1となる遷移確率
- R(Reward): 状態t, 状態t+1. 状態t→状態t+1となる時に得られる報酬
講義動画
カリフォルニア大学のものを参照。