ゆるふわめも

ただのメモです。

2016-11-30から1日間の記事一覧

強化学習の資料メモ2:多腕バンディット問題

基本の内容 各種定式化 Exploration/Exploitation Dilemma Stationary Problem(定常なケース) Action-Value Methods 行動選択の戦略 greedy(貪欲) ε-Greedy Soft-max action selection Non-stationary Problem(非定常なケース) アームの行動戦略 Gradient-Ba…

強化学習の資料メモ1:基本

強化学習の基本 Introduction to Reinforcement Learning with Function Approximation Temporal-Difference Learning Bellman expectation equation off-policy Function approximation ε-greedy policy Model-based reinforcement learning 活用と探索のジ…