バンディット
バンディット問題とは 方策の評価方法:リグレット 確率的バンディット 問題設定 標本分布と本当の分布の間の評価 観測した報酬の平均(標本平均)と本当の平均(母平均)の差の評価 方策 参考文献・資料 小宮山純平先生の人工知能学会誌での「私のブックマ…
Tor Lattimore先生とCsaba Szepesv´ari先生らの書いたバンディット本がpdfで無料公開されています。pdfのリンクは以下を参照してください。 Dear readers After nearly two years since starting to write the blog we have at last completed a first draft…
元論文 まとめると 背景 Contextual Bandit 既存手法の問題点 Latent Factor Model 座標降下(Coordinate Descent)法 問題設定 アルゴリズム 実験 ベースライン 実験結果 課題 バンディット系のメモです。かなり適当です、すいません。 元論文 Learning Hidde…
概要 コード ログ出力 アームが保持する変数 アーム選択部分 なぜか日本語の記事があまりない。 概要 以前ソフトマックス法を 実行した時、期待値最大が見込めるアームは指数分布に基づいて決定していた。 このアームkの期待値E_kがアームごとに何らかの事前…
前回 matroid bandit やりたいこと Matroid Augmentation property Modular Function Maximum-weight basis of the matroid アルゴリズム:Optimistic Matroid Maximization 問題設定 アルゴリズム詳細 元論文 その他関連論文 書きかけ、後ほど各アルゴリズ…
前回 Contextual Bandit スライド 説明 各アルゴリズム外観 EXP4 Epoch-Greedy LinUCB Thompson sampling for Contextual Bandits HyperTS・HyperTSFB 次回 書きかけ、後ほど各アルゴリズムの説明や実験など追加予定。 →水曜夜あたり→土日あたり 前回 UCB,そ…
前回 UCB(Upper Confidence Bound) UCBの説明 理論的な説明 UCBのアルゴリズム アームの定義 Arm0: ベルヌーイ Arm1: 適当に作った分布 実験 Arm0: ベルヌーイ Arm1: 適当に作った分布 次回 参考文献 前回 ε-Greedy+softmaxについてやった。 UCB(Upper Confi…
前回 Softmax Softmaxによるアーム選択 Boltzmann分布(Gibbs 分布) Softmaxのコード アーム選択部分 実験 アームの定義 Arm0: ベルヌーイ Arm1: 適当に作った分布 実験結果 Arm0: ベルヌーイの場合 Arm1: 適当に作った分布の場合 次回:UCB 参考文献 前回 ε-G…
A/B テスト epsilon-Greedy アルゴリズム 説明 epsilon-Greedy アルゴリズムコード 実験(ベルヌーイ分布のアーム) アームの定義 実行結果 実験(ペナルティが大きいアームがあるケース) アームの定義 実験結果 実験(アームの分布が時間によって変化する場合) …
基本の内容 各種定式化 Exploration/Exploitation Dilemma Stationary Problem(定常なケース) Action-Value Methods 行動選択の戦略 greedy(貪欲) ε-Greedy Soft-max action selection Non-stationary Problem(非定常なケース) アームの行動戦略 Gradient-Ba…
強化学習の基本 Introduction to Reinforcement Learning with Function Approximation Temporal-Difference Learning Bellman expectation equation off-policy Function approximation ε-greedy policy Model-based reinforcement learning 活用と探索のジ…
導入 バンディットアルゴリズム入門と実践 I’m a bandit Thompson Sampling アルゴリズム バンディット問題の各定式化について Introduction to Bandits: Algorithms and Theory 応用例:レコメンデーション 論文 Some aspects of the sequential design of …