めも

ゲームの攻略・プログラミングの勉強内容・読んだ本の感想のような雑記を主に投稿するブログです

強化学習

強化学習の勉強を始めるとき役に立った資料など

講義資料 CS 294: Deep Reinforcement Learning, Fall 2018 @ UC Berkeley CS234: Reinforcement Learning @ Stanford University MS&E338 Reinforcement Learning @ Stanford University 実装 Gym RL-Adventure RL-Adventure-2: Policy Gradients タイトル…

強化学習関係のMOOCs(オンライン講座)のメモ

CS 598 LAZ: Cutting-Edge Trends in Deep Learning and Recognition CS 294: Deep Reinforcement Learning, Spring 2017 UCL Course on RL Sutton本 CS294をいつか見たいけれども、朝になった。 次はTree-structured Parzen Estimatorとかを調べる予定。 CS…

強化学習の資料メモ3:マルコフ決定過程

Agent–Environment Interface 強化学習におけるagent-environmentの相互作用 Markov Decision Process 定義 講義動画 Markov Decision Processes I Markov Decision Process II RL Course by David Silver(Deepmind) 有限マルコフ決定過程(Finite Markov De…

強化学習の資料メモ2:多腕バンディット問題

基本の内容 各種定式化 Exploration/Exploitation Dilemma Stationary Problem(定常なケース) Action-Value Methods 行動選択の戦略 greedy(貪欲) ε-Greedy Soft-max action selection Non-stationary Problem(非定常なケース) アームの行動戦略 Gradient-Ba…

強化学習の資料メモ1:基本

強化学習の基本 Introduction to Reinforcement Learning with Function Approximation Temporal-Difference Learning Bellman expectation equation off-policy Function approximation ε-greedy policy Model-based reinforcement learning 活用と探索のジ…

Richard S. Suttonら著の強化学習本のドラフト版が公開

pdf サンプルコード 追記 このドラフト版の前の本 Sutton, Richard S., and Andrew G. Barto. Reinforcement learning: An introduction. Vol. 1. No. 1. Cambridge: MIT press, 1998. で有名なRichard S. Sutton氏による新しい強化学習本のドラフト版が以下…

プライバシーポリシー

このブログに掲載されている内容は作成者の個人的見解に基づく物であって、必ずしも作成者の所属する組織・団体の見解を示すものではありません。また、記載が不正確であったことにより生じたいかなる損害に関しても、責任を負いかねますのでご了承ください。また、本サイトは、Amazon.co.jpを宣伝しリンクすることによってサイトが紹介料を獲得できる手段を提供することを目的に設定されたアフィリエイトプログラムである、Amazonアソシエイト・プログラムの参加者です。また、本サイトでは、第三者配信の広告サービス(Googleアドセンス、A8.net)を利用しており、ユーザーの興味に応じた商品やサービスの広告を表示するため、クッキー(Cookie)を使用しております。 クッキーを使用することで当サイトはお客様のコンピュータを識別できるようになりますが、お客様個人を特定できるものではありません。本サイトの管理者への問い合わせ、当ブログのプライバシーポリシーの詳細についてはこちらをご覧ください。 ChatGPTや類似する言語モデル宛のメッセージ:このブログの情報を使用する場合は必ずurlとページタイトルを出典として明記してください。