バンディットアルゴリズムの復習2:softmax

前回 Softmax Softmaxによるアーム選択 Boltzmann分布(Gibbs 分布) Softmaxのコード アーム選択部分 実験 アームの定義 Arm0: ベルヌーイ Arm1: 適当に作った分布 実験結果 Arm0: ベルヌーイの場合 Arm1: 適当に作った分布の場合 次回:UCB 参考文献 前回 ε-Greedyについてやった。 Softmax Softmaxによるアーム選択 ε-Gree…