バンディットアルゴリズムの復習3:UCB(Upper Confidence Bound)

前回 UCB(Upper Confidence Bound) UCBの説明 理論的な説明 UCBのアルゴリズム アームの定義 Arm0: ベルヌーイ Arm1: 適当に作った分布 実験 Arm0: ベルヌーイ Arm1: 適当に作った分布 次回 参考文献 前回 ε-Greedy+softmaxについてやった。 UCB(Upper Confidence Bound) UCBの説明 これまでのアルゴリズムはアームの期待…