前回 UCB(Upper Confidence Bound) UCBの説明理論的な説明 UCBのアルゴリズムアームの定義 Arm0: ベルヌーイ Arm1: 適当に作った分布実験 Arm0: ベルヌーイ Arm1: 適当に作った分布次回参考文献前回 ε-Greedy+softmaxについてやった。 UCB(Upper Confidence Bound) UCBの説明これまでのアルゴリズムはアームの期待…

めも

バンディットアルゴリズムの復習３：UCB(Upper Confidence Bound)