multi-armed bandit problem

multi-armed bandit problem というものがある。
元々はギャンブラーがどのスロットマシーンをやれば、利益を最大化できるかという話から始まったらしいが、最近は教科学習として流行って、webコンテンツのクリック率だとかそういう分野で使われている。
こちらの業界的には、降圧薬とか血糖降下薬とか(ぶっちゃけRCT でどれを第一選択にすべきかは決まっているんだが)、いくつか「やってもいい治療法」の選択肢があるとき、(倫理的に許されるならば)最初は試行錯誤が必要で、徐々に、どの治療法がいいかが最適化されそう。
 
PDF
A/Bテストよりすごい?バンディットアルゴリズムとは一体何者か - Qiita
バンディットアルゴリズムを使って広告最適化のシミュレーションをしてみたよ - Qiita
Pythonでバンディットアルゴリズム
bandit package
GitHub - johnmyleswhite/BanditsBook: Code for my book on Multi-Armed Bandit Algorithms