반응형
중국 블로그 : http://x-algo.cn/index.php/2016/12/15/ee-problem-and-bandit-algorithm-for-recommender-systems/
시뮬레이터 : https://learnforeverlearn.com/bandits/
Python Sample code(파이썬 샘플 코드) :
http://mloss.org/software/view/415/
https://github.com/bgalbraith/bandits
논문 : Analysis of Thompson Sampling for the Multi-armed Bandit Problem ( 링크 )
톰슨 샘플링 시뮬레이션 결과( result of thompson sampling simulation)
1. 가장 좋은 보상의 정책이 빠르게 선택된다.
2. 선택된 정책의 보상 확률이 낮아지는 경우, 다른 정책이 선택될 수 있다.
3. 선택되지 않은 정책의 보상 확률이 높아지는 경우에는 잘 적용이 안되는 문제가 발생한다.
반응형
'Algorithm' 카테고리의 다른 글
Linear Model for Regression (0) | 2017.07.06 |
---|---|
vector similarity (0) | 2017.04.13 |
Fast radial symmetry transform (0) | 2016.05.31 |
Contrario (0) | 2016.02.23 |
[KCF]Kernelized Correlation Filters - Tracking (0) | 2015.12.28 |