Algorithm
Thompson Sampling(톰슨 샘플링)
빠릿베짱이
2017. 6. 27. 18:40
반응형
중국 블로그 : http://x-algo.cn/index.php/2016/12/15/ee-problem-and-bandit-algorithm-for-recommender-systems/
시뮬레이터 : https://learnforeverlearn.com/bandits/
Python Sample code(파이썬 샘플 코드) :
http://mloss.org/software/view/415/
https://github.com/bgalbraith/bandits
논문 : Analysis of Thompson Sampling for the Multi-armed Bandit Problem ( 링크 )
톰슨 샘플링 시뮬레이션 결과( result of thompson sampling simulation)
1. 가장 좋은 보상의 정책이 빠르게 선택된다.
2. 선택된 정책의 보상 확률이 낮아지는 경우, 다른 정책이 선택될 수 있다.
3. 선택되지 않은 정책의 보상 확률이 높아지는 경우에는 잘 적용이 안되는 문제가 발생한다.
반응형