Algorithm

Thompson Sampling(톰슨 샘플링)

빠릿베짱이 2017. 6. 27. 18:40
반응형

중국 블로그 : http://x-algo.cn/index.php/2016/12/15/ee-problem-and-bandit-algorithm-for-recommender-systems/

시뮬레이터 : https://learnforeverlearn.com/bandits/

Python Sample code(파이썬 샘플 코드) : 

http://mloss.org/software/view/415/

https://github.com/bgalbraith/bandits


논문 : Analysis of Thompson Sampling for the Multi-armed Bandit Problem ( 링크 )


톰슨 샘플링 시뮬레이션 결과( result of thompson sampling simulation)



1. 가장 좋은 보상의 정책이 빠르게 선택된다.

2. 선택된 정책의 보상 확률이 낮아지는 경우, 다른 정책이 선택될 수 있다.

3. 선택되지 않은 정책의 보상 확률이 높아지는 경우에는 잘 적용이 안되는 문제가 발생한다.




반응형

'Algorithm' 카테고리의 다른 글

Linear Model for Regression  (0) 2017.07.06
vector similarity  (0) 2017.04.13
Fast radial symmetry transform  (0) 2016.05.31
Contrario  (0) 2016.02.23
[KCF]Kernelized Correlation Filters - Tracking  (0) 2015.12.28