Thompson Sampling(톰슨 샘플링)

Algorithm

빠릿베짱이 2017. 6. 27. 18:40

Python Sample code(파이썬 샘플 코드) :

논문 : Analysis of Thompson Sampling for the Multi-armed Bandit Problem ( 링크 )

톰슨 샘플링 시뮬레이션 결과( result of thompson sampling simulation)

1. 가장 좋은 보상의 정책이 빠르게 선택된다.

2. 선택된 정책의 보상 확률이 낮아지는 경우, 다른 정책이 선택될 수 있다.

3. 선택되지 않은 정책의 보상 확률이 높아지는 경우에는 잘 적용이 안되는 문제가 발생한다.