두 개의 각각 평균과 분산이 있는데, 이 둘 간의 거리 또는 유사도를 비교하고 싶었다. 원래는 정규분포로 가정하고, 두 분포의 교집합을 구해 유사도를 측정하고 싶었다. 많은 서치 결과 간단하게 수학적으로 교차하는 영역의 퍼센트를 구하는 방법은 찾지 못했다. 물론 프로그래밍 방법으로 많은 반복을 통해 구할 수 있는 방법은 있게지만, 속도가 문제다. 그래서 이참에 다양한 거리 또는 유사도에 관한 방법론에 대해 정리하고자 한다. "거리"라는 측정 기준을 만족하려면, 다음의 4가지 조건을 만족해야한다 1. d(x,y ) >= 0 ( non-negativity) 2. d(x,y) = 0 오직 x와 y가 같은 경우에만 만족해야함 (identity of indiscernibles) 3. d(x,y ) = d(y,x)..