[데이터 마이닝5] Cluster Analysis #1

2012. 6. 15. 18:05

Cluster?

데이터 객체의 집합을 Cluster라 한다

유사한 객체는 같은 클러스터에 포함되고 유사하지 않은 객체는 다른 클래스에 할당된다.

Cluster Analysis 

데이터에서 데이터 사이의 유사한 특성을 갖는 것끼리 그룹화하여 클러스터링 하는 작업

Unsupervised Learning 

클래스를 미리 정의하지 않고 클러스터링함



Minkowski distance 

q가 무한대로 가면 |xi1-xj1|^q 중에서 가장 큰 값을 갖는 값으로 수렴한다.

특별히 q=1인 경우는 Manhanttan Distance라 한다.

q=2인 경우는 Euclidean distance라 한다.

거리 함수는 다음과 같은 속성을 만족해야한다.

d(i,j) >= 0

d(i,i) >= 0

d(i,j) = d(j,i)

d(i,j) <= d(i,k)+d(k,j)

Interval-valued variable


위의 식은 Z-score 식이다. sf는 표준편차를 나타낸다. 즉 평균과 데이터와의 차이를 표준 편차로 정규화 시킨 것이다.


Binary variable 인 경우 거리 구하는 방법



위에 두개는 거리를 구하는 방법이며, 밑에는 유사도를 구하는 수식이다.

유사도 식은 특별히 Jaccard coefficient라고 한다.


Nominal Variables

방법 1

m은 매칭된 수, p는 변수의 총 수

 d(i,j) = (p-m)/p

즉 전체 컬럼 갯수에서 매칭되지 않는 컬럼 수의 확률을 나타냄

방법 2

각 속성을 binary variable 형태로 만든다

예) 직업

학생    교수   군인    의사

 1         0          0          0

 0         1          0          0


Ordinal Variables

먼저 순서대로 정렬하고 해당 순서에 해당 하는 숫자로 수정한다

이후 zif 식을 이용하여 정규화를 수행한다.


Variables of Mixed Types


델타ij(f)는 해당 속성을 거리 계산시 적용할 지 말지를 결정하는 변수로 0 또는 1이며, d(f)는 속성에 따라 계산 방법을 달리한다.

예를 들어 binary variable 같은 경우에는 xif=xjf가 같다면 0, 다르면 1로 처리한다.


cosine measure 


 

본 게시물이 도움이 되었다면, 꾸~욱~ 눌러주세요.

포스팅 하는데 많은 힘이 됩니다~~~