반응형

Study/데이터 마이닝 6

[데이터 마이닝5] Cluster Analysis #2

Clustring Approaches- 클러스터링 접근법 1. Partitioning approach 2. Hierarchical approach 3. Density-based approach 4. Grid-based approach 5. Model-based 6. Frequent pattern-based 7. User-guided or Constraint-based 대표적인 클러스터 간의 거리 계산 방법 1. Single Link 두 클러스터에 포함되는 모든 점들 중 가장 서로 가까운 두 점의 거리를 클러스터 간의 거리로 정의 2. Complete Link Single Link의 반대로 두 클러스터 간의 가장 먼 거리를 클러스터 간의 거리로 정의 3. Average dis(Ki, Kj) = avg(ti..

[데이터 마이닝5] Cluster Analysis #1

Cluster? 데이터 객체의 집합을 Cluster라 한다 유사한 객체는 같은 클러스터에 포함되고 유사하지 않은 객체는 다른 클래스에 할당된다. Cluster Analysis 데이터에서 데이터 사이의 유사한 특성을 갖는 것끼리 그룹화하여 클러스터링 하는 작업 Unsupervised Learning 클래스를 미리 정의하지 않고 클러스터링함 Minkowski distance q가 무한대로 가면 |xi1-xj1|^q 중에서 가장 큰 값을 갖는 값으로 수렴한다. 특별히 q=1인 경우는 Manhanttan Distance라 한다. q=2인 경우는 Euclidean distance라 한다. 거리 함수는 다음과 같은 속성을 만족해야한다. d(i,j) >= 0 d(i,i) >= 0 d(i,j) = d(j,i) d(i,j)

[데이터 마이닝 4] Classification And Prediction

Lazy Learning vs. Eager Learning - Lazy learning 학습 데이터를 간편하게 저장하고 테스트 데이터가 올때까지 기다리는 형태의 학습 방법을 말함 학습 시간 보다 예측(predicting) 시간이 더 걸린다 - Eager Learning 학습 데이터가 주어지면 새로운 데이터를 분류하기전에 학습 모델을 생성하는 방법 ◎ Lazy Learner Instance-based Method 학습 샘플을 저장하고 새로운 데이터가 올때까지 기다린다. 종류 K-nearest neighbor Locally weighted regression Case-based reasoning K-Nearest neighbor Algorithm 모든 데이터는 D 차원 공간에 존재한다. 가장 가까운 이웃은 ..

[데이터 마이닝 3] 마이닝 관련 알고리즘

ㅇ Frequent Pattern - 말그대로 자주 발생하는 패턴 - 왜 중요할까 ? - 데이터 셋에서 본질적이고 중요한 특성을 나타낸다. ㅇ 기본 개념 X -> Y의 룰에 대한 Support와 Confidence에 대해 알아보자. Support : 경우의 확률이라고 보면 될듯하다. 예를 들어 X를 사면 Y도 산다라는 룰을 생각해보자. 그럼 이 룰에 대한 서포트는 데이터 모든 경우에서 X를 사고 Y를 산 확률을 의미한다. 다시 말해서 Support가 높다는 말은 빈도가 많으니 발생 확률이 높다는 이야기가 될 것이다. Confidence : 신뢰도라고 볼 수 있을 듯 하다, X를 산 경우를 전체 집합이라 하고, X->Y를 산 경우의 확률이 컨피던스이다. 즉 이 룰이 맞을 확률? 정확도라고 볼 수 있겟다. ..

[데이터 마이닝 2] 데이터 웨어 하우스 & OLAP (data warehouse & Online Analytical Processing)

ㅇ 데이터 웨어하우스란? 관리자의 결정을 돕는 Subject-oriented, integrated, time-variant, nonvolatile의 특성을 갖는 데이터 집합이다. “A data warehouse is a subject-oriented, integrated, time-variant, and nonvolatile collection of data in support of management’s decision-making process.”—W. H. Inmon ㅇ Subject-Oriented - 복잡하게 설명하고 있는데, 결론은 필요한 분야에 맞도록 주제를 정해서 데이터베이스를 만들라는 말인듯 하다. ㅇ Integrated - 결국 수 많은 곳에 분포되어 있는 데이터베이스가 있는 경우, 그..

[데이터 마이닝 1] 데이터 전처리

1. 데이터 전처리를 하는 이유는? 1) 불완전(incomplete) : 데이터가 비어 있는 경우가 있을 수 있다. 속성에 값이 Null 인 경우 2) 잡음(Noisy) : 에러 또는 잡음이 포함된 경우 예) 나이 : -10 3) 모순된(Inconsistent) : 생년월일과 나이가 맞지 않는 경우, 복사된 레코드의 불일치 2. 데이터 전처리가 중요한 이유는? - 질 좋지 않는 데이터는 질 좋지 않은 마이닝 결과를 낸다. - 결과는 데이터에 의존적이기 때문이며, 데이터 웨어하우스는 질 좋은 데이터의 완전한 통합이 필요하다 3. 전처리의 주요 작업 1) Data Cleaning : 없는 데이터는 채우고, 잡음은 제거하며, 모순된 데이터를 해결 2) Data Integration : 여러개의 데이터베이스를 ..

반응형