반응형

Study 20

제어선 기반 워핑

두 점이 주어지고, 하나의 점을 두 점을 잇는 직선에 투영한 결과를 구하는 식은 내적을 이용하면 된다. 위의 예를 보면, P와 Q를 잇는 직선상에 V를 투영한 것은 PQ 벡터를 정규화하여 단위벡터로 변환하고, PV 벡터와 내적을 수행하면, V에서 PQ벡터에 수직으로 내린 선과 PQ벡터가 만나는 점과 P와의 거리가 나온다. 제어선 기반 워핑에서는 PQ를 기준으로 정규화를 시키는데, 따라서 위의 식에 다음과 같이 추가된다. 위의 식을 정리해보면, 한번 더 정리하면, 따라서 위와 같은 수식이 된다. 위의 수식에 대한 계산 결과의 의미는 V 벡터를 PQ 벡터에 투영한 점이 PQ 벡터를 기준으로 얼마나 떨어져있는가, 좀 더 정확히 말하자면, PQ 벡터의 길이를 1로 보았을때, V벡터를 PQ 벡터에 투영한 점은 P..

Study/영상처리 2013.04.16

[데이터 마이닝5] Cluster Analysis #2

Clustring Approaches- 클러스터링 접근법 1. Partitioning approach 2. Hierarchical approach 3. Density-based approach 4. Grid-based approach 5. Model-based 6. Frequent pattern-based 7. User-guided or Constraint-based 대표적인 클러스터 간의 거리 계산 방법 1. Single Link 두 클러스터에 포함되는 모든 점들 중 가장 서로 가까운 두 점의 거리를 클러스터 간의 거리로 정의 2. Complete Link Single Link의 반대로 두 클러스터 간의 가장 먼 거리를 클러스터 간의 거리로 정의 3. Average dis(Ki, Kj) = avg(ti..

[데이터 마이닝5] Cluster Analysis #1

Cluster? 데이터 객체의 집합을 Cluster라 한다 유사한 객체는 같은 클러스터에 포함되고 유사하지 않은 객체는 다른 클래스에 할당된다. Cluster Analysis 데이터에서 데이터 사이의 유사한 특성을 갖는 것끼리 그룹화하여 클러스터링 하는 작업 Unsupervised Learning 클래스를 미리 정의하지 않고 클러스터링함 Minkowski distance q가 무한대로 가면 |xi1-xj1|^q 중에서 가장 큰 값을 갖는 값으로 수렴한다. 특별히 q=1인 경우는 Manhanttan Distance라 한다. q=2인 경우는 Euclidean distance라 한다. 거리 함수는 다음과 같은 속성을 만족해야한다. d(i,j) >= 0 d(i,i) >= 0 d(i,j) = d(j,i) d(i,j)

[데이터 마이닝 4] Classification And Prediction

Lazy Learning vs. Eager Learning - Lazy learning 학습 데이터를 간편하게 저장하고 테스트 데이터가 올때까지 기다리는 형태의 학습 방법을 말함 학습 시간 보다 예측(predicting) 시간이 더 걸린다 - Eager Learning 학습 데이터가 주어지면 새로운 데이터를 분류하기전에 학습 모델을 생성하는 방법 ◎ Lazy Learner Instance-based Method 학습 샘플을 저장하고 새로운 데이터가 올때까지 기다린다. 종류 K-nearest neighbor Locally weighted regression Case-based reasoning K-Nearest neighbor Algorithm 모든 데이터는 D 차원 공간에 존재한다. 가장 가까운 이웃은 ..

나이브 베이시안 분류기[Naive Baysian Classifier]

A naive Bayes classifier is a simple probabilistic classifier based on applying Bayes' theorem with strong (naive) independence assumptions. A more descriptive term for the underlying probability model would be "independent feature model". 위의 정의는 wikipedia에 나온 내용이다. 그럼 이제 각각에 대해서 알아보자 먼저 나이브 베이스 분류기는 베이스 이론에 기반한 간결한 확률 모델이라 한다. 그럼 베이스 이론이 먼지 알아야 할 것이다. 위의 수식은 모두 알 것이다. P(A|B)라는 것은 B가 주어졌을때 A의 확률..

Study/머신비전 2012.04.29

[데이터 마이닝 3] 마이닝 관련 알고리즘

ㅇ Frequent Pattern - 말그대로 자주 발생하는 패턴 - 왜 중요할까 ? - 데이터 셋에서 본질적이고 중요한 특성을 나타낸다. ㅇ 기본 개념 X -> Y의 룰에 대한 Support와 Confidence에 대해 알아보자. Support : 경우의 확률이라고 보면 될듯하다. 예를 들어 X를 사면 Y도 산다라는 룰을 생각해보자. 그럼 이 룰에 대한 서포트는 데이터 모든 경우에서 X를 사고 Y를 산 확률을 의미한다. 다시 말해서 Support가 높다는 말은 빈도가 많으니 발생 확률이 높다는 이야기가 될 것이다. Confidence : 신뢰도라고 볼 수 있을 듯 하다, X를 산 경우를 전체 집합이라 하고, X->Y를 산 경우의 확률이 컨피던스이다. 즉 이 룰이 맞을 확률? 정확도라고 볼 수 있겟다. ..

[데이터 마이닝 2] 데이터 웨어 하우스 & OLAP (data warehouse & Online Analytical Processing)

ㅇ 데이터 웨어하우스란? 관리자의 결정을 돕는 Subject-oriented, integrated, time-variant, nonvolatile의 특성을 갖는 데이터 집합이다. “A data warehouse is a subject-oriented, integrated, time-variant, and nonvolatile collection of data in support of management’s decision-making process.”—W. H. Inmon ㅇ Subject-Oriented - 복잡하게 설명하고 있는데, 결론은 필요한 분야에 맞도록 주제를 정해서 데이터베이스를 만들라는 말인듯 하다. ㅇ Integrated - 결국 수 많은 곳에 분포되어 있는 데이터베이스가 있는 경우, 그..

[데이터 마이닝 1] 데이터 전처리

1. 데이터 전처리를 하는 이유는? 1) 불완전(incomplete) : 데이터가 비어 있는 경우가 있을 수 있다. 속성에 값이 Null 인 경우 2) 잡음(Noisy) : 에러 또는 잡음이 포함된 경우 예) 나이 : -10 3) 모순된(Inconsistent) : 생년월일과 나이가 맞지 않는 경우, 복사된 레코드의 불일치 2. 데이터 전처리가 중요한 이유는? - 질 좋지 않는 데이터는 질 좋지 않은 마이닝 결과를 낸다. - 결과는 데이터에 의존적이기 때문이며, 데이터 웨어하우스는 질 좋은 데이터의 완전한 통합이 필요하다 3. 전처리의 주요 작업 1) Data Cleaning : 없는 데이터는 채우고, 잡음은 제거하며, 모순된 데이터를 해결 2) Data Integration : 여러개의 데이터베이스를 ..

고유벡터와 내적, 코사인, 공분산 행렬의 관계

아직 제대로 정리가 되진 않았지만 언젠가는 정리가 되겠지. 먼저 내적의 의미는 무엇일까... X dot Y = |X||Y|Cos(theta) 로 표현된다. 이 식을 보고 잘 생각 해야 한다. 내적의 값이 과연 무엇을 의미할까? Cos(세타)는 두 선이 이루는 각도에 따라 값이 변한다. -1~1사이 값이며 세타가 0 일때 코사인 값은 1이 된다. 그렇다면 세타가 90이라면? 코사인 값은 0이 되겟지. 즉 코사인 값은 두개의 벡터가 같은 방향일 수록 값이 크며, 반대 방향일수록(음수) 값이 작다는 것을 알 수 있다. 또한 0이 되는 90도의 경우에는 두 방향의 벡터가 독립이다라는 것을 알 수 있다. 그렇다면 이젠 고유벡터에 대해 생각해보자 사실 내가 접한 고유벡터는 대부분 공분산 행렬에서만 구했다. 그래서 ..

반응형