반응형
일반적으로 데이터의 feature들을 벡터로 구성하고, 벡터간의 유사도를 구할때는 "Cosine distance"나 "Euclidean distance"를 사용합니다.
저도 프로젝트를 할때, 벡터간 유사도를 사용할때 "코사인 유사도"를 사용했습니다. (그냥 주로 그걸 쓰니까..?)
근데, 2016 IEEE에서 2가지 방법에 대해 단점을 논하고, 새로운 벡터간 유사도를 구하는 방법이 제안됐습니다.
논문제목은 "A Hybrid Geometric Approach for Measuring Similarity Level Among Documents and Document Clustering" 이고, 방법론은 TS-SS라고 불리는 measure입니다.
논문을 요약정리해서 깃허브에 올렸습니다. 추가적으로, TS-SS를 파이썬과 자바로 구현했습니다. (구현은 매우 쉽습니다... 코드는 걍 만들어서 성능테스트용으로 해봤습니다.)
https://github.com/taki0112/Vector_Similarity
***
10000개의 문서유사도를 구하는 방식의 논문에 TS-SS를 이용했는데,
살짝 좋아지긴하네요. 많은 차이는 없었는데 그래도 상위 유사문서는 rank가 바뀌었네요
***
-- facebook에서 스크랩
반응형
'Algorithm' 카테고리의 다른 글
Linear Model for Regression (0) | 2017.07.06 |
---|---|
Thompson Sampling(톰슨 샘플링) (0) | 2017.06.27 |
Fast radial symmetry transform (0) | 2016.05.31 |
Contrario (0) | 2016.02.23 |
[KCF]Kernelized Correlation Filters - Tracking (0) | 2015.12.28 |