ggoggo
군집화 본문
1. 군집화 소개
- 군집화 : 유사한 속성을 같는 데이터를 묶어 전체 데이터를 몇개의 군집으로 나누는 것
- 좋은 군집화의 기준
(1) 동일한 군집에 소속된 데이터는 서로 유사할 수록 좋음
(2) 상이한 군집에 소속된 데이터는 서로 다를 수록 좋음
- 분류 vs. 군집화
- 분류 : 사전 정의된 범주가 있는 데이터로부터 예측 모델을 학습하는 문제 "지도학습(Supervised Learning)"
- 군집화 : 사전 정의된 범주가 없는 데이터로부터 최적의 그룹을 찾아가는 문제 "비지도 학습(Unsupervised Learning)"
- 군집화 적용 사례
- 유사 문서 군집화, 유사 영상 군집화, 유사 고객 군집화
- 고려사항
=> 유사도 측정, 알고리즘 종류, K 선택, 결과 측정 법
(1) 유사도 측정 방법
- 유클리디언 거리
- 맨하탄 거리
(2) 군집화 알고리즘 종류
- 계층적 군집화
- 분리형 군집화
- 분포기반 군집화
(3) K선택
(4) 결과 측정 방법
2. 계층형 군집화
3. 분리형 군집화(Kmeans)
K-means Clustering
: 사전에 군집의 수 K가 정해지면 각 군집의 하나의 중심을 기준으로 가까운 군집에 할당
=> 중심은 임의로 생성되고 중심이 변하지 않을 때 까지 반복
: K 평균 군집화의 랜덤 초기화 단점 극복
=> 여러 번 수행 = ensemble 결과 통합
=> 데이터 분포 정보를 활용한 초기화 선정
=> 샘플링 데이터를 활용하여 계층적 군집화를 수행한 뒤 초기군집 중심으로 사용(초기 중심이 최종결과에 영항 거의 x)
: K 평균 군집화 단점
=> 서로 다른 크기의 군집을 잘 찾아내지 못함
=> 서로 다른 밀도의 군집을 잘 찾아내지 못함
=> 지역적 패턴이 존재하는 군집을 판변하기 어려움
: K값 선정 방법 = Elbow point
4. 분포 기반 군집화(DBSCAN)
----------------------------------------------------------------
DBSCAN (Density Based Clustering)
: 높은 밀도를 가지고 모여 있는 데이터들을 그룹으로 분류
: 낮은 밀도를 가지고 있는 데이터는 이상치 또는 잡음으로 분류 => 잡음 처리x
=> 임의 데이터를 선택하여. 군집1을 부여하고 e-NN가 M개 이상의 데이터를 포함할 경우 모두 군집1을 부여하고 아닐 경우 잡음 처리?
=> 군집 1의 모든 데이터의 e-NN이 M보다 크지 않을 때까지 반복
=> 군집 2 동일하게 반복
=> 모든 데이터가 군집 할당 or 잡음 분류까지 반복