ggoggo

군집화 본문

3-1/기계학습

군집화

chchae01 2022. 6. 12. 17:57

1. 군집화 소개

  • 군집화 : 유사한 속성을 같는 데이터를 묶어 전체 데이터를 몇개의 군집으로 나누는 것

 

  •  좋은 군집화의 기준

(1) 동일한 군집에 소속된 데이터는 서로 유사할 수록 좋음

(2) 상이한 군집에 소속된 데이터는 서로 다를 수록 좋음

 

  •  분류 vs. 군집화

- 분류 : 사전 정의된 범주가 있는 데이터로부터 예측 모델을 학습하는 문제 "지도학습(Supervised Learning)"

 

- 군집화 : 사전 정의된 범주가 없는 데이터로부터 최적의 그룹을 찾아가는 문제 "비지도 학습(Unsupervised Learning)"

 

  • 군집화 적용 사례

- 유사 문서 군집화, 유사 영상 군집화, 유사 고객 군집화

 

  • 고려사항

=> 유사도 측정, 알고리즘 종류, K 선택, 결과 측정 법

 

(1) 유사도 측정 방법

 

- 유클리디언 거리

- 맨하탄 거리

 

(2) 군집화 알고리즘 종류

 

- 계층적 군집화

- 분리형 군집화

 

- 분포기반 군집화

 

(3) K선택

 

(4) 결과 측정 방법

 

 

2. 계층형 군집화

3. 분리형 군집화(Kmeans)

K-means Clustering

: 사전에 군집의 수 K가 정해지면 각 군집의 하나의 중심을 기준으로 가까운 군집에 할당

=> 중심은 임의로 생성되고 중심이 변하지 않을 때 까지 반복

: K 평균 군집화의 랜덤 초기화 단점 극복

=> 여러 번 수행 = ensemble 결과 통합

=> 데이터 분포 정보를 활용한 초기화 선정

=> 샘플링 데이터를 활용하여 계층적 군집화를 수행한 뒤 초기군집 중심으로 사용(초기 중심이 최종결과에 영항 거의 x)

 

: K 평균 군집화 단점

=> 서로 다른 크기의 군집을 잘 찾아내지 못함

=> 서로 다른 밀도의 군집을 잘 찾아내지 못함

=> 지역적 패턴이 존재하는 군집을 판변하기 어려움

 

: K값 선정 방법 = Elbow point

4. 분포 기반 군집화(DBSCAN)

----------------------------------------------------------------

DBSCAN (Density Based Clustering)

: 높은 밀도를 가지고 모여 있는 데이터들을 그룹으로 분류

: 낮은 밀도를 가지고 있는 데이터는 이상치 또는 잡음으로 분류 => 잡음 처리x

=> 임의 데이터를 선택하여. 군집1을 부여하고 e-NN가 M개 이상의 데이터를 포함할 경우 모두 군집1을 부여하고 아닐 경우 잡음 처리?

=> 군집 1의 모든 데이터의 e-NN이 M보다 크지 않을 때까지 반복

=> 군집 2 동일하게 반복

=> 모든 데이터가 군집 할당 or 잡음 분류까지 반복

 

5. 실습

'3-1 > 기계학습' 카테고리의 다른 글

데이터 전처리  (0) 2022.06.13
차원축소  (0) 2022.06.12
앙상블  (0) 2022.06.08
교차검증  (0) 2022.06.08
SVM  (0) 2022.06.08