1. 군집분석

1) 개요

- 각 개체(대상)의 유사성을 측정하여 유사성이 높은 대상집단을 분류하고 군집에 속한 객체들의 유사성과 서로 다른 군집에 속한 객체간의 상이성을 규명하는 분석 방법

- 특성에 따라 고객을 여러 개의 배타적인 집단으로 나누는 것으로 군집의 개수, 구조에 대한 가정 없이 데이터로부터 거리 기준으로 군집화 유도

 

2) 특징

- 비교사학습법(unsupervised)에 해당하여 타겟변수(종속변수)의 정의가 없이 학습이 가능

- 데이터를 분석의 목적에 따라 적절한 군집으로 분석자가 정의 가능

- 요인분석과의 차이 : 유사한 변수를 함께 묶어주는 목적이 아니라 각 데이터(객체)를 묶어줌

- 판별분석과의 차이 : 판별분석은 사전에 집단이 나누어져 있어야 하지만 군집분석은 집단이 없는 상태에서 집단을 구분

 

3) 거리 측정 방법

  • 연속형 변수

- 유클리디안 거리 : 데이터간의 유사성을 측정할 때 많이 사용하는 거리, 통계적 개념이 내포되어있지 않아 변수들의 산포 정도가 전혀 감안되어있지 않다

- 표준화 거리 : 해당변수의 표준편차로 척도 변환한 후 유클리디안 거리를 계산하는 방법, 표준화하게 되면 척도의 차이, 분산의 차이로 인한 왜곡을 피할 수 있다

- 마할라노비스 거리 : 통계적 개념이 포함된 거리이며 변수들의 산포를 고려하여 표준화한 거리, 두 벡터 사이의 거리를 산포를 의미하는 표본공분산으로 나눠주어야 하며 그룹에 대한 사전 지식 없이는 표본 공분산을 계산할 수 없으므로 사용하기 곤란하다

- 체비셰프 거리

- 맨하탄 거리 : 유클리디안 거리와 함께 가장 많이 사용되는 거리로 맨하탄 도시에서 건물에서 건물을 가기 위한 최단 거리를 구하기 위해 고안된 거리이다

- 캔버라 거리

- 민코우스키 거리 : 맨하탄 거리와 유클리디안 걸리를 한 번에 표현한 공식으로 L1 거리(맨하탄거리), L2 거리(유클리디안 거리)라 불리고 있다

 

  • 범주형 변수

- 자카드 거리

- 자카드 계수

- 코사인 거리 : 문서를 유사도 기준으로 분류 혹은 그룹핑 할 때 유용하게 사용한다

- 코사인 유사도 : 두 개체의 백터 내적의 코사인 값을 이용하여 측정된 벡터간의 유사한 정도이다

 

4) 계층적 군집분석

n개의 군집으로 시작해 점차 군집의 개수를 줄여나가는 방법

 

  • 최단연결법

- n*n 거리 행렬에서 거리가 가장 가까운 데이터를 묶어서 군집을 형성

- 군집과 군집 또는 데이터와의 거리를 계산시 최단거리(min)를 거리로 계산하여 거리 행렬 수정

- 수정된 거리 행렬에서 거리가 가까운 데이터 또는 군집을 새로운 군집으로 형성

 

  • 최장연결법

- 군집과 군집 또는 데이터와의 거리를 계산시 최장거리(max)를 거리로 계산하여 거리 행렬 수정

 

  • 평균연결법

- 군집과 군집 또는 데이터와의 거리를 계산시 평균거리(mean)를 거리로 계산하여 거리 행렬 수정

 

  • 와드연결법

- 군집 내 편차들의 제곱합을 고려한 방법으로 군집 간 정보의 손실을 최소화 하기 위해 군집화를 진행

 

 

군집화

- 거리행렬을 통해 가장 가까운 거리의 객체들간의 관계를 규명하고 덴드로그램을 그린다

- 덴드로그램을 보고 군집의 개수를 변화해가면서 적절한 군집 수를 선정한다

- 군집의 수는 분석 목적에 따라 선정할 수 있지만 대부분 5개 이상의 군집은 잘 활용하지 않는다

 

'ADsP > 3과목' 카테고리의 다른 글

5장_4절 연관분석1  (0) 2022.02.17
5장_3절 군집분석2  (0) 2022.02.16
5장_2절 분류분석5  (0) 2022.02.14
5장_2절 분류분석1,2  (0) 2022.02.14
5장_1절 데이터 마이닝의 개요2  (0) 2022.02.13

+ Recent posts