1. 군집분석
1) 개요
- 각 개체(대상)의 유사성을 측정하여 유사성이 높은 대상집단을 분류하고 군집에 속한 객체들의 유사성과 서로 다른 군집에 속한 객체간의 상이성을 규명하는 분석 방법
- 특성에 따라 고객을 여러 개의 배타적인 집단으로 나누는 것으로 군집의 개수, 구조에 대한 가정 없이 데이터로부터 거리 기준으로 군집화 유도
2) 특징
- 비교사학습법(unsupervised)에 해당하여 타겟변수(종속변수)의 정의가 없이 학습이 가능
- 데이터를 분석의 목적에 따라 적절한 군집으로 분석자가 정의 가능
- 요인분석과의 차이 : 유사한 변수를 함께 묶어주는 목적이 아니라 각 데이터(객체)를 묶어줌
- 판별분석과의 차이 : 판별분석은 사전에 집단이 나누어져 있어야 하지만 군집분석은 집단이 없는 상태에서 집단을 구분
3) 거리 측정 방법
- 연속형 변수
- 유클리디안 거리 : 데이터간의 유사성을 측정할 때 많이 사용하는 거리, 통계적 개념이 내포되어있지 않아 변수들의 산포 정도가 전혀 감안되어있지 않다
- 표준화 거리 : 해당변수의 표준편차로 척도 변환한 후 유클리디안 거리를 계산하는 방법, 표준화하게 되면 척도의 차이, 분산의 차이로 인한 왜곡을 피할 수 있다
- 마할라노비스 거리 : 통계적 개념이 포함된 거리이며 변수들의 산포를 고려하여 표준화한 거리, 두 벡터 사이의 거리를 산포를 의미하는 표본공분산으로 나눠주어야 하며 그룹에 대한 사전 지식 없이는 표본 공분산을 계산할 수 없으므로 사용하기 곤란하다
- 체비셰프 거리
- 맨하탄 거리 : 유클리디안 거리와 함께 가장 많이 사용되는 거리로 맨하탄 도시에서 건물에서 건물을 가기 위한 최단 거리를 구하기 위해 고안된 거리이다
- 캔버라 거리
- 민코우스키 거리 : 맨하탄 거리와 유클리디안 걸리를 한 번에 표현한 공식으로 L1 거리(맨하탄거리), L2 거리(유클리디안 거리)라 불리고 있다
- 범주형 변수
- 자카드 거리
- 자카드 계수
- 코사인 거리 : 문서를 유사도 기준으로 분류 혹은 그룹핑 할 때 유용하게 사용한다
- 코사인 유사도 : 두 개체의 백터 내적의 코사인 값을 이용하여 측정된 벡터간의 유사한 정도이다
4) 계층적 군집분석
n개의 군집으로 시작해 점차 군집의 개수를 줄여나가는 방법
- 최단연결법
- n*n 거리 행렬에서 거리가 가장 가까운 데이터를 묶어서 군집을 형성
- 군집과 군집 또는 데이터와의 거리를 계산시 최단거리(min)를 거리로 계산하여 거리 행렬 수정
- 수정된 거리 행렬에서 거리가 가까운 데이터 또는 군집을 새로운 군집으로 형성
- 최장연결법
- 군집과 군집 또는 데이터와의 거리를 계산시 최장거리(max)를 거리로 계산하여 거리 행렬 수정
- 평균연결법
- 군집과 군집 또는 데이터와의 거리를 계산시 평균거리(mean)를 거리로 계산하여 거리 행렬 수정
- 와드연결법
- 군집 내 편차들의 제곱합을 고려한 방법으로 군집 간 정보의 손실을 최소화 하기 위해 군집화를 진행
군집화
- 거리행렬을 통해 가장 가까운 거리의 객체들간의 관계를 규명하고 덴드로그램을 그린다
- 덴드로그램을 보고 군집의 개수를 변화해가면서 적절한 군집 수를 선정한다
- 군집의 수는 분석 목적에 따라 선정할 수 있지만 대부분 5개 이상의 군집은 잘 활용하지 않는다
'ADsP > 3과목' 카테고리의 다른 글
5장_4절 연관분석1 (0) | 2022.02.17 |
---|---|
5장_3절 군집분석2 (0) | 2022.02.16 |
5장_2절 분류분석5 (0) | 2022.02.14 |
5장_2절 분류분석1,2 (0) | 2022.02.14 |
5장_1절 데이터 마이닝의 개요2 (0) | 2022.02.13 |