ADsP/3과목

5장_3절 군집분석2

hyerimir 2022. 2. 16. 23:14

5) 비계층적 군집분석

- n개의 개체를 g개의 군집으로 나눌 수 있는 모든 가능한 방법을 점검해 최적화한 군집을 형성하는 것

- k-평균 군집분석(k-means clustering)

 

프로세스

1. 원하는 군집의 개수와 초기 값(seed)들을 정해 seed 중심으로 군집을 형성

2. 각 데이터를 거리가 가장 가까운 seed가 있는 군집으로 분류

3. 각 군집의 seed 값을 다시 계산

4. 모든 개체가 군집으로 할당될 때까지 위 과정들을 반복

 

특징

- 거리 계산을 통해 군집화가 이루어지므로 연속형 변수에 활용이 가능하다

- K개의 초기 중심값은 임의로 선택이 가능하며 가급적이면 멀리 떨어지는 것이 바람직하다

- 초기 중심값을 임의로 선택할 때 일렬(위아래, 좌우)로 선택하면은 군집 혼합되지 않고 층으로 나누어질 수 있어 주의하여야 한다. 초기 중심값의 선정에 따라 결과가 달라질 수 있다

- 초기 중심으로부터의 오차 제곱합을 최소화하는 방향으로 군집이 형성되는 탐욕적(greedy) 알고리즘이므로 안정된 군집은 보장하나 최적이라는 보장이 없다

 

장점

- 주어진 데이터의 내부 구조에 대한 사전 정보 없이 의미있는 자료 구조를 찾을 수 있다

- 다양한 형태의 데이터에 적용이 가능

- 분서 방법 적용이 용이함

 

단점

- 가중치와 거리 정의가 어려움

- 초기 군집수를 결정하기 어려움

- 사전에 주어진 목적이 없으므로 결과 해석이 어려움

 

6) 혼합 분포 군집(mixture distribution clustering)

- 모형 기반(model-based)의 군집 방법이며, 데이터가 k개의 모수적 모형(흔히 정규분포 또는 다변량 정규분포를 가정함)의 가중합으로 표현되는 모집단 모형으로부터 나왔다는 가정하에 모수와 함께 가중치를 자료로부터 추정하는 방법을 사용

- K개의 각 모형은 군집을 의미하며 각 데이터는 추정된 k개의 모형 중 어느 모형으로부터 나왔을 확률이 높은 지에 따라 군집의 분류가 이루어짐

- 흔히 혼합 모형에서의 모수와 가중치의 추정(최대가능도 추정)에는 EM 알고리즘이 사용

 

혼합분포군집모형의 특징

- K-평균 군집의 절차와 유사하지만 확률 분포를 도입하여 군집을 수행

- 군집을 몇 개의 모수로 표현할 수 있으며, 서로 다른 크기나 모양의 군집을 찾을 수 있음

- EM 알고리즘을 이용한 모수 추정에서 데이터가 커지면 수렴에 시간이 걸림

- 군집의 크기가 너무 작으면 추정의 정도가 떨어지거나 어려움

- K-평균 군집과 같이 이상치 자료에 민감하므로 사전에 조치가 필요

 

7) SOM(self-organizing map)

- SOM(자가조직화지도) 알고리즘은 코호넨에 의해 제시, 개발되었으며 코호넨 맵이라고도 알려져있음

- SOM은 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화, 이러한 형상화는 입력 변수의 위치 관계를 그대로 보존한다는 특징이 있다. 다시 말해 실제 공간의 입력 변수가 가까이 있으면 지도 상에서도 가까운 위치에 있게됨

 

- 구성 : 두 개의 인공신경망 층으로 구성되어 있다

입력층(input layer) : 입력 벡터를 받는 층; 입력 변수의 개수와 동일하게 뉴런 수가 존재한다

경쟁층(competitive layer) : 2차원 격차(grid)로 구성된 층; 입력 벡터의 특성에 따라 벡터가 한 점으로 클러스터링 되는 층. SOM은 경쟁 핛브으로 각각의 뉴런이 입력 벡터와 얼마나 가까운가를 계산하여 연결 강도를 반복적으로 재조정하여 학습한다

 

- SOM의 특징

1. 고차원의 데이터를 저차원의 지도 형태로 형상화하기 때문에 시각적으로 이해가 쉬움

2. 입력 변수의 위치 관계를 그대로 보존하기 때문에 실제 데이터가 유사하면 지도상에서 가깝게 표현되며 이런 특징 때문에 패턴 발견, 이미지 분석 등에서 뛰어난 성능을 보임

3. 역전파 알고리즘 등을 사용하는 인공신경망과 달리 단 하나의 전방 패스를 사용함으로써 속도가 매우 빠르므로 실시간 학습처리를 할 수 있는 모형임