5장_2절 분류분석3
3. 앙상블 기법
1) 개요
- 주어진 자료로부터 여러 개의 예측 모형들을 만든 후 조합하여 하나의 최종 예측 모형을 만드는 방법
- 다중 모델 조합(combining multiple models), classifier combination 방법이 있음
- 학습 방법의 불안정성을 해결하기 위해 고안된 기법
- 가정 불안정성을 가지는 기법은 의사결정나무, 가정 안정성을 가지는 기법은 1-nearest neighbor, 선형회귀모형
2) 기법의 종류
- 배깅
- 배깅은 주어진 자료에서 여러 개의 붓스트랩(bootstrap)자료를 생성하고 각 붓스트랩 자료에 예측 모형을 만든 후 결합하여 최종 예측 모형을 만드는 방법
붓스트랩(bootstrap)은 주어진 자료에서 동일한 크기의 표본을 랜덤 복원 추출로 뽑은 자료를 의미
- 보팅(voting)은 여러 개의 모형으로부터 산출된 결과를 다수결에 의해서 최종 결과를 선정하는 과정
- 최적의 의사결정나무를 구축할 때 가장 어려운 부분이 가지치기이지만 배깅에서는 가지치기를 하지 않고 최대로 성장한 의사결정나무들을 활용한다
- 훈련 자료의 모집단의 분포를 모르기 때문에 실제 문제에서 평균 예측 모형을 구할 수 없다 배깅은 이러한 문제를 해결하기 위해 훈련 자료를 모집단으로 생각하고 평균예측 모형을 구하여 분산을 줄이고 예측력을 향상시킬 수 있다
- 부스팅
- 예측력이 약한 모형(weak learner)들을 결합하여 강한 예측 모형을 만드는 방법
- 부스팅 방법 중에 Adaboost는 이진분류 문제에서 랜덤 분류기보다 조금 더 좋은 분류기 n개에 각각 가중치를 설정하고 n개의 분류기를 결합하여 최종 분류기를 만드는 방법(단, 가중치의 합은 1)
- 훈련 오차를 빨리 그리고 쉽게 줄일 수 있다
- 배깅에 비해 많은 경우 예측 오차가 향상되어 Adaboost의 성능이 배깅보다 뛰어난 경우가 많다
- 랜덤 포레스트(random forest)
- 의사결정나무의 특징인 분산이 크다는 점을 고려하여 배깅과 부스팅보다 더 많은 무작위성을 주어 약한 학습기들을 생성한후 이를 선형 결합하여 최종 학습기를 만드는 방법
- 랜덤한 forest에는 많은 트리들이 생성된다
- 수천 개의 변수를 통해 변수 제거 없이 실행되므로 정확도 측면에서 좋은 성과를 보인다
- 이론적 설명이나 최종 결과에 대한 해석이 어렵다는 단점이 있지만 예측력이 매우 높은 것으로 알려져있다. 특히 입력 변수가 많은 경우 배깅과 부스팅과 비슷하거나 좋은 예측력을 보인다