ADsP/3과목

5장_1절 데이터 마이닝의 개요1

hyerimir 2022. 2. 13. 22:14

1. 데이터마이닝

1) 개요

- 정의 : 대용량 데이터에서 의미 있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법

- 통계분석과 차이점 : 가설이나 가정에 따른 분석, 검증을 하는 통계분석과 달리 데이터 마이닝은 다양한 수리 알고리즘을 이용해 데이터베이스의 데이터로부터 의미있는 정보를 추출

- 활용분야 : 분류, 예측, 군집화, 시각화 등

- 방법론 : 의사겨정나무, 로지스틱 회귀분석, 최근접 이웃법, 군집분석, 연관규칙분석 등

 

2) 분석 방법

  • supervised learning(지도학습)

- 의사결정나무(decision tree)

- 인공신경망(artificial neural network)

- 로지스틱 회귀분석(logistic regression)

- 최근접이웃법(k-nearest neighbor)

- 사례기본 추론(case-based reasoning)

 

  • unspervised learning(비지도학습)

- OALP(On-Line Analytic Processing)

- 연관규칙분석(Association Rule Analysis)

- 군집분석(k-Means Clustering)

- SOM(self organizing map)

 

3. 데이터 마이닝 추진 단계

1) 목적 설정 : 데이터 마이닝을 위한 명확한 목적 설정

2) 데이터 준비 : 모델링을 위한 다양한 데이터를 준비, 데이터 정제를 통해 품질을 보장

3) 데이터 가공 : 목적변수 정의, 모델링을 위한 데이터 형식으로 가공

4) 기법 적용 : 데이터 마이닝 기법을 적용하여 정보를 추출

5) 검증 : 마이닝으로 추출한 결과를 검정하고 업무에 적용해 기대효과를 전파