1장_2절 분석방법론2
3. CRISP-DM 분석 방법론
가. 개요
CRISP-DM(Cross Industry Standard Process for Data Mining)은 1996년 유럽연합의 ESPRIT에서 있었던 프로젝트에서 시작되었으며, 주요한 5개 업체들(Daimler-Chrysler, SPSS, NCR, Teradata, OHRA)이 주도하였다. CRISP-DM은 계층적 프로세스 모델로써 4개 레벨로 구성된다
나. CRISP-DM의 4레벨 구조
Phases - Generic Tasks - Specialized Tasks - Process Instance(단계, 일반화태스크, 세분화태스크, 프로세스 실행)
최상위 레벨은 여러 개의 단계로 구성되고 각 단계는 일반화 태스크를 포함한다. 일반화 태스크는 데이터 마이닝의 단일 프로세스를 완전하게 수행하는 단위이며 이는 다시 구체적인 수행 레벨인 세분화 태스크로 구성된다
예를 들어 데이터 정제라는 일반화 태스크는 범주형 데이터 정제와 연속형 데이터 정제와 같은 세분화 태스크로 구성된다. 마지막 레벨인 프로세스 실행은 데이터 마이닝을 위한 구체적인 실행을 포함한다
다. CRISP-DM의 프로세스
CRISP-DM 프로세스는 6단계로 구성되어 있으며 각 단계는 단방향으로 구성되어 있지 않고 단계 간 피드백을 통하여 단계별 완성도를 높이게 되어 있다
- 업무이해 Business Understanding
비지니스 관점에서 프로젝트의 목적과 요구사항을 이해하기 위한 단계
도메인 지식을 데이터 분석을 위한 문제정의로 변경하고 초기 프로젝트 계획을 수립하는 단계
> 업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립
- 데이터 이해 Data Understanding
분석을 위한 데이터를 수집하고 데이터 속성을 이해하기 위한 단계
데이터 품질에 대한 문제점을 식별하고 숨겨져 있는 인사이트를 발견하는 단계
> 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인
- 데이터 준비 Data Preparation
분석을 위하여 수집된 데이터에서 분석기법에 적합한 데이터를 편성하는 단계(많은 시간이 소요될 수 있음)
> 분석용 데이터 셋 선택, 데이터 정제, 분석용 데이터 셋 편성, 데이터 통합, 데이터 포맷팅
- 모델링 Modeling
다양한 모델링 기법과 알고리즘을 선택하고 모델링 과정에서 사용되는 파라미터를 최적화해 나가는 단계
모델링 과정에서 데이터셋이 추가로 필요한 경우 데이터 준비 단계를 반복 수행할 수 있으며 모델링 결과를 테스트용 데이터셋으로 평가하여 모델의 과적합(Over-fitting)문제를 확인
> 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가
- 평가 Evaluation
모델링 결과가 프로젝트 목적에 부합하는지 평가하는 단계로 데이터마이닝 결과를 최종적으로 수용할 것인지 판단
> 분석결과 평가, 모델링 과정 평가, 모델 적용성 평가
- 전개 Deployment
모델링과 평가 단계를 통하여 완성된 모델을 실 업무에 적용하기 위한 계획을 수립하는 단계
모니터링과 모델의 유지보수 계획 마련; 모델에 적용되는 비지니스 도메인 특성, 입력되는 데이터의 품질 편차, 운영모델의 평가기준에 따라 생명기준이 다양하므로 상세한 전개 계획이 필요
CRISP-DM의 마지막 단계, 프로젝트 종료 관련 프로세스를 수행하여 프로젝트 마무리
> 전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료보고서 작성, 프로젝트 리뷰
4. 빅데이터 분석 방법론
1) 빅데이터 분석의 계층적 프로세스
- 단계(Phase) : 프로세스 그룹을 통하여 완성된 단계별 산출물이 생성된다 각 단계는 기준선으로 설정되어 관리되어야 하며 버전관리 등을 통하여 통제가 이루어져야 한다
- 태스크(Task) : 각 단계는 여러 개의 태스크로 구성된다 각 태스크는 단계를 구성하는 단위 활동이며 물리적 또는 논리적 단위로 품질 검토의 항목이 될 수 있다
- 스텝(Step) : WBS의 워크 패키지에 해당되고 입력 자료, 처리 및 도구, 출력 자료로 구성된 단위 프로세스이다
2) 빅데이터 분석 방법론의 5단계
- 분석기획
비지니스 도메인과 문제점을 인식하고 분석 계획 및 프로젝트 수행계획을 수립하는 단계
비지니스 이해 및 범위 설정; 비지니스 이해, 프로젝트 범위 설정(출력자료로 프로젝트 범위 정의서 SOW)
프로젝트 정의 및 계획 수립; 데이터 분석 프로젝트 정의, 프로젝트 수행 계획 수립(출력자료로 프로젝트 정의서), 프로젝트 수행 계획 수립(프로젝트 수행 계획서, WBS)
프로젝트 위험계획 수립, 데이터 분석 위험 식별, 위험 대응 계획 수립(예상되는 위험에 대해 회피(avoid), 전이(transfer), 완화(mitigate), 수용(accept)으로 구분하여 위험 관리 계획서를 작성한다, 출력자료로 위험 관리 계획서)
- 데이터 준비
비지니스 요구사항과 데이터 분석에 필요한 원천 데이터를 정의하고 준비하는 단계
필요데이터 정의; 데이터 정의: 분석에 필요한 데이터를 정의한다(출력자료로 데이터 정의서)
데이터 획득방안 수립
데이터 스토어 설계; 정형데이터 스토어 설계, 비정형데이터 스토어 설계
데이터 수집 및 정합성 점검; 데이터 수집 및 저장, 데이터 정합성 점검: 데이터 품질 개선이 필요한 부분에 대하여 보완 작업을 한다(출력 자료로 정합성 점검 보고서)
- 데이터 분석
원천 데이터를 분석용 데이터셋으로 편성하고 다양한 분석 기법과 알고리즘을 이용하여 데이터를 분석하는 단계이다 분석 단계를 수행하는 과정에서 추가적인 데이터 확보가 필요한 경우 데이터 준비 단계로 피드백하여 두 단계를 반복하여 진행한다
분석용 데이터 준비; 비지니스 룰 확인, 분석용 데이터셋 준비
텍스트 분석; 텍스트 데이터 확인 및 추출, 텍스트 데이터 분석
탐색적 분석; 탐색적 데이터 분석: 기초 통계량, 통계적 특성 이해하고 모델링을 위한 기초자료로 활용, 데이터 시각화
모델링; 데이터 분할, 데이터 모델링, 모델 적용 및 운영 방안(출력 자료로 알고리즘 설명서)
모델 평가 및 검증; 모델 평가, 모델 검증
- 시스템 구현
분석 기획에 맞는 모델을 도출하고 이를 운영중인 가동 시스템에 적용하거나 시스템 개발을 위한 사전 검증으로 프로토타입 시스템을 구현한다
설계 및 구현; 시스템 분석 및 설계 : 응용시스템 구축, 시스템 구현
시스템 테스트 및 운영; 시스템 테스트, 시스템 운영 계획
- 평가 및 전개
데이터 분석 및 시스템 구현 단계를 수행한 후 프로젝트의 성과를 평가하고 정리하거나 모델의 발전 계획을 수립하여 차기 분석 기획으로 전달하고 프로젝트를 종료하는 단계
모델 발전 계획 수립; 모델 발전 계획
프로젝트 평가 및 보고; 프로젝트 성과평가, 프로젝트 종료: 프로젝트 진행 과정의 모든 산출물 및 프로세스를 지식 자산화