2) 데이터 거버넌스 구성요소

  • 원칙(Principle)

데이터를 유지 관리하기 위한 지침과 가이드

보안, 품질 기준, 변경 관리

 

  • 조직(Organization)

데이터를 관리할 조직의 역할과 책임

데이터 관리자, 데이터베이스 관리자, 데이터 아키텍트

 

  • 프로세스(Process)

데이터 관리를 위한 활동과 체계

작업 절차, 모니터링 활동, 측정 활동

 

 

3) 데이터 거버넌스 체계

  • 데이터 표준화

데이터 표준화는 데이터 표준 용어 설정, 명명 규칙 수립, 메타데이터 구축, 데이터 사전 구축 등의 업무

명명 규칙은 언어별로 작성되어 매핑 상태를 유지해야 한다

 

  • 데이터 관리 체계

데이터 정합성 및 활용의 효율성을 위하여 표준 데이터를 포함한 메타 데이터와 데이터 사전의 관리 원칙을 수립

빅데이터의 경우 데이터의 급증으로 데이터의 생명 주기 관리방안(Data Life Cycle Management)을 수립하지 않으면 데이터 가용성 및 관리비용 증대 문제에 직면하게 될 수 있다

 

  • 데이터 저장소 관리

메타데이터 및 표준 데이터를 관리하기 위한 전사 차원의 저장소를 구성

저장소는 데이터 관리 체계 지원을 위한 워크플로우 및 관리용 응용 소프트웨어를 지원하고 관리 대상 시스템과의 인터페이스를 통한 통제가 이루어져야 한다

 

  • 표준화 활동

데이터 거버넌스 체계를 구축한 후 표준 준수 여부를 주기적으로 점검하고 모니터링을 실시

 

4. 데이터 분석을 위한 3가지 조직 구조

  • 집중구조

전사 분석업무를 별도의 분석전담 조직에서 담당

전략적 중요도에 따라 분석조직이 우선순위를 정해서 진행 가능

현업 업무 부서의 분석 업무와 이중화/이원화 가능성 높음

 

  • 기능구조

일반적인 분석 수행 구조

별도의 분석 조직이 없고 해당 업무 부서에서 분석 수행

전사적 핵심분석이 어려우며, 부서 현황 및 실적 통계 등 과거 실적에 국한된 분석 수행 가능성 높음

 

  • 분산구조

분석 조직 인력들을 현업 부서로 직접 배치하여 분석 업무 수행

전사차원의 우선순위 수행

분석 결과에 따른 신속한 action 가능

베스트 프랙티스 공유 가능

부서 분석 업무와 역할 분담 명확히 해야함

 

5. 분석과제 관리 프로세스

- 과제 발굴

개별 조직이나 개인이 도출한 분석 아이디어를 발굴하고 이를 과제화하여 분석 과제 풀로 관리함녀서 분석 프로젝트를 선정하는 작업을 수행한다

 

- 과제 수행

분석을 수행할 팀을 구성하고 분석 과제 실행 시 지속적인 모니터링과 과제 결과를 공유하고 개선하는 절차를 수행한다

 

분석 교육의 목표

단순한 툴 교육이 아닌 분석 역량을 확보하고 강화하는 것에 초점을 맞추어 진행되어야 한다

- 분석 기획자 : 데이터 분석 큐레이션 교육

- 분석 실무자 : 데이터 분석 기법 및 툴에 대한 교육

- 업무 수행자 : 분석 기회 발굴, 구체화, 시나리오 작성법 등

 

빅데이터 시대의 변화에 적극적인 대응방법

- 기업에 맞는 적합한 분석 업무의 수행

- 분석 조직 및 인력에 대한 지속적인 교육과 훈련 실시

- 경영층이 사실 기반 의사결정을 할 수 있는 문화 정착

- 지속적인 변화관리를 계획하고 수행 업무 수행자에 대한 분석 기회 발굴, 구체화, 시나리오 작성법 등

 

 

1. 분석 거버넌스 체계 구성요소

  • 분석 기획 및 관리를 수행하는 조직(Organization)
  • 과제 기획 및 운영 프로세스(Process)
  • 분석 관련 시스템(System)
  • 데이터(Data)
  • 분석 관련 교육 및 마인드 육성 체계(Human Resource)

2. 데이터 분석 수준진단

데이터 분석 수준 진단을 위한 분석 준비도(readiness)와 분석 성숙도(maturity)

 

  • 분석 준비도

기업의 데이터 분석 도입의 수준을 파악하기 위한 진단 방법

총 6가지(분석 업무 파악, 인력 및 조직, 분석기법, 분석데이터, 분석문화, IT 인프라)

 

  • 분석 성숙도

조직의 성숙도 평가 도구 :  CMMI(Capability Maturity Model Integration)모델

성숙도 수준 분류 : 도입단계, 활용단계, 확산단계, 최적화단계

분석 성숙도 진단 분류 : 비지니스 부문, 조직 역량 부문, IT 부문

 

분석 수준 진단 결과 : 정착형, 확산형, 준비형 도입형

- 확산형 : 기업에 필요한 6가지 분석 구석 요소를 갖추고 있고 현재 부분적으로 도입되어 지속적인 확산이 필요한 기업

- 정착형 : 준비도는 낮으나 조직, 인력, 분석업무, 분석기법 등을 기업 내부에서 제한적으로 사용되고 있어 1차적로 정착이 필요한 기업

- 도입형 : 기업에서 활용하는 분석업무, 기법 등은 부족하지만 적용조직 등 준비도가 높아 바로 도입할 수 있는 기업

- 준비형 : 기업에 필요한 데이터, 인력, 조직, 분석업무, 분석기법 등이 적용되어 있지 않아 사전준비가 필요한 기업

 

플랫폼 구조

분석 플랫폼을 활용한 공동기능 활용, 중앙집중적 데이터 관리, 시스템간 인터페이스 최소화

플랫폼이란 단순한 분석 응용프로그램뿐만 아니라 분석 서비스를 위한 응용프로그램이 실행될 수 있는 기초를 이루는 컴퓨터 시스템을 의미한다 일반적으로 하드웨어에 탑재되어 데이터 분석에 필요한 프로그래밍 환경과 실행 및 서비스 환경을 제공하는 역할을 수행한다 분석 플랫폼이 구성되어 있는 경우에는 새로운 데이터 분석 니즈가 존재할 경우 개별적인 분석 시스템을 추가하는 방식이 아닌 서비스를 추가적으로 제공하는 방식으로 확장성을 높일 수 있다

 

3. 데이터 거버넌스 체계 수립

1) 데이터 거버넌스 개요

데이터 거버넌스란 전사 차원의 모든 데이터에 대하여 정책 및 지침, 표준화, 운영 조직 및 책임 등의 표준화된 관리 체계를 수립하고 운영을 위한 프레임 워크 및 저장소를 구축하는 것

마스터 데이터(Master Data), 메타 데이터(Meta Data), 데이터 사전(Data Dictionary)은 데이터 거버넌스의 중요한 관리 대상

 

1. 마스터 플랜 수립 프레임워크

기업 및 공공기관에서는 시스템의 중장기 로드맵을 정의하기 위한 정보전략계획인 ISP를 수행한다

  • ISP(Information Strategy Planning) : 정보기술 또는 정보시스템을 전략적으로 활용하기 위하여 조직 내 외부 환경을 분석하여 기회나 문제점을 도출하고 사용자의 요구사항을 분석하여 시스템 구축 우선순위를 결정하는 등 중장기 마스터 플랜을 수립하는 절차
  • 분석 마스터 플랜 : 일반적인 ISP 방법론을 활용하되 데이터 분석 기획의 특성을 고려하여 수행하고 기업에서 필요한 데이터 분석 과제를 빠짐없이 도출한 후 과제의 우선순위를 결정하고 단기 및 중 장기로 나누어 계획을 수립

분석 과제를 대상으로 다양한 기준을 고려해 적용 우선순위를 설정하고 데이터 분석 구현을 위한 로드맵을 수립한다

 

우선순위 고려요소

- 전략적 중요도

- 비지니스 성과/ROI

- 실행 용이성

 

적용범위/방식 고려요소

- 업무 내재화 적용 수준

- 분석 데이터 적용 수준

- 기술 적용 수준

 

2. 우선순위 평가에 활용하기 위한 ROI 관점에서 빅데이터의 핵심 특징

- 투자비용 요소

크기, 다양성, 속도

 

-비지니스 효과 요소

가치

 

3. 단계적 구현 로드맵

데이터 분석체계 도입 -> 데이터 분석 유효성 검증 -> 데이터 분석 확산 및 고도화

 

폭포수 모델(Water-Fall) : 순차적인 소프트웨어 개발 프로세스로 개발의 흐름이 마치 폭포수처럼 지속적으로 아래로 향하는 것처럼 보인다는 것에서 이름이 붙여졌다 예를 들어 소프트웨어 요구사항 기술, 소프트웨어 설계, 소프트웨어 구현 통합 시험과 디버깅 설치, 소프트 웨어 유지보수의 단계로 프로세스가 이루어지는 경우가 이에 해당한다

 

1. 분석과제 관리를 위한 5가지 주요 영역

분석프로젝트는 범위, 일정, 품질, 리스크, 의사소통 등 영역별 관리가 수행되어야 할 뿐 아니라 데이터에 기반한 분석 기법을 적용한다는 특성 때문에 아래와 같은 5가지 주요 속성을 고려하여 추가적인 관리가 필요하다

 

  • Data Size

분석하고자 하는 데이터의 양을 고려한 관리 방안 수립이 필요하다

 

  • Data Complexity

해당 데이터에 잘 적용될 수 있는 분석 모델의 선정 등에 대한 사전 고려가 필요하다

 

  • Speed

분석 결과가 도출되었을 때 이를 활용하는 시나리오 측면에서 속도를 고려해야 한다. 프로젝트 수행시 분석 모델의 성능 및 속도를 고려한 개발 및 테스트가 수행되어야 한다

 

  • Analytic Complexity

분석 모델의 정확도와 복잡도는 트레이드 오프 관계가 존재한다. 해석이 가능하면서도 정확도를 올릴 수 있는 최적 모델을 찾는 방안을 사전에 모색해야 한다

 

  • Accuracy&Precision

accuracy는 모델과 실제 값 사이의 차이가 적다는 정확도를 의미하고 precision은 모델을 지속적으로 반복했을 때의 편차의 수준으로써 일관적으로 동일한 결과를 제시한다는 것을 의미한다

분석의 활용적인 측면에서는 accuracy가 중요하며 안정성 측면에서는 precision이 중요하다. 그러나 accuracy와 precision은 트레이드 오프가 되는 경우가 많기 때문에 모델의 해석 및 적용 시 사전에 고려해야 한다

 

2. 분석 프로젝트의 특성

- 분석가의 목표 : 개별적인 분석 업무 수행 뿐만 아니라 전반적인 프로젝트 관리 또한 중요

- 분석가의 입장 : 데이터 영역과 비지니스 영역의 현황을 이해하고, 프로젝트의 목표인 분석의 정확도 달성과 결과에 대한 가치 이해를 전달하는 조정자로서의 분석가 역할이 중요

- 분석 프로젝트는 도출된 결과의 재해석을 통한 지속적인 반복 및 정교화가 수행되는 경우가 대부분이므로 프로토타이핑 방식의 어자일 프로젝트 관리 방식에 대한 고려도 필요

 

 

4. 상향식 접근 방식(Bottom up Approach)

1) 정의

- 기업이 보유하고 있는 다양한 원천 데이터로부터 분석을 통하여 통찰력과 지식을 얻는 접근 방법

- 다양한 원천 데이터를 대상으로 분석을 수행하여 가치 있는 모든 문제를 도출하는 일련의 과정

 

2) 상향식 접근법의 특징

- 하향식 접근법은 논리적 단계별 접근법으로 최근의 복잡하고 다양한 환경에서 발생하는 문제를 해결하기 어렵기 때문에 디자인적 사고(Design Thinking)접근법을 통해 WHY -> WHAT 관점으로 존재하는 데이터 그 자체를 객관적으로 관찰하여 문제를 해결하려는 접근법을 사용

 

  • 비지도 학습(Unsupervised Learning)

일반적으로 상향식 접근 방식의 데이터 분석은 비지도 학습 방법에 의해 수행된다 비지도 학습은 데이터 분석의 목적이 명확히 정의된 형태의 특정 필드의 값을 구하는 것이 아니라 데이터 자체의 결합, 연관성, 유사성 등을 중심으로 데이터의 상태를 표현하는 것이다

  • 지도 학습(Supervised Learning)

명확한 목적 하에 데이터분석을 실시하는 것을 지도학습이라고 하며 분류, 추측, 예측, 최적화를 통해 사용자의 주도하에 분석을 실시하고 지식을 도출하는 것이 목적이다

 

- 상향식 접근법은 비지도 학습 방법으로 수행되며 데이터 자체의 결합, 연관성, 유사성을 중심으로 접근

- 시행착오를 통한 문제 해결 : 프로토타이핑 접근법

 

프로토타이핑 접근법은 사용자가 요구사항이나 데이터를 정확히 규정하기 어렵고 데이터 소스도 명확히 파악하기 어려운 상황에서 일단 분석을 시도해보고 그 결과를 확인하면서 반복적으로 개선해나가는 방법

프로토타이핑 접근법의 기본적인 프로세스는 가설의 생성, 디자인에 대한 실험, 실제 환경에서의 테스트, 테스트 결과에서의 통찰 도출 및 가설 확인으로 구성된다

 

5. 분석과제 정의

분석과제 정의서를 통해 분석별 필요 소스 데이터, 분석 방법, 데이터 입수 및 분석의 난이도, 분석 수행주기, 검증 오너십, 상세 분석 과정 등을 정의

 

 

'ADsP > 2과목' 카테고리의 다른 글

2장_1절 마스터 플랜 수립 프레임워크  (0) 2022.02.09
1장_4절 분석 프로젝트 관리 방안  (0) 2022.02.09
1장_3절 분석 과제 발굴2  (0) 2022.02.09
1장_3절 분석 과제 발굴1  (0) 2022.02.09
1장_2절 분석방법론2  (0) 2022.02.09

1) 문제 탐색

과제 발굴 단계에서는 세부적인 구현 및 솔루션에 초점을 맞추는 것이 아니라 문제를 해결함으로써 발생하는 가치에 중점을 두는 것이 중요

 

가. 비지니스 모델 기반 문제 탐색

업무(operation), 제품(product), 고객(customer), 규제와 감사(regulation & audit), 지원 인프라(IT & human resource) 등 5가지 영역으로 기업의 비지니스를 분석

  • 업무(operation)

제품 및 서비스를 생산하기 위해서 운영하는 내부 프로세스 및 주요 자원 관련 주제 도출

예) 생산 공정 최적화, 재고량 최소화

 

  • 제품(product)

생산 및 제공하는 제품, 서비스를 개선하기 위한 관련 주제 도출

예) 제품의 주요 기능 개선, 서비스 모니터링 지표도출

 

  • 고객(customer)

제품, 서비스를 제공받는 사용자 및 고객, 이를 제공하는 채널의 관점에서 관련 주제 도출

예) 고객 call 대기 시간 최소화, 영업점 위치 최적화

 

  • 규제와 감사(Regulation&Audit)

제품 생산 및 전달과정 프로세스 중에서 발생하는 규제 및 보안의 관점에서 주제 도출

예) 제공 서비스 품질의 이상 징후 관리, 새로운 환경 규제시 예상되는 제품 추출 등

 

  • 지원 인프라(IT&Human Resources)

분석을 수행하는 시스템 영역 및 이를 운영, 관리하는 인력의 관점에서 주제 도출

예) EDW 최적화, 적정 운영 인력 도출 등

 

나) 분석 기획 발굴의 범위 확장

4가지 관점 : 거시적 관점, 경쟁자 확대, 시장니즈 탐색, 역량의 재해석

 

  • 거시적 관점의 메가트랜드

조직 및 해당 산업에 폭넓게 영향을 미치는 사회 경제적 요인을 STEEP으로 요약되는 Social(사회), Technological(기술), Economic(경제), Environmental(환경), Political(정치) 영역으로 폭넓게 나눈다

 

  • 경쟁자 확대 관점

현재 수행하고 있는 사업 영역의 직접 경쟁사 및 제품, 서비스 뿐만 아니라 대체재와 신규 진입자 등으로 관점을 확대하여 위협이 될 수 있는 상황에 대한 분석 기회 발굴의 폭을 넓혀서 탐색한다

- 대체재(Substitude); 융합적인 경쟁 환경에서 현재 생산을 수행하고 있는 제품, 서비스를 온라인으로 제공하는 것에 대한 탐색 및 잠재적 위협을 파악한다

- 경쟁자(Competitor); 현재 생산하고 있는 제품 서비스의 주요 경쟁자에 대한 동향을 파악하여 이를 고려한 분석 기회를 도출한다

- 신규 진입자(New Entrant); 향후 시장에 대해서 파괴적인 역할을 수행할 수 있는 신규 진입자에 대한 동향을 파악하여 이를 고려한 분석 기회를 도출한다

 

  • 시장의 니즈 탐색 관점

현재 수행하고 있는 사업에서의 직접 고객뿐만 아니라 고객과 접촉하는 역할을 수행하는 채널 및 고객의 구매와 의사결정에 영향을 미치는 영향자들에 대한 폭넓은 관점을 바탕으로 분석 기회를 탐색한다

- 고객(Customer); 고객의 구매 동향 및 고객의 컨텍스트를 더욱 깊게 이해하여 제품 서비스의 개선에 필요한 분석 기회를 도출한다

- 채널(Channel); 영업사원, 직판 대리점, 홈페이지 등의 자체적으로 운영하는 채널 뿐만 아니라 최종 고객에게 상품, 서비스를 전달하는 것에 가능한 경로를 파악하여 해당 경로에 존재하는 채널별로 분석 기회를 확대하여 탐색한다

- 영향자(Influencer); 기업 의사결정에 영향을 미치는 주주, 투자자, 협회 및 기타 이해 관계자의 주요 관심사항에 대해서 파악하고 분석기회를 탐색

 

  • 역량의 재해석 관점

현재 해당 조직 및 기업이 보유한 역량뿐만 아니라 해당 조직의 비지니스에 영향을 끼치는 파트너 네트워크를 포함한 호라용 가능한 역량을 토대로 폭넓은 분석 기회를 탐색한다

- 내부 역량(Competency); 지적 재산권, 기술력 등 기본적인 것 뿐만 아니라 중요하면서도 자칫 간과하기 쉬운 지식, 기술 등의 노하우와 인프라적인 유형 자산에 대해서 재해석하고 해당영역에서 분석 기회를 탐색한다

- 파트너와 네트워크(Partners&Network); 자사가 직접 보유하고 있지는 않지만 밀접한 관계를 유지하고 있는 관계사와 공급사 등의 역량을 활용해 수행할 수 있는 기능을 파악해보고 이에 대한 분석 기회를 추가적으로 도출한다

 

다) 외부 참조 모델기반 문제 탐색

유사 동종 사례 벤치마킹을 통한 분석기회 발굴은 제공되는 산업별, 업무 서비스별 분석 테마 후보 그룹을 통해 quick&easy 방식으로 필요한 분석기회가 무엇인지에 대한 아이디어를 얻고 기업에 적용할 분석 테마 후보 목록을 워크숍 형태의 브레인 스토밍을 통해 빠르게 도출하는 방법

평상시 지속적인 조사와 데이터 분석을 통한 가치 발굴 사례를 정리하여 풀(Pool)로 만들어 둔다면 과제 발굴 및 탐색시 빠르고 의미있는 분석 기획 도출이 가능하다

 

라) 분석 유즈 케이스(Analytics Use Case)

현재의 비지니스 모델 및 유사 동종 사례 탐색을 통해서 빠짐없이 도출한 분석 기회들을 구체적인 과제로 만들기 전에 분석 유즈 케이스로 표기하는 것이 필요하다 분석 유즈 케이스는 풀어야 할 문제에 대한 상세한 설명 및 해당 문제를 해결했을 때 발생하는 효과를 명시함으로써 향후 데이터 분석 문제로의 전환 및 적합성 평가에 활용하도록 한다

 

2) 문제 정의

비지니스 문제를 데이터의 문제로 변환하여 정의하는 단계

 

분석을 수행하는 당사자뿐만 아니라 해당 문제가 해결되었을 때 효용을 얻을 수 있는 최종 사용자 관점에서 이루엊야 한다 데이터 분석 문제가 잘 정의되었을 때 필요한 데이터의 정의 및 기법 발굴이 용이하기 때문에 가능한 정확하게 분석의 관저으로 문제를 재정의할 필요가 있다

 

3) 해결방안 탐색

데이터 분석 문제를 해결하기 위해 다양한 방안이 모색된다

 

분석역량(WHO)와 분석기법 및 시스템(HOW)에 따라 해결방안 탐색 영역이 다름

분석 역량을 기존에 가지고 있는 지의 여부를 파악하여 보유하고 있지 않은 경우에는 교육이나 전문인력 채용을 통한 역량을 확보하거나 분석 전문업체를 활용하여 과제를 해결하는 방안에 대해 사전 검토를 수행

 

4) 타당성 검토

  • 경제적 타당성; 비용대비 편익 분석 관점의 접근 필요
  • 데이터 타당성
  • 기술 타당성

 

 

 

 

 

 

'ADsP > 2과목' 카테고리의 다른 글

1장_4절 분석 프로젝트 관리 방안  (0) 2022.02.09
1장_3절 분석 과제 발굴3  (0) 2022.02.09
1장_3절 분석 과제 발굴1  (0) 2022.02.09
1장_2절 분석방법론2  (0) 2022.02.09
1장_2절 분석 방법론1  (0) 2022.02.07

1. 분석 과제 발굴 방법론

분석과제는 풀어야 할 다양한 문제를 데이터 분석 문제로 변환한 후 관계자들이 이해하고 프로젝트로 수행할 수 있는 과제 정의서 형태로 도출된다

분석 과제를 도출하기 위한 방식으로는 크게 하양식 접근 방법과 상향식 접근 방법이 있다

최적의 의사 결정은 두 접근 방식이 상호 보완 관계에 있을 때 가능

 

디자인 사고(Design Thinking)

상향식 접근 방식의 발산 단계와 하향식 접근 방식의 수렵 단계를 반복적으로 수행하는 식의 상호 보완적인 동적 환경을 통해 분석의 가치를 높일 수 있는 최적의 의사 결정 방식

 

하향식 접근 방식(Top Down Approach)

분석 과제가 주어지고 이에 대한 해법을 찾기 위하여 각 과정이 체계적으로 단계화되어 수행하는 방식

 

상향식 접근 방식(Bottom Up Approach)

문제의 정의 자체가 어려운 경우 데이터를 기반으로 문제의 지속적으로 개선하는 방식

 

2. 하향식 접근 방식(Top Down Approach)

하향식 접근법은 문제 탐색(Problem Discovery) > 문제 정의(Problem Definition) > 해결방안 탐색(Solution Search) > 타당성 검토(Feasibility Study)의 과정으로 이루어짐

 

 

 

'ADsP > 2과목' 카테고리의 다른 글

1장_3절 분석 과제 발굴3  (0) 2022.02.09
1장_3절 분석 과제 발굴2  (0) 2022.02.09
1장_2절 분석방법론2  (0) 2022.02.09
1장_2절 분석 방법론1  (0) 2022.02.07
1장_1절 분석 기획 방향성 도출  (0) 2022.02.07

3. CRISP-DM 분석 방법론

가. 개요

CRISP-DM(Cross Industry Standard Process for Data Mining)은 1996년 유럽연합의 ESPRIT에서 있었던 프로젝트에서 시작되었으며, 주요한 5개 업체들(Daimler-Chrysler, SPSS, NCR, Teradata, OHRA)이 주도하였다. CRISP-DM은 계층적 프로세스 모델로써 4개 레벨로 구성된다

 

나. CRISP-DM의 4레벨 구조

Phases - Generic Tasks - Specialized Tasks - Process Instance(단계, 일반화태스크, 세분화태스크, 프로세스 실행)

최상위 레벨은 여러 개의 단계로 구성되고 각 단계는 일반화 태스크를 포함한다. 일반화 태스크는 데이터 마이닝의 단일 프로세스를 완전하게 수행하는 단위이며 이는 다시 구체적인 수행 레벨인 세분화 태스크로 구성된다

예를 들어 데이터 정제라는 일반화 태스크는 범주형 데이터 정제와 연속형 데이터 정제와 같은 세분화 태스크로 구성된다. 마지막 레벨인 프로세스 실행은 데이터 마이닝을 위한 구체적인 실행을 포함한다

 

다. CRISP-DM의 프로세스

CRISP-DM 프로세스는 6단계로 구성되어 있으며 각 단계는 단방향으로 구성되어 있지 않고 단계 간 피드백을 통하여 단계별 완성도를 높이게 되어 있다

 

  • 업무이해 Business Understanding

비지니스 관점에서 프로젝트의 목적과 요구사항을 이해하기 위한 단계

도메인 지식을 데이터 분석을 위한 문제정의로 변경하고 초기 프로젝트 계획을 수립하는 단계

> 업무 목적 파악, 상황 파악, 데이터 마이닝 목표 설정, 프로젝트 계획 수립

 

  • 데이터 이해 Data Understanding

분석을 위한 데이터를 수집하고 데이터 속성을 이해하기 위한 단계

데이터 품질에 대한 문제점을 식별하고 숨겨져 있는 인사이트를 발견하는 단계

> 초기 데이터 수집, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인

 

  • 데이터 준비 Data Preparation

분석을 위하여 수집된 데이터에서 분석기법에 적합한 데이터를 편성하는 단계(많은 시간이 소요될 수 있음)

> 분석용 데이터 셋 선택, 데이터 정제, 분석용 데이터 셋 편성, 데이터 통합, 데이터 포맷팅

 

  • 모델링 Modeling

다양한 모델링 기법과 알고리즘을 선택하고 모델링 과정에서 사용되는 파라미터를 최적화해 나가는 단계

모델링 과정에서 데이터셋이 추가로 필요한 경우 데이터 준비 단계를 반복 수행할 수 있으며 모델링 결과를 테스트용 데이터셋으로 평가하여 모델의 과적합(Over-fitting)문제를 확인

> 모델링 기법 선택, 모델 테스트 계획 설계, 모델 작성, 모델 평가

 

  • 평가 Evaluation

모델링 결과가 프로젝트 목적에 부합하는지 평가하는 단계로 데이터마이닝 결과를 최종적으로 수용할 것인지 판단

> 분석결과 평가, 모델링 과정 평가, 모델 적용성 평가

 

  • 전개 Deployment

모델링과 평가 단계를 통하여 완성된 모델을 실 업무에 적용하기 위한 계획을 수립하는 단계

모니터링과 모델의 유지보수 계획 마련; 모델에 적용되는 비지니스 도메인 특성, 입력되는 데이터의 품질 편차, 운영모델의 평가기준에 따라 생명기준이 다양하므로 상세한 전개 계획이 필요

CRISP-DM의 마지막 단계, 프로젝트 종료 관련 프로세스를 수행하여 프로젝트 마무리

> 전개 계획 수립, 모니터링과 유지보수 계획 수립, 프로젝트 종료보고서 작성, 프로젝트 리뷰

 

4. 빅데이터 분석 방법론

1) 빅데이터 분석의 계층적 프로세스

  • 단계(Phase) : 프로세스 그룹을 통하여 완성된 단계별 산출물이 생성된다 각 단계는 기준선으로 설정되어 관리되어야 하며 버전관리 등을 통하여 통제가 이루어져야 한다
  • 태스크(Task) : 각 단계는 여러 개의 태스크로 구성된다 각 태스크는 단계를 구성하는 단위 활동이며 물리적 또는 논리적 단위로 품질 검토의 항목이 될 수 있다
  • 스텝(Step) : WBS의 워크 패키지에 해당되고 입력 자료, 처리 및 도구, 출력 자료로 구성된 단위 프로세스이다

 

2) 빅데이터 분석 방법론의 5단계

  • 분석기획

비지니스 도메인과 문제점을 인식하고 분석 계획 및 프로젝트 수행계획을 수립하는 단계

 

비지니스 이해 및 범위 설정; 비지니스 이해, 프로젝트 범위 설정(출력자료로 프로젝트 범위 정의서 SOW)

프로젝트 정의 및 계획 수립; 데이터 분석 프로젝트 정의, 프로젝트 수행 계획 수립(출력자료로 프로젝트 정의서), 프로젝트 수행 계획 수립(프로젝트 수행 계획서, WBS)

프로젝트 위험계획 수립, 데이터 분석 위험 식별, 위험 대응 계획 수립(예상되는 위험에 대해 회피(avoid), 전이(transfer), 완화(mitigate), 수용(accept)으로 구분하여 위험 관리 계획서를 작성한다, 출력자료로 위험 관리 계획서)

 

  • 데이터 준비

비지니스 요구사항과 데이터 분석에 필요한 원천 데이터를 정의하고 준비하는 단계

 

필요데이터 정의; 데이터 정의: 분석에 필요한 데이터를 정의한다(출력자료로 데이터 정의서)

데이터 획득방안 수립

데이터 스토어 설계; 정형데이터 스토어 설계, 비정형데이터 스토어 설계

데이터 수집 및 정합성 점검; 데이터 수집 및 저장, 데이터 정합성 점검: 데이터 품질 개선이 필요한 부분에 대하여 보완 작업을 한다(출력 자료로 정합성 점검 보고서)

 

  • 데이터 분석

원천 데이터를 분석용 데이터셋으로 편성하고 다양한 분석 기법과 알고리즘을 이용하여 데이터를 분석하는 단계이다 분석 단계를 수행하는 과정에서 추가적인 데이터 확보가 필요한 경우 데이터 준비 단계로 피드백하여 두 단계를 반복하여 진행한다

 

분석용 데이터 준비; 비지니스 룰 확인, 분석용 데이터셋 준비

텍스트 분석; 텍스트 데이터 확인 및 추출, 텍스트 데이터 분석

탐색적 분석; 탐색적 데이터 분석: 기초 통계량, 통계적 특성 이해하고 모델링을 위한 기초자료로 활용, 데이터 시각화

모델링; 데이터 분할, 데이터 모델링, 모델 적용 및 운영 방안(출력 자료로 알고리즘 설명서)

모델 평가 및 검증; 모델 평가, 모델 검증

 

  • 시스템 구현

분석 기획에 맞는 모델을 도출하고 이를 운영중인 가동 시스템에 적용하거나 시스템 개발을 위한 사전 검증으로 프로토타입 시스템을 구현한다

 

설계 및 구현; 시스템 분석 및 설계 : 응용시스템 구축, 시스템 구현

시스템 테스트 및 운영; 시스템 테스트, 시스템 운영 계획

 

  • 평가 및 전개

데이터 분석 및 시스템 구현 단계를 수행한 후 프로젝트의 성과를 평가하고 정리하거나 모델의 발전 계획을 수립하여 차기 분석 기획으로 전달하고 프로젝트를 종료하는 단계

 

모델 발전 계획 수립; 모델 발전 계획

프로젝트 평가 및 보고; 프로젝트 성과평가, 프로젝트 종료: 프로젝트 진행 과정의 모든 산출물 및 프로세스를 지식 자산화

 

'ADsP > 2과목' 카테고리의 다른 글

1장_3절 분석 과제 발굴3  (0) 2022.02.09
1장_3절 분석 과제 발굴2  (0) 2022.02.09
1장_3절 분석 과제 발굴1  (0) 2022.02.09
1장_2절 분석 방법론1  (0) 2022.02.07
1장_1절 분석 기획 방향성 도출  (0) 2022.02.07

+ Recent posts