4) 특징

절차

- 최소 지지도 선정(보통 5%)

- 최소 지지도를 넘는 품목 분류

- 2가지 품목 집합 생성

- 반복 수행으로 빈발품목 집합 선정

 

장점과 단점

장점

- 탐색적인 기법 : 조건 반응으로 표현되는 연관성 분석 결과를 쉽게 이해할 수 있음

- 강력한 비목적성 분석 기법 : 분석 방향이나 목적이 특별이 없는 경우 목적변수가 없으므로 유용하게 활용

- 사용이 편리한 분석 데이터의 형태 : 거래 내용에 대한 데이터를 변환 없이 그 자체로 이용

- 계산의 용이성 : 분석을 위한 계산이 상당히 간단

 

단점

- 상당한 수의 계산 과정 : 품목 수가 증가하면 분석에 필요한 계산은 기하급수적으로 늘어남

- 적절한 품목의 결정 : 너무 세분화한 품목을 갖고 연관성 규칙을 찾으면 수많은 연관성 규칙들이 발견되겠지만 실제로 발생 비율 면에서 의미 없는 분석이 될 수도 잇음

- 품목의 비율 차이 : 사용될 모든 품목들 자체가 전체자료에서 동일한 빈도를 갖는 경우 연관성 분석은 가장 좋은 결과를 얻음. 그러나 거래량이 적은 품목은 당연히 포함된 거래수가 적을 것이고 규칙 발견 과정에서 제외되기가 쉬움

 

5) 평가기준 적용시 주의점

- 두 항목의 신뢰도가 높다고 해서 꼭 두 항목이 높은 연관관계가 있는 것은 아님(지지도를 함께 고려)

- 만일 두 항목의 신뢰도가 높게 나왔어도 전체 항목 중 두 항목의 동시 구매율인 지지도가 낮게 나온다면 두 항목간 연관성을 신뢰하기에는 부족한 점이 있음

- 즉, 구매율 자체가 낮은 항목이기에 일반적인 상관관계로 보기엔 어려움

- 지지도와 신뢰도가 모두 높게 나왔더라도 꼭 두 항목이 높은 연관관계가 있는 것은 아님(향상도를 함께 고려)

- 일반적으로 빈번하게 구매되는 항목들에 대해서는 지지도와 신뢰도가 높게 나올 수 있음

- A,B 두 항목의 신뢰도(Confidence(A->B))가 높게 나왔을 때, 전체 거래에서 B의 자체 구매율보다 A자체 구매율이 더 높아야 의미있는 정보임

 

6) Apriori 알고리즘

- 최소 지지도보다 큰 지지도 값을 갖는 품목의 집합을 빈발항목집합이라고 한다. Apriori 알고리즘은 모든 품목 집합에 대한 지지도를 전부 계산하는 것이 아니라 최소 지지도 이상의 빈발항목집합을 찾은 후 그것들에 대해서만 연관 규칙을 계산하는 것이다

- Apriori는 1세대 알고리즘으로 구현과 이해하기가 쉽다는 장점이 있으나 지지도가 낮은 후보 집합 생성시 아이템의 개수가 많아지면 계산 복잡도가 증가한다는 문제점을 가지고 있다

- 어떤 항목집합이 빈발한다면 그 항목집합의 모든 부분집합도 빈발; 어떤 항목집합의 지지도는 그 부분집합들의 지지도를 넘을 수 없음

 

7) FP-Growth 알고리즘

후보 빈발항목집합을 생성하지 않고, FP-Tree를 만든 후 분할 정복 방식을 통해 Apriori 알고리즘보다 더 빠르게 빈발항목집합을 추출할 수 있는 방법이다. Apriori 알고리즘의 약점을 보완하기 위해 고안된 것으로 데이터베이스를 스캔하는 횟수가 작고 빠른 속도로 분석이 가능하다

 

 

 

 

'ADsP > 3과목' 카테고리의 다른 글

5장_4절 연관분석1  (0) 2022.02.17
5장_3절 군집분석2  (0) 2022.02.16
5장_3절 군집분석1  (0) 2022.02.16
5장_2절 분류분석5  (0) 2022.02.14
5장_2절 분류분석1,2  (0) 2022.02.14

1. 연관분석

1) 개요

- 기업의 데이터베이스에서 상품의 구매, 서비스 등 일련의 거래 또는 사건들 간의 규칙을 발견하기 위한 분석 흔히 장바구니 분석(Market Basket Analysis), 순차분석(Sequence Analysis) 등이 있음

- 장바구니 분석 : 장바구니에 무엇이 같이 들어있는지에 대해 분석

예) 주말을 위해 목요일에 기저귀를 사러 온 30대 직장인 고객은 맥주도 함께 사감

- 순차분석 : 구매 이력을 분석해서 A품목을 산 후 추가 B품목을 사는지를 분석

예) 휴대폰을 새로 구매한 고객은 한달 내에 휴대폰 케이스를 구매

 

2) 형태

- 조건과 반응의 형태(if - then)

If A then B : 만일 A가 일어나면 B가 일어난다

 

3) 측도

  • 지지도(support)

전체 거래 중 항목 A와 항목 B를 동시에 포함하는 거래의 비율로 정의

 

  • 신뢰도(confidence)

항목 A를 포함한 거래 중에서 항목 A와 B가 같이 포함될 확률, 연관성의 정도를 파악할 수 있음

 

  • 향상도(lift)

A가 주어지지 않았을 때의 품목 B의 확률에 비해 A가 주어졌을 때의 품목 B의 확률의 증가 비율

연관규칙 A -> B는 품목 A와 품목 B의 구매가 서로 관련이 없는 경우에 향상도가 1이 됨

> 향상도 = (A와 B가 동시에 포함된 거래수)/(A를 포함하는 거래수)*(B를 포함하는 거래수)

 

 

'ADsP > 3과목' 카테고리의 다른 글

5장_4절 연관분석2  (0) 2022.02.17
5장_3절 군집분석2  (0) 2022.02.16
5장_3절 군집분석1  (0) 2022.02.16
5장_2절 분류분석5  (0) 2022.02.14
5장_2절 분류분석1,2  (0) 2022.02.14

5) 비계층적 군집분석

- n개의 개체를 g개의 군집으로 나눌 수 있는 모든 가능한 방법을 점검해 최적화한 군집을 형성하는 것

- k-평균 군집분석(k-means clustering)

 

프로세스

1. 원하는 군집의 개수와 초기 값(seed)들을 정해 seed 중심으로 군집을 형성

2. 각 데이터를 거리가 가장 가까운 seed가 있는 군집으로 분류

3. 각 군집의 seed 값을 다시 계산

4. 모든 개체가 군집으로 할당될 때까지 위 과정들을 반복

 

특징

- 거리 계산을 통해 군집화가 이루어지므로 연속형 변수에 활용이 가능하다

- K개의 초기 중심값은 임의로 선택이 가능하며 가급적이면 멀리 떨어지는 것이 바람직하다

- 초기 중심값을 임의로 선택할 때 일렬(위아래, 좌우)로 선택하면은 군집 혼합되지 않고 층으로 나누어질 수 있어 주의하여야 한다. 초기 중심값의 선정에 따라 결과가 달라질 수 있다

- 초기 중심으로부터의 오차 제곱합을 최소화하는 방향으로 군집이 형성되는 탐욕적(greedy) 알고리즘이므로 안정된 군집은 보장하나 최적이라는 보장이 없다

 

장점

- 주어진 데이터의 내부 구조에 대한 사전 정보 없이 의미있는 자료 구조를 찾을 수 있다

- 다양한 형태의 데이터에 적용이 가능

- 분서 방법 적용이 용이함

 

단점

- 가중치와 거리 정의가 어려움

- 초기 군집수를 결정하기 어려움

- 사전에 주어진 목적이 없으므로 결과 해석이 어려움

 

6) 혼합 분포 군집(mixture distribution clustering)

- 모형 기반(model-based)의 군집 방법이며, 데이터가 k개의 모수적 모형(흔히 정규분포 또는 다변량 정규분포를 가정함)의 가중합으로 표현되는 모집단 모형으로부터 나왔다는 가정하에 모수와 함께 가중치를 자료로부터 추정하는 방법을 사용

- K개의 각 모형은 군집을 의미하며 각 데이터는 추정된 k개의 모형 중 어느 모형으로부터 나왔을 확률이 높은 지에 따라 군집의 분류가 이루어짐

- 흔히 혼합 모형에서의 모수와 가중치의 추정(최대가능도 추정)에는 EM 알고리즘이 사용

 

혼합분포군집모형의 특징

- K-평균 군집의 절차와 유사하지만 확률 분포를 도입하여 군집을 수행

- 군집을 몇 개의 모수로 표현할 수 있으며, 서로 다른 크기나 모양의 군집을 찾을 수 있음

- EM 알고리즘을 이용한 모수 추정에서 데이터가 커지면 수렴에 시간이 걸림

- 군집의 크기가 너무 작으면 추정의 정도가 떨어지거나 어려움

- K-평균 군집과 같이 이상치 자료에 민감하므로 사전에 조치가 필요

 

7) SOM(self-organizing map)

- SOM(자가조직화지도) 알고리즘은 코호넨에 의해 제시, 개발되었으며 코호넨 맵이라고도 알려져있음

- SOM은 비지도 신경망으로 고차원의 데이터를 이해하기 쉬운 저차원의 뉴런으로 정렬하여 지도의 형태로 형상화, 이러한 형상화는 입력 변수의 위치 관계를 그대로 보존한다는 특징이 있다. 다시 말해 실제 공간의 입력 변수가 가까이 있으면 지도 상에서도 가까운 위치에 있게됨

 

- 구성 : 두 개의 인공신경망 층으로 구성되어 있다

입력층(input layer) : 입력 벡터를 받는 층; 입력 변수의 개수와 동일하게 뉴런 수가 존재한다

경쟁층(competitive layer) : 2차원 격차(grid)로 구성된 층; 입력 벡터의 특성에 따라 벡터가 한 점으로 클러스터링 되는 층. SOM은 경쟁 핛브으로 각각의 뉴런이 입력 벡터와 얼마나 가까운가를 계산하여 연결 강도를 반복적으로 재조정하여 학습한다

 

- SOM의 특징

1. 고차원의 데이터를 저차원의 지도 형태로 형상화하기 때문에 시각적으로 이해가 쉬움

2. 입력 변수의 위치 관계를 그대로 보존하기 때문에 실제 데이터가 유사하면 지도상에서 가깝게 표현되며 이런 특징 때문에 패턴 발견, 이미지 분석 등에서 뛰어난 성능을 보임

3. 역전파 알고리즘 등을 사용하는 인공신경망과 달리 단 하나의 전방 패스를 사용함으로써 속도가 매우 빠르므로 실시간 학습처리를 할 수 있는 모형임

 

'ADsP > 3과목' 카테고리의 다른 글

5장_4절 연관분석2  (0) 2022.02.17
5장_4절 연관분석1  (0) 2022.02.17
5장_3절 군집분석1  (0) 2022.02.16
5장_2절 분류분석5  (0) 2022.02.14
5장_2절 분류분석1,2  (0) 2022.02.14

1. 군집분석

1) 개요

- 각 개체(대상)의 유사성을 측정하여 유사성이 높은 대상집단을 분류하고 군집에 속한 객체들의 유사성과 서로 다른 군집에 속한 객체간의 상이성을 규명하는 분석 방법

- 특성에 따라 고객을 여러 개의 배타적인 집단으로 나누는 것으로 군집의 개수, 구조에 대한 가정 없이 데이터로부터 거리 기준으로 군집화 유도

 

2) 특징

- 비교사학습법(unsupervised)에 해당하여 타겟변수(종속변수)의 정의가 없이 학습이 가능

- 데이터를 분석의 목적에 따라 적절한 군집으로 분석자가 정의 가능

- 요인분석과의 차이 : 유사한 변수를 함께 묶어주는 목적이 아니라 각 데이터(객체)를 묶어줌

- 판별분석과의 차이 : 판별분석은 사전에 집단이 나누어져 있어야 하지만 군집분석은 집단이 없는 상태에서 집단을 구분

 

3) 거리 측정 방법

  • 연속형 변수

- 유클리디안 거리 : 데이터간의 유사성을 측정할 때 많이 사용하는 거리, 통계적 개념이 내포되어있지 않아 변수들의 산포 정도가 전혀 감안되어있지 않다

- 표준화 거리 : 해당변수의 표준편차로 척도 변환한 후 유클리디안 거리를 계산하는 방법, 표준화하게 되면 척도의 차이, 분산의 차이로 인한 왜곡을 피할 수 있다

- 마할라노비스 거리 : 통계적 개념이 포함된 거리이며 변수들의 산포를 고려하여 표준화한 거리, 두 벡터 사이의 거리를 산포를 의미하는 표본공분산으로 나눠주어야 하며 그룹에 대한 사전 지식 없이는 표본 공분산을 계산할 수 없으므로 사용하기 곤란하다

- 체비셰프 거리

- 맨하탄 거리 : 유클리디안 거리와 함께 가장 많이 사용되는 거리로 맨하탄 도시에서 건물에서 건물을 가기 위한 최단 거리를 구하기 위해 고안된 거리이다

- 캔버라 거리

- 민코우스키 거리 : 맨하탄 거리와 유클리디안 걸리를 한 번에 표현한 공식으로 L1 거리(맨하탄거리), L2 거리(유클리디안 거리)라 불리고 있다

 

  • 범주형 변수

- 자카드 거리

- 자카드 계수

- 코사인 거리 : 문서를 유사도 기준으로 분류 혹은 그룹핑 할 때 유용하게 사용한다

- 코사인 유사도 : 두 개체의 백터 내적의 코사인 값을 이용하여 측정된 벡터간의 유사한 정도이다

 

4) 계층적 군집분석

n개의 군집으로 시작해 점차 군집의 개수를 줄여나가는 방법

 

  • 최단연결법

- n*n 거리 행렬에서 거리가 가장 가까운 데이터를 묶어서 군집을 형성

- 군집과 군집 또는 데이터와의 거리를 계산시 최단거리(min)를 거리로 계산하여 거리 행렬 수정

- 수정된 거리 행렬에서 거리가 가까운 데이터 또는 군집을 새로운 군집으로 형성

 

  • 최장연결법

- 군집과 군집 또는 데이터와의 거리를 계산시 최장거리(max)를 거리로 계산하여 거리 행렬 수정

 

  • 평균연결법

- 군집과 군집 또는 데이터와의 거리를 계산시 평균거리(mean)를 거리로 계산하여 거리 행렬 수정

 

  • 와드연결법

- 군집 내 편차들의 제곱합을 고려한 방법으로 군집 간 정보의 손실을 최소화 하기 위해 군집화를 진행

 

 

군집화

- 거리행렬을 통해 가장 가까운 거리의 객체들간의 관계를 규명하고 덴드로그램을 그린다

- 덴드로그램을 보고 군집의 개수를 변화해가면서 적절한 군집 수를 선정한다

- 군집의 수는 분석 목적에 따라 선정할 수 있지만 대부분 5개 이상의 군집은 잘 활용하지 않는다

 

'ADsP > 3과목' 카테고리의 다른 글

5장_4절 연관분석1  (0) 2022.02.17
5장_3절 군집분석2  (0) 2022.02.16
5장_2절 분류분석5  (0) 2022.02.14
5장_2절 분류분석1,2  (0) 2022.02.14
5장_1절 데이터 마이닝의 개요2  (0) 2022.02.13

1. 인공신경망 분석(ANN)

가. 인공신경망이란?

- 인간 뇌를 기반으로 한 추론 모델

- 뉴런은 기본적인 정보처리 단위

 

나. 인공신경망의 연구

- 1943년 매컬럭과 피츠 : 인간의 뇌를 신경세포가 연결된 하나의 디지털 네트워크 모형으로 간주하고 신경세포의 신호처리 과정을 모형화하여 단순 패턴분류 모형을 개발

- 헵 : 신경세포 사이의 연결강도를 조정하여 학습 규치을 개발

- 로젠블럿 : 퍼셉트론이라는 인공세포를 개발

- 비선형성의 한계점 발생 : XOR 문제를 풀지 못하는 한계를 발견

- 홉필드, 러멀하트, 맥클랜드 : 역전파알고리즘(backpropagation)을 활용하여 비선형성을 극복한 다계층 퍼셉트론으로 새로운 인경신경망 모형이 등장

 

다. 인간의 뇌를 형상화한 인공신경망

1) 인간의 뇌의 특징

- 100억개의 뉴런과 6조개의 시냅스의 결합체

- 인간의 뇌는 현존하는 어떤 컴퓨터보다 빠르고 매우 복잡하고 비선형적이며 병렬적인 정보 처리 시스템과 같다

- 적응성에 따라 잘못된 답에 대한 뉴런들 사이의 연결을 약화되고 올바른 답에 대한 연결이 강화된다

 

2) 인간의 뇌 모델링

- 뉴련은 가중치가 있는 링크들로 연결되어 있다

- 뉴런은 여러 입력 신호를 받지만 출력 신호는 오직 하나만 생성하낟

 

라. 인공 신경망의 학습

- 신경망은 가중치를 반복적으로 조정하며 학습한다

- 뉴런은 링크로 연결되어 있고 각 링크에는 수치적인 가중치가 있다

- 인공신경망은 신경망의 가중치를 초기화하고 훈련 데이터를 통해 가중치를 갱신하여 신경망의 구조를 선택하고 활용할 학습 알고리즘을 결정한 후 신경망을 훈련시킨다

 

마. 인공신경망의 특징

1) 구조

- 입력 링크에서 여러 신호를 받아서 새로운 활성화 수준을 계산하고 출력 링크로 출력 신호를 보낸다

- 입력신호는 미가공 데이터 또는 다른 뉴런의 출력이 될 수 있다

- 출력 신호는 문제의 최종적인 해가 되거나 다른 뉴런에 입력될 수 있다

 

2) 뉴런의 계산

- 뉴런은 전이함수, 즉 활성화함수(activation function)를 사용한다

- 활성화함수를 이용해 출력을 결정하며 입력신호의 가중치 합을 계산하여 임계값과 비교한다

- 가중치 합이 임계값보다 작으면 뉴런의 출력은 -1 같거나 크면 +1을 출력한다

 

3) 뉴런의 활성화 함수

- 시그모이드 함수 : 로지스틱 회귀분석과 유사하며 0~1의 확률값을 가진다

- softmax함수 : 표준화지수 함수라고도 불리며 출력값이 여러개로 주어지고 목표치가 다범주인 경우 각 범주에 속할 사후확률을 제공하는 함수이다

- ReLU함수 : 입력값이 0이하는 0, 0이상은 x값을 가지는 함수이며 최근 딥러닝에서 많이 활용하는 활성화함수이다

 

4) 단일 뉴런의 학습(단층 퍼셉트론)

- 퍼셉트론은 선형 결합기와 하드 리미터로 구성된다

- 초평면(hyperplane)은 n차원 공간을 두 개의 영역으로 나눈다

- 초평면을 선형 분리 함수로 정의한다

 

바. 신경망 모형 구축시 고려사항

1) 입력 변수

- 신경망 모형은 그 복잡성으로 인하여 입력 자료의 선택에 매우 민감하다

- 입력변수가 범주형 또는 연속형 변수일 때 아래의 조건이 신경망 모형에 적합하다

범주형 변수 : 모든 범주에서 일정 빈도 이상의 값을 갖고 각 범주의 빈도가 일정할 때

연속형 변수 : 입력변수 값들의 범위가 변수 간의 큰 차이가 없을 때

- 연속형 변수의 경우 그 분포가 평균을 중심으로 대칭이 아니면 좋지 않은 결과를 도출하기 때문에 아래와 같은 방법을 활용한다

변환 : 고객의 소득(대부분 평균 미만이고 특정 고객의 소득이 매우 큰) : 로그변환

범주화 : 각 범주의 빈도가 비슷하게 되도록 설정

- 범주형 변수의 경우 가변수화하여 적용하고 가능하면 되도록 범주형 변수는 같은 범위를 갖도록 가변수화하는 것이 좋다

 

2) 가중치의 초기값과 다중 최소값 문제

- 역전파 알고리즘은 초기값에 따라 결과가 많이 달라지므로 초기값의 선택은 매우 중요한 문제이다

- 가중치가 0이면 시그모이드 함수는 선형이 되고 신경망 모형은 근사적으로 선형 모형이 된다

- 일반적으로 초기값은 0근처로 랜덤하게 선택하므로 초기 모형은 선형 모형에 가깝고 가중치 값이 증가할수록 비선형모형이 된다(초기값이 0이면 반복하여도 값이 전혀 변하지 않고 너무 크면 좋지 않은 해를 주는 문제점을 내포하고 있어 주의 필요)

 

3) 학습모드

가) 온라인 학습 모드(online learning mode)

- 각 관측값을 순차적으로 하나씩 신경망에 투입하여 가중치 추정값이 매번 바뀐다

- 일반적으로 속도가 빠르며 특히 훈련 자료에 유사값이 많은 경우 그 차이가 더 두드러진다

- 훈련 자료가 비정상성과 같이 특이한 성질을 가진 경우가 좋다

- 국소최솟값에서 벗어나기가 더 쉽다

 

나) 확률적 학습 모드(probabilistic learning model)

- 온라인 학습 모드와 같으나 신경망에 투입되는 관측값의 순서가 랜덤하다

 

다) 배치 학습 모드(batch learning mode)

- 전체 훈련 자료를 동시에 신경망에 투입한다

 

학습률 : 학습률은 처음에는 큰 값으로 정하고 반복 수행과정을 통해 해에 가까울수록 학습률이 0에 수렴한다

 

4) 은닉층(hidden layer)과 은닉 노드(hidden node)의 수

- 신경망을 적용할 때 가장 중요한 부분이 모형의 선택이다(은닉층의 수와 은닉 노드의 수 결정)

- 은닉층과 은닉노드가 많으면 가중치가 많아져서 과대 적합 문제가 발생한다

- 은닉층과 은닉노드가 적으면 과소적합 문제가 발생한다

- 은닉층의 수가 하나인 신경망은 범용 근사자이므로 모든 매끄러운 함수를 근사적으로 표현할 수 있다. 그러므로 가능하면 은닉층은 하나로 선정한다

- 은닉노드의 수는 적절히 큰 값으로 놓고 가중치를 감소시키며 적용하는 것이 좋다

 

5) 과대적합 문제

- 신경망에서는 많은 가중치를 추정해야 하므로 과대적합 문제가 빈번하다

- 알고리즘의 조기종료와 가중치 감소 기법으로 해결할 수 있다

- 모형이 적합하는 과정에서 검증오차가 증가하기 시작하면 반복을 중지하는 조기 종료를 시행한다

- 선형 모형의 능형회귀와 유사한 가중치 감소라는 벌점화 기법을 활용한다

 

딥러닝(Deeplearning) : 머신러닝(Machine Learning)의 한 분야로서 인공신경망의 한계를 극복하기 위해 제안된 심화 신경망을 활용한 방법이다

딥러닝 소프트웨어 : 딥러닝 구동을 위한 SW에는 Tensorflow, caffe, Theano, MNnet 등이 있다

딥러닝은 최근 음성과 이미지인식, 자연어처리, 헬스케어 등의 전반적인 분야에 활용되고 있다

 

'ADsP > 3과목' 카테고리의 다른 글

5장_3절 군집분석2  (0) 2022.02.16
5장_3절 군집분석1  (0) 2022.02.16
5장_2절 분류분석1,2  (0) 2022.02.14
5장_1절 데이터 마이닝의 개요2  (0) 2022.02.13
5장_1절 데이터 마이닝의 개요1  (0) 2022.02.13

1. 분류분석과 예측분석

1) 개요

공통점 : 레코드의 특성 속성의 값을 미리 알아 맞히는 것

차이점 : 분류는 레코드(튜플)의 범주형 속성의 값을 알아 맞히는 것, 예측은 레코드(튜플)의 연속형 속성의 값을 알아 맞히는 것

분류의 예 : 학생들의 국어, 영어 등 점수를 통해 내신 등급을 예측, 카드 회사에서 회원들의 가입 정보를 통해 1년 후 신용 등급을 예측

예측의 예 : 학생들의 여러 가지 정보를 입력해 수능 점수를 예측, 카드 회사에서 회원들의 가입 정보를 통해 연 매출액을 예측

분류 모델링 : 신용평가모형, 사기방지모형, 이탈모형, 고객세분화

분류 기법 : 로지스틱 회귀분석(logistic regressiom), 의사결정나무(decision tree), CART(classification and regression tree), C5.0, 베이지안 분류(bayesian classification), 인공신경망(artificial neural network), 지지도벡터기계(support vector machine), k 최근접 이웃(k-nearest neighborhood), 규칙기반의 분류와 사례기반추론(case based reasoning)

 

로지스틱 회귀분석(logistic regression)

- 반응변수가 범주형인 경우에 적용되는 회귀분석 모형

- 새로운 설명변수가 주어질 때 반응변수의 각 범주에 속할 확률이 얼마인지를 추정하여 추정확률을 기준치에 따라 분류하는 목적으로 활용된다

- 모형의 적합을 통해 추정된 확률을 사후확률(posterior probability)라고 한다

- exp(beta1)의 의미는 나머지 변수가 주어질 때 x1이 한 단위 증가할 때마다 성공의 오즈가 몇 배 증가하는지를 나타내는 값이다

 

오즈비(odds ratio) : 오즈는 성공할 확률이 실패할 확률의 몇 배인지를 나타내는 확률이며 오즈비는 오즈의 비율이다

 

선형회귀분석과 로지스틱 회귀분석의 비교

선형회귀분석 : 종속변수; 연속형 변수, 계수 추정법; 최소제곱법, 모형 검정 : F-검정, t-검정

로지스틱 회귀분석 : 종속변수; 범주형 변수, 계수 추정법; 최대우도추정법, 모형 검정 : 카이제곱 검정

 

최대우도추정법(MLE : Maximum Likelihood Estimation)

- 모수가 미지인 확률분포에서 뽑은 표본 x들을 바탕으로 모수를 추정하는 기법

- 우도는 이미 주어진 표본 x들에 비추어봤을 때 모집단의 모수에 대한 추정이 그럴듯한 정도를 말한다

- 우도가 전제되었을 때 표본 x가 등장할 확률이 비례한다

 

glm() 함수를 활용하여 로지스틱 회귀분석 실행; family = binomial

 

2. 의사결정나무

1) 정의와 특성

- 분류 함수를 의사결정 규칙으로 이뤄진 나무 모양으로 그리는 방법으로 의사결정 문제를 시각화해 의사결정이 이뤄지는 시점과 성과를 한 눈에 볼 수 있게 함

- 주어진 입력값에 대한 출력값을 예측하는 모형으로 분류나무와 회귀나무 모형이 있음

- 특징 : 계산 결과가 의사결정나무에 직접 나타나게 되어 분석이 간편함, 분류 정확도가 높음, 계산이 복잡하지 않아 대용량데이터에서도 빠르게 만들 수 있음, 비정상 잡음 데이터에 대해서도 민감함 없이 분류, 한 변수와 상관성이 높은 다른 불필요한 변수가 있어도 크게 영향 받지 않음

 

2) 활용

- 세분화(segmentation) : 데이터를 비슷한 특성을 갖는 몇 개의 그룹으로 분할해 그룹별 특성을 발견

- 분류(classification) : 관측개체를 여러 예측변수들에 근거해 목표변수의 범주를 몇 개의 등급으로 분류하고자 하는 경우

- 예측(prediction) : 자료에서 규칙을 찾아내고 이를 이용해 미래의 사건을 예측하고자 하는 경우

- 차원 축소 및 변수선택(reduction, variable selection) : 매우 많은 수의 예측 변수중 목표변수에 영향을 미치는 변수들을 골라내고자 하는 경우

- 교호작용효과의 파악(interaction effect identification) : 여러 개의 예측 변수들을 결합해 목표 변수에 작용하여 파악하고자 하는 경우

- 범주의 병합 또는 연속형 변수의 이산화(binning) : 범주형 목표 변수의 범주를 소수의 몇 개로 병합하거나 연속형 목표변수를 몇 개의 등급으로 이산화하고자 하는 경우

 

3) 의사결정나무의 분석 과정

분석단계

- 성장단계 : 각 마디에서 적절한 최적의 분리규칙을 찾아서 나무를 성장시키는 과정으로 적절한 정지규칙을 만족하면 중단한다

- 가지치기 단계(pruning) : 오차를 크게 할 위험이 높거나 부적절한 추론 규칙을 가지고 있는 가지 또는 불필요한 가지를 제거하는 단계

너무 큰 나무 모형은 자료를 과대적합하고 너무 작은 나무 모형은 과소적합할 위험이 있어 마디에 속한 자료가 일정 수 이하일 경우 분할을 정지하고 가지치기 실시

- 타당성 평가 단계 : 이익도표, 위험도표, 혹은 시험자료를 이용하여 의사결정나무를 평가하는 단계

- 해석 및 예측 단계 : 구축된 나무 모형을 해석하고 예측 모형을 설정한 후 예측에 적용하는 단계

 

불순도에 따른 분할 측도

목표변수가 범주형 변수인 의사결정나무의 분류 규칙을 선택하기 위해서는 카이제곱 통계량, 지니지수, 엔트로피 지수를 활용한다

  • 카이제곱 통계량

카이제곱 통계량은 각 셀에 대한 ((실제도수-기대도수)의 제곱/기대도수)의 합으로 구할 수 있다

기대도수 = 열의 합계 * 합의 합계 / 전체합계

 

  • 지니지수

노드의 불순도를 나타내는 값

지니니수의 값이 클수록 이질적이며 순수도가 낮다고 볼 수 있다

 

  • 엔트로피 지수

열역학에서 쓰는 개념으로 무질서 정도에 대한 측도이다

엔트로피 지수의 값이 클수록 순수도가 낮다고 볼 수 있다

엔트로피 지수가 가장 작은 예측 변수와 이 때의 최적 분리 규칙에 의해 자식마디를 형성한다

 

 

4) 의사결정나무 분석의 종류

  • CART(classification and regression tree)

목적변수가 범주형인 경우 지니지수, 연속형인 경우 분산을 이용해 이진분리를 사용

개별 입력변수 뿐만 아니라 입력변수들의 선형 결합들 중 최적의 분리를 찾을 수 있음

 

  • C4.5와 C5.0

다지분리(multiple split)이 가능하고 범주형 입력 변수의 범주 수만큼 분리 가능

불순도의 측도로 엔트로피 지수 사용

 

  • CHAID(Chi-squred automatic interaction detection)

가지치기를 하지 않고 적당한 크기에서 나무 모형의 성장을 중지하며 입력변수가 반드시 범주형 변수여야 함

불순도의 측도로 카이제곱 통계량 사용

 

 

'ADsP > 3과목' 카테고리의 다른 글

5장_3절 군집분석1  (0) 2022.02.16
5장_2절 분류분석5  (0) 2022.02.14
5장_1절 데이터 마이닝의 개요2  (0) 2022.02.13
5장_1절 데이터 마이닝의 개요1  (0) 2022.02.13
4장_5절 다차원 척도법과 주성분분석2  (0) 2022.02.13

4) 데이터 분할

- 구축용(traing data) : 50%의 데이터를 모델링을 위한 훈련용으로 활용

- 검정용(validation data) : 30%의 데이터를 구축된 모형의 과대/과소 추정의 판정 목적으로 활용

- 시험용(test data) : 20%의 데이터를 테스트 데이터나 과거 데이터를 활용하여 모델의 성능 평가에 활용

 

> 데이터의 양이 충분하지 않거나 입력 변수에 대한 설명이 충분한 경우

  • 홀드아웃(hold-out) 방법 : 주어진 데이터를 랜덤하게 두 개의 데이터로 구분하여 사용하는 방법으로 주로 학습용과 시험용으로 분리하여 사용한다
  • 교차확인(cross-validation)방법 : 주어진 데이터를 k개의 하부 집단으로 구분하여 k-1개의 집단을 학습용으로 나머지는 하부집단으로 검증용으로 설정하여 학습한다. k번 반복 측정한 결과를 평균낸 값을 최종값으로 사용한다 주로 10-fold 교차분석을 많이 사용한다

 

5) 모델의 성능 평가

가. 오분류에 대한 추정치

  • 정분류율(Accuracy)

TN+TP / TN+TP+FN+FP

 

  • 오분류율(Error Rate)

1- 정분류율(Accuracy)

 

  • 특이도(Specificity)

TNR : true negative rate

False를 False로 판정하는 정도

TN / FP+TN

 

  • 민감도(Sensitivity)

TPR : true positive rate

True를 True로 판정하는 정도

TP / TP+FN

 

  • 정확도(Precision)

TP / TP+FP

 

  • 재현율(Recall) : 민감도와 같음

 

  • F1 Score

2 * (recision*recall)/(precision+recall) 

 

나. ROCR 패키지로 성과 분석

1) ROC Curve(Receiver Operating Characteristic Curve)

- ROC Curve가로축을 FPR(1-특이도) 값으로 두고, 세로축을 TPR(민감도) 값으로 두어 시각화한 그래프이다

- 2진 분류에서 모형의 성능을 평가하기 위해 많이 사용되는 척도이다

- 그래프가 왼쪽 상단에 가깝게 그려질수록 올바르게 예측한 비율은 높고 잘못 예측한 비율은 낮음을 의미한다 따라서 ROC 곡선 아래의 면적을 의미하는 AUROC 값이 클수록(1에 가까울수록) 모형의 성능이 좋다고 평가한다

 

- TPR 민감도 : 1인 케이스에 대한 1로 예측한 비율

- FPR 1 - 특이도 : 0인 케이스에 대해 1로 잘못 예측한 비율

- AUROC를 이용한 정확도의 판단 기준

 

다. 이익도표(Lift chart)

 

- 이익도표는 분류모형의 성능을 평가하기 위한 척도로 분류된 관측치에 대해 얼마나 예측이 잘 이루어졌는지를 나타내기 위해 임의로 나눈 각 등급별로 반응검출율, 반응률, 리프트 등의 정보를 산출하여 나타내는 도표

- 먼저 데이터셋의 각 관측치에 대한 예측 확률을 내림차순으로 정렬하고 이후 데이터를 10개의 구간으로 나눈 다음 각 구간의 반응율(% response)을 산출한다 또한 기본 향상도(baseline lift)에 비해 반응률이 몇 배나 높은지를 계산하는데 이것을 향상도(Lift)라고 한다

- 이익도표의 각 등급은 예측확률에 따라 매겨진 순위이기 때문에 상위 등급에서는 더 높은 반응률을 보이는 것이 좋은 모형이라고 평가할 수 있다

 

- % Captured Response : 반응검출율 = 해당 등급의 실제 구매자 / 전체 구매자

- % Response : 반응률 = 해당 등급의 실제 구매자 / 200명

- Lift : 향상도 = 반응률 / 기본 향상도

> 좋은 모델이라면 Lift가 빠른 속도로 감소해야 한다

 

  • 과적합 과대적합(overfitting) : 모델이 학습용 데이터를 과하게 학습하여 학습 데이터에 대해서는 높은 정확도를 나타내지만 테스트 데이터 혹은 다른 데이터에 적용할 때는 성능이 떨어지는 현상
  • 과소적합(underfitting) : 모형이 너무 단순하여 데이터 속에 내제되어 있는 패턴이나 규칙을 제대로 학습하지 못하는 경우

 

 

 

 

 

 

1. 데이터마이닝

1) 개요

- 정의 : 대용량 데이터에서 의미 있는 패턴을 파악하거나 예측하여 의사결정에 활용하는 방법

- 통계분석과 차이점 : 가설이나 가정에 따른 분석, 검증을 하는 통계분석과 달리 데이터 마이닝은 다양한 수리 알고리즘을 이용해 데이터베이스의 데이터로부터 의미있는 정보를 추출

- 활용분야 : 분류, 예측, 군집화, 시각화 등

- 방법론 : 의사겨정나무, 로지스틱 회귀분석, 최근접 이웃법, 군집분석, 연관규칙분석 등

 

2) 분석 방법

  • supervised learning(지도학습)

- 의사결정나무(decision tree)

- 인공신경망(artificial neural network)

- 로지스틱 회귀분석(logistic regression)

- 최근접이웃법(k-nearest neighbor)

- 사례기본 추론(case-based reasoning)

 

  • unspervised learning(비지도학습)

- OALP(On-Line Analytic Processing)

- 연관규칙분석(Association Rule Analysis)

- 군집분석(k-Means Clustering)

- SOM(self organizing map)

 

3. 데이터 마이닝 추진 단계

1) 목적 설정 : 데이터 마이닝을 위한 명확한 목적 설정

2) 데이터 준비 : 모델링을 위한 다양한 데이터를 준비, 데이터 정제를 통해 품질을 보장

3) 데이터 가공 : 목적변수 정의, 모델링을 위한 데이터 형식으로 가공

4) 기법 적용 : 데이터 마이닝 기법을 적용하여 정보를 추출

5) 검증 : 마이닝으로 추출한 결과를 검정하고 업무에 적용해 기대효과를 전파

 

 

 

 

+ Recent posts