5장_4절 연관분석2
4) 특징
절차
- 최소 지지도 선정(보통 5%)
- 최소 지지도를 넘는 품목 분류
- 2가지 품목 집합 생성
- 반복 수행으로 빈발품목 집합 선정
장점과 단점
장점
- 탐색적인 기법 : 조건 반응으로 표현되는 연관성 분석 결과를 쉽게 이해할 수 있음
- 강력한 비목적성 분석 기법 : 분석 방향이나 목적이 특별이 없는 경우 목적변수가 없으므로 유용하게 활용됨
- 사용이 편리한 분석 데이터의 형태 : 거래 내용에 대한 데이터를 변환 없이 그 자체로 이용
- 계산의 용이성 : 분석을 위한 계산이 상당히 간단
단점
- 상당한 수의 계산 과정 : 품목 수가 증가하면 분석에 필요한 계산은 기하급수적으로 늘어남
- 적절한 품목의 결정 : 너무 세분화한 품목을 갖고 연관성 규칙을 찾으면 수많은 연관성 규칙들이 발견되겠지만 실제로 발생 비율 면에서 의미 없는 분석이 될 수도 잇음
- 품목의 비율 차이 : 사용될 모든 품목들 자체가 전체자료에서 동일한 빈도를 갖는 경우 연관성 분석은 가장 좋은 결과를 얻음. 그러나 거래량이 적은 품목은 당연히 포함된 거래수가 적을 것이고 규칙 발견 과정에서 제외되기가 쉬움
5) 평가기준 적용시 주의점
- 두 항목의 신뢰도가 높다고 해서 꼭 두 항목이 높은 연관관계가 있는 것은 아님(지지도를 함께 고려)
- 만일 두 항목의 신뢰도가 높게 나왔어도 전체 항목 중 두 항목의 동시 구매율인 지지도가 낮게 나온다면 두 항목간 연관성을 신뢰하기에는 부족한 점이 있음
- 즉, 구매율 자체가 낮은 항목이기에 일반적인 상관관계로 보기엔 어려움
- 지지도와 신뢰도가 모두 높게 나왔더라도 꼭 두 항목이 높은 연관관계가 있는 것은 아님(향상도를 함께 고려)
- 일반적으로 빈번하게 구매되는 항목들에 대해서는 지지도와 신뢰도가 높게 나올 수 있음
- A,B 두 항목의 신뢰도(Confidence(A->B))가 높게 나왔을 때, 전체 거래에서 B의 자체 구매율보다 A자체 구매율이 더 높아야 의미있는 정보임
6) Apriori 알고리즘
- 최소 지지도보다 큰 지지도 값을 갖는 품목의 집합을 빈발항목집합이라고 한다. Apriori 알고리즘은 모든 품목 집합에 대한 지지도를 전부 계산하는 것이 아니라 최소 지지도 이상의 빈발항목집합을 찾은 후 그것들에 대해서만 연관 규칙을 계산하는 것이다
- Apriori는 1세대 알고리즘으로 구현과 이해하기가 쉽다는 장점이 있으나 지지도가 낮은 후보 집합 생성시 아이템의 개수가 많아지면 계산 복잡도가 증가한다는 문제점을 가지고 있다
- 어떤 항목집합이 빈발한다면 그 항목집합의 모든 부분집합도 빈발; 어떤 항목집합의 지지도는 그 부분집합들의 지지도를 넘을 수 없음
7) FP-Growth 알고리즘
후보 빈발항목집합을 생성하지 않고, FP-Tree를 만든 후 분할 정복 방식을 통해 Apriori 알고리즘보다 더 빠르게 빈발항목집합을 추출할 수 있는 방법이다. Apriori 알고리즘의 약점을 보완하기 위해 고안된 것으로 데이터베이스를 스캔하는 횟수가 작고 빠른 속도로 분석이 가능하다