데이터 마이닝3
- 데이터 마이닝 분석 기법 -
데이터 마이닝을 사용하는 분석 기법들의 종류는 다양하다. 이에 대해 간단하게 살펴볼 것이다.
연관 규칙 분석에는 Association Rules이라는 규칙이 있다. Association Rules 대규모의 데이터 항목들 중에서 유용한 연관성과 상관관계를 찾는 기법이다. 상품 또는 서비스간의 관계를 살펴보고, 이로부터 유용한 규칙을 찾아내고자 할 때 이용한다. 함께 구매하는 상품의 조합이나 서비스 패턴을 발견하고 싶을 때 많이 사용하여 장바구니 분석이라고도 불린다. 예를 들어 감자 칩을 구입하는 고객의 40%는 콜라도 함께 구입한다. 목요일 저녁 맥주 구입 고객의 30%는 기저귀도 함께 구입한다. 와 같은 연관성을 분석하는 기법을 말한다. 확률 값을 보고 제일 높은 확률 값을 놓고 결과를 분석하는 것이다.
연관 규칙 분석에 다른 분석으로 Sequential Pattern Rules이 있다. 일련의 사건이나 거래가 순서를 갖고 일어나는 규칙을 발견하는 분석을 말한다. 순서에 중점을 두어 분석하는 것이다. 상품 A와 함께 구매할 가능성이 높은 상품을 추천하면서 쿠폰이나 카탈로그를 제공하는 형태를 말한다. 연관성이 있는 상품을 함께 진열하여 구매를 활성화하고 고객의 움직임을 축소시키는 방식으로 결과가 나오게 된다. Association rules은 하나의 장바구니에 무엇이 같이 담겨 있느냐가 중점이고 Sequential Pattern Rules은 어떠한 순서로 장바구니에 담는가에 대한 정보를 나타낸다.
군집 분석은 집단 또는 범주에 대한 사전 정보가 없는 데이터의 경우, 주어진 관측값을 사용하여 전체를 몇 개의 유사한 집단으로 그룹화하여 각 집단의 성격을 파악하기 위한 기법이다. 모집단을 미리 정의되어 있지 않은 부분집합으로 분류를 하는 것이다. 클러스터링이 끝난 후에야 그룹의 특성을 파악할 수 있다. 각 개체간의 유사도를 측정하기 위해 거리함수를 이용하여 군집 분석을 실행한다. 군집 분석의 방법으로 계층적 방법은 K-means 군집 분석이 있고 비 계층적 방법으로 병합적인 방법, 분할적인 방법이 있다.
분류라고 하는 분석에는 의사 결정 나무라는 기법이 존재한다. 의사 결정 규칙을 나무구조로 도표화하여 분류 및 예측을 수행하는 분석을 의미한다. 노드와 가지로 구성되어 있고 각 노드는 변수를 의미하는데 마지막 노드는 결과 값을 의미하게 된다. 어떤 특정 분류를 구분하기 위해 어떤 기준으로 나누어 들어갈 것인가에 대해 질문이 나무의 형태로 형성되어 있는 것이다. 나무에서 내려오면 내려올수록 더 세분화 되어서 나누어지게 될 것이다. 마지막 노드에 도착하면 우리가 선택한 데이터가 어떤 분류에 속하는지를 알 수 있게 된다.
군집 분석과 분류의 차이는 분류는 그룹의 수와 특성이 미리 정해져 있지만 군집의 경우 그룹의 수와 특성이 미리 정해져 있지 않는다.
인공신경망이라는 분석이 있다. 인간이 의사결정을 위하여 사고하는 방식을 컴퓨터에서도 구현하기 위하여 개발된 방법으로 인간 두뇌구조와 유사한 지도학습 방법을 수행하는 기법을 의미한다. 뇌신경망의 원리를 이용, 데이터에 숨어 있는 패턴을 찾아 문제 해결을 한다. 학습을 통하여 데이터들 간의 패턴 혹은 관계를 습득하여 이를 통해 결과를 도출한다. 인공신경망은 크게 세 부분의 Layer인 Input, Hidden, Output Layer로 나누게 된다. 각 Node들 간은 Weight(연결 강도)로 연결되어 있으며, 학습 과정은 Weight를 조절하는 과정이다.
'데이터 분석' 카테고리의 다른 글
데이터 분석 with Python 2장 - Pandas를 활용한 데이터 분석 - (0) | 2017.06.09 |
---|---|
데이터 분석 with Python 1장 - NumPy를 활용한 데이터 분석 - (0) | 2017.06.09 |
데이터 마이닝4 - 분석 기법 및 모형 평가 - (0) | 2017.05.05 |
데이터 마이닝2 - 데이터 마이닝 분석 절차 - (0) | 2017.05.02 |
데이터 마이닝 1장 - 데이터 마이닝 기초 지식 - (0) | 2017.04.29 |