데이터 마이닝 1장
- 데이터 마이닝 기초 지식 -
마이닝이라고 하는 것은 광부가 광산에서 석탄과 같은 것을 캐는 과정을 말한다. 결과적으로 데이터 마이닝이라고 하는 것은 기업의 특정한 데이터들로부터 무언가를 캐내는 것을 의미한다. 그러면 여기서 무엇을 깨낼 것인가? 바로 새로운 지식에 대해서 알아내는 것이다. 이렇게 기존에 있던 데이터들로 새로운 지식을 캐어내는 것을 데이터 마이닝이라고 한다. 데이터 마이닝을 하는 기법에는 여러 가지 종류가 있다. 크게 두 가지로 나눌 수 있다. 자율학습 분석기법과 지도학습 분석기법이 있다.
데이터 마이닝의 예시를 보게 되면 추천 제도를 들 수 있다. A라는 사람이 쇼핑 사이트에서 여러 가지 제품을 구매 했는데 이에 대해 기업은 데이터를 모으게 된다. 기업은 이를 이용해서 사례 분석 기법 등을 사용해서 이 고객에게 추천할 상품을 메인에 홍보를 시키는 것이다. 이는 고객마다 다르게 데이터를 관리하여 서비스를 제공하는 형태이다. 크게 시스템의 형태로 보게 되면 데이터베이스 검색 시스템에서 데이터를 보관한다. 이를 분석 시스템을 통해 고객이 구매한 상품에 대해 분석을 진행한다. 이후 데이터 마이닝 시스템은 다음에 고객이 무엇을 구매하게 될 것인지를 유추하여 나타내어 주는 과정을 하는 것이다.
데이터 마이닝을 정확하게 정의하면 대량의 데이터 집합으로부터 유용한 정보를 추출하는 것을 의미한다. 대량의 데이터 집합은 데이터 웨어하우스에 존재한다. 데이터 웨어하우스는 엄청나게 많은 데이터를 축척하고 있는 공간이다. 데이터베이스와 착각할 수 있는데 데이터베이스는 현재 사용하고 있는 데이터를 관리하는 공간으로 우리가 건드리면 안 되는 공간이다. 데이터 마이닝 기법은 데이터 웨어하우스를 기반으로 하는 작업이다. 의미 있는 패턴과 규칙을 발견하기 위해서 자동화되거나 반자동화된 도구를 이용하여 대량의 데이터를 탐색하고 분석하는 과정이다. 더욱 상세하게는 통계 및 수학적 기술뿐만 아니라 패턴인식 기술들을 이용하여 데이터 저장소에 저장된 대용량의 데이터를 조사함으로써 의미 있는 새로운 상관관계, 패턴, 추세 등을 발견하는 과정이라고 할 수 있다.
데이터 마이닝이 활성화된 요인은 여러 가지가 있다. 현재 대용량의 데이터를 축적할 수 있는 데이터 웨어하우스가 도입되어 있고 큰 규모의 데이터를 분석할 수 있는 소프트웨어 툴과 컴퓨팅 능력이 증대되었다. 또한 시장 환경에서도 고객에 적합한 정보를 주는 마케팅을 위해 데이터 마이닝의 기술이 필수적이다.
데이터 마이닝은 통계학과 기계 학습을 합쳐 놓은 기술이다. 전통적인 통계는 나름대로 지식을 가지고 가정을 만들어서 이 가정에 맞는지 아닌지를 분석하는 방법이다. 하지만 데이터 마이닝은 현실적인 데이터에 대한 가정이 없고 미래를 예측하는 데 주 목적을 두는 기술이다. 아무런 가정 없이 데이터만 가지고 새로운 지식을 생성한 후 이 지식에 대해 어떻게 적용할지를 의논하는 과정이 따로 필요하다. 알고리즘이 비선형성에 기반을 두고 있고 모형에 대해 Robust한 결과를 제공한다.
'데이터 분석' 카테고리의 다른 글
데이터 분석 with Python 2장 - Pandas를 활용한 데이터 분석 - (0) | 2017.06.09 |
---|---|
데이터 분석 with Python 1장 - NumPy를 활용한 데이터 분석 - (0) | 2017.06.09 |
데이터 마이닝4 - 분석 기법 및 모형 평가 - (0) | 2017.05.05 |
데이터 마이닝3 - 데이터 마이닝 분석 기법 - (0) | 2017.05.03 |
데이터 마이닝2 - 데이터 마이닝 분석 절차 - (0) | 2017.05.02 |