데이터 마이닝2
- 데이터 마이닝 분석 절차 -
데이터 마이닝 분석 철차에 대해서 알아보도록 하자.
데이터 마이닝 분석하기 위해서 먼저 적용 업무에 대한 정의가 필요하다. 어떠한 업무에 사용하기 위해서 데이터 마이닝을 사용하는지에 대해 먼저 판단을 만들어야 한다. 그 후 어떤 데이터를 사용할지를 선택해야한다. 원천 데이터를 선택하는 것이다. 데이터를 선택한 후 이 데이터로부터 우리가 직접적으로 사용하고자 하는 데이터를 끄집어 내야한다. 데이터 클리닝, 코딩, Enrichment 등을 통해 원천 데이터로부터 우리가 직접 사용하고자 하는 데이터를 가지고 나와야한다. 이 후 데이터 마이닝 툴을 선정한다. 데이터 마이닝을 하는 방법에는 여러 가지 방법이 있다고 했다. 이러한 통계적 다양한 방법들 중 우리 데이터에 맞는 방법을 사용하기 위한 툴을 선정을 해야 한다. 이런 과정을 거치면 데이터 마이닝을 수행하면 된다. 데이터 마이닝을 수행하고 나면 피드백을 통해 다시 클리닝 과정을 거칠 수가 있고 결과가 잘 나온다면 결과 도출을 통해 업무에 적용시키면 된다.
위의 과정을 세분화하여 분석해보도록 하자.
적용 업무를 정의하는 단계는 어떤 문제를 가장 먼저 해결하고 어떤 결과를 얻을 것인지 목표를 설정하는 단계이다. 적용업무의 범위가 특정한 분야로 한정되는 것이 성공가능성이 높아진다. 현재 가지고 있는 데이터의 종류가 무엇인가, 그 데이터의 성격은 무엇인가를 판단해야한다. 분석 목적을 위해 다양한 질문을 해 보아야한다. 연관성 분석이나 순차 유사성 분석을 할 수도 있고 분류나 트랜드를 분석하는 목적이 될 수가 있다.
데이터 선택 단계는 마이닝이 되어질 데이터베이스를 선택을 한다. 여기서는 원천 데이터를 가져오는 것을 말한다. 이러한 데이터들은 데이터 변환 작업이 필요하다.
우리가 원하는 데이터를 끄집어내는 단계가 있다. 그 중 데이터 클리닝은 부정확한 값이나 중복된 레코드를 삭제하는 과정이다. 정확한 데이터를 사용하지 않으면 정확한 결과를 얻지 못하기 때문에 제거를 해야 한다. 패턴 분석 기술을 이용하거나 사용자에게 결정을 맡기는 형태로 중복을 제거해야한다. 만약 NULL 값이 있다면 대체하거나 정확한 Domain Value로 변환을 해야 한다. Enrichment는 데이터에 더 자세한 정보를 담기 위해 기존의 데이터에 새 정보를 첨가하거나 연결하는 방식을 말한다. 데이터베이스에서 데이터를 관리할 때는 정규화 과정을 통해 중복을 제거하게 되는데 데이터 마이닝에서는 주제에 맞게 하나의 테이블로 만들어야 하므로 중복이 가능하게 된다. 따라서 새로운 데이터를 틀에 끼워 넣을 필요가 생기게 되고 Enrichment를 통해 기능을 수행한다. 다른 방법은 코딩인데 코딩은 분석에 불필요한 데이터 삭제, 기존 필드들도 필요에 따라 정리, 조정하는 방법을 말한다. 데이터 마이닝 기법은 통계학적 기법이므로 모든 정보들을 숫자화 시켜 주어야한다. 따라서 각각의 정보에 코드화 시켜 분석을 하는 것을 의미한다. 위의 세 가지 과정은 하나만 동작하는 게 아니라 다 같이 동작하여서 데이터를 만들어야한다.
이후 데이터 마이닝 툴을 선정하는 단계가 있다. 업무 성격과 데이터 구조에 알맞은 마이닝 모델과 도구를 선정해야한다. 분석 결과를 어떤 형식으로 표시할 것인가를 결정하고 마이닝 모델을 구축한다. 데이터 마이닝 툴을 선정하는 기준으로는 한 번에 얼마나 많은 데이터를 다룰 수 있는가? 얼마나 많은 전처리 과정을 필요로 하는가? 시스템이 분석 결과를 규칙, 모델, 결정 트리, 숫자들로 나타내는가? 새 정보가 필요할 때 모델을 얼마나 쉽게 변경할 수 있는가? 등등으로 나타낼 수 있다.
마지막으로 결과 분석 단계이다. 분석 결과가 적용 업무에 부합되는지 판단하기 위한 단계로 잘못된 결과를 찾아 원인을 분석하고 다시 새 모델을 구축하는 피드백 과정을 가진다. 만약 맞은 결과를 도출했을 경우 분석 결과를 사용자에게 쉽게 전달하기 위해 데이터 시각화 도구나 Reporting 툴, 차트 등을 사용할 수 있다.
'데이터 분석' 카테고리의 다른 글
데이터 분석 with Python 2장 - Pandas를 활용한 데이터 분석 - (0) | 2017.06.09 |
---|---|
데이터 분석 with Python 1장 - NumPy를 활용한 데이터 분석 - (0) | 2017.06.09 |
데이터 마이닝4 - 분석 기법 및 모형 평가 - (0) | 2017.05.05 |
데이터 마이닝3 - 데이터 마이닝 분석 기법 - (0) | 2017.05.03 |
데이터 마이닝 1장 - 데이터 마이닝 기초 지식 - (0) | 2017.04.29 |