데이터 마이닝
정보화 시대에서 가장 큰 이슈는 바로 빅데이터이다. 엄청나게 많은 자료가 인터넷이라는 매체를 통해 쏟아져 나온다. 엄청나게 큰 도서관조차도 인터넷의 빅데이터 앞에서는 매우 초라해질 수밖에 없다. 21세기 기업에게 가장 중요한 자산은 바로 데이터이며 이를 관리하고 여기서 가자치를 이끌어내는 기업만이 살아남을 수 있는 시대가 된 것이다. 빅데이터의 주된 특징으로는 크기, 다양성, 속도가 꼽혔다. 단순히 양이 많다고 해서 빅데이터가 되는 것이 아니다. 물론 물리적 크기가 큰 데이터가 빅데이터이지만 그 뿐만 아니라 데이터의 형태가 다양성을 가지고 다양성에 따른 기술을 확보해야한다. 또한 데이터의 처리 능력인 속도가 매우 중요한 역할을 하고 있다. 많은 데이터를 가지고만 있고 처리할 능력이 없다면 그건 쓸모없는 데이터가 될 뿐이기 때문이다. 그래서 현재에는 데이터 그 자체만이 아니라 데이터를 효과적으로 처리하고 분석할 수 있는 기술에 초점이 맞춰지고 있다. 이러한 기술 중 하나가 바로 데이터 마이닝이라고 할 수 있다.
데이터 마이닝은 대용량의 데이터 속에서 유용한 정보를 발견하는 과정이며, 기대했던 정보뿐만 아니라 기대하지 못했던 정보를 찾을 수 있는 기술을 의미한다. 다양한 통계적 기법, 수학적 기법과 인공지능을 활용한 패턴인식 기술 등을 이용하여 데이터 속에서 유용한 관계, 규칙 패턴 등에 대한 규칙을 발견하는 것이다. 정보의 연관성을 파악함으로써 가치 있는 정보를 만들어 의사 결정에 적용함으로써 이익을 극대화시킬 수 있다.
데이터 마이닝의 데이터 분석 방법(알고리즘)은 다양하게 있다.
∙분류 :
일정한 집단에 대한 특정 정의를 통해 분류 및 구분을 추론한다.
∙군집화 :
국체적인 특성을 공유하는 군집을 찾는다. 군집화는 미리 정의된 특성에 대한 정보를 가지지 않는다는 점에서 분류와 다르다.
∙연관성 :
동시에 발생한 사건간의 관계를 정의한다.
∙연속성 :
특정 기간에 걸쳐 발생하는 관계를 규명한다. 기간의 특성을 제외하면 연관성 분석과 유사핟.
∙예측 :
대용량 데이터집합내의 패턴을 기반으로 미래를 예측한다.
위와 같은 분석 알고리즘은 조금 더 세분화된 알고리즘들로 나누어지게 된다. 각각의 특성에 맞게 데이터를 분석하는 방법을 가지게 된다. 데이터 마이닝이 적용되고 있는 분야도 다양하다. 마케팅 쪽에서도 고객 평가나 관리를 하는 과정에서 수많은 데이터를 모아 요구 사항에 대한 결과를 도출시키는 작용을 하고 인공지능 분야에서도 딥 러닝을 하는 경우 기계가 엄청나게 많은 정보를 학습하는 과정에서 데이터 마이닝은 필수적으로 사용되는 기술 중 하나이다. 또한 검색 엔진에서도 수많은 데이터에 대해 검색어가 요구하는 사항을 뽑아서 나타낼 수 있는 방법으로 데이터 마이닝을 사용한다.
하지만 데이터 마이닝에도 문제점이 발생할 수 있다. 데이터 마이닝의 알고리즘을 너무 신용하면 실제와 다르더라도 결과로 도출된 데이터에 대한 신용도가 너무 높아질 수 있다. 자료에 의존하여 현상을 해석하고 개선하려고 하기 때문에 자료가 현실을 충분히 반영하지 못한 상태에서 정보를 추출한 모형을 개발할 경우 잘못된 모형을 구축하는 오류를 범할 수가 있다. 그래서 더욱 실제와 비슷한 모형을 구축하도록 노력을 해야 한다.
아직 우리나라에서는 데이터 마이닝 기술이 많이 적용되지는 못하였지만 빅데이터 시대에 우리가 살아가면서 데이터 처리 기술인 데이터 마이닝 기술은 조건이 아니고 필수가 될 것이다.
'IT story' 카테고리의 다른 글
도메인 등록 방법 (0) | 2017.04.18 |
---|---|
IT 브랜드 가치 순위 : 1위~5위 (2017년 기준) (0) | 2017.04.16 |
집에서 IT 공부하기 (0) | 2017.04.14 |
컴퓨터 전공 공부 방식 (0) | 2017.04.14 |
파이썬(Python) 소개 (0) | 2017.04.13 |