본문 바로가기

데이터 마이닝6

인공지능 2장 - 인공지능 소개 (2) - 인공지능 2장- 인공지능 소개 (2) - 앞선 장에서는 인공지능의 정의와 역사에 대해서 살펴보았다. 이번 장에서는 인공지능의 요소 기술과 주요 응용분야에 대해서 살펴볼 것이다. 인공지능 요소 기술로는 탐색이 있을 수 있다. 탐색은 문제의 답이 될 수 있는 것들의 집합을 공간으로 간주하고 문제 대한 최적의 해를 찾기 위해 공간을 체계적으로 찾아보는 것을 의미한다. 탐색 방법에는 너비 우선 탐색이나 깊이 우선 탐색을 의미하는 무정보 탐색이 있고 경험적인 정보를 바탕으로 탐색하는 휴리스틱 탐색이 있다. 대표적인 휴리스틱 탐색의 알고리즘으로 A* 알고리즘이 존재한다. 또한 게임 트리 탐색으로 mini-max 알고리즘, pruning 알고리즘, 몬테카를로 트리 탐색 등의 방법을 통해 탐색을 진행한다. 몬테카를로 .. 2017. 5. 13.
데이터 마이닝4 - 분석 기법 및 모형 평가 - 데이터 마이닝4- 분석 기법 및 모형 평가 - 분석 기법 중에서 사례 기반 추론 방법이 있다. 사례 기반 추론은 Case-based Reasoning으로 CBR이라고 불리는데 k-NN 알고리즘을 이용하여 검색된 유사 과거 사례들을 조합하여 새로운 문제에 대한 해를 도출하는 방법이다. 대표적인 예시로 대법원에서 판례집을 이용하는 경우라고 할 수 있다. 기존의 사건들을 일정한 규칙을 통해 case base라는 공간에 보관한다. 만약 새로운 사건이 발생했을 때 case base에 물어보고 어떻게 문제를 해결해야할 지를 결정하는 것을 말한다. 계속해서 다양한 case들이 쌓이게 되면 더욱 유용한 정보를 많이 가지고 있게 되어 더 좋은 결과를 도출할 수 있다. 로지스틱 회귀분석은 두 개의 집단을 분류하는 기준을 .. 2017. 5. 5.
데이터 마이닝3 - 데이터 마이닝 분석 기법 - 데이터 마이닝3- 데이터 마이닝 분석 기법 - 데이터 마이닝을 사용하는 분석 기법들의 종류는 다양하다. 이에 대해 간단하게 살펴볼 것이다. 연관 규칙 분석에는 Association Rules이라는 규칙이 있다. Association Rules 대규모의 데이터 항목들 중에서 유용한 연관성과 상관관계를 찾는 기법이다. 상품 또는 서비스간의 관계를 살펴보고, 이로부터 유용한 규칙을 찾아내고자 할 때 이용한다. 함께 구매하는 상품의 조합이나 서비스 패턴을 발견하고 싶을 때 많이 사용하여 장바구니 분석이라고도 불린다. 예를 들어 감자 칩을 구입하는 고객의 40%는 콜라도 함께 구입한다. 목요일 저녁 맥주 구입 고객의 30%는 기저귀도 함께 구입한다. 와 같은 연관성을 분석하는 기법을 말한다. 확률 값을 보고 제일.. 2017. 5. 3.
데이터 마이닝2 - 데이터 마이닝 분석 절차 - 데이터 마이닝2- 데이터 마이닝 분석 절차 - 데이터 마이닝 분석 철차에 대해서 알아보도록 하자. 데이터 마이닝 분석하기 위해서 먼저 적용 업무에 대한 정의가 필요하다. 어떠한 업무에 사용하기 위해서 데이터 마이닝을 사용하는지에 대해 먼저 판단을 만들어야 한다. 그 후 어떤 데이터를 사용할지를 선택해야한다. 원천 데이터를 선택하는 것이다. 데이터를 선택한 후 이 데이터로부터 우리가 직접적으로 사용하고자 하는 데이터를 끄집어 내야한다. 데이터 클리닝, 코딩, Enrichment 등을 통해 원천 데이터로부터 우리가 직접 사용하고자 하는 데이터를 가지고 나와야한다. 이 후 데이터 마이닝 툴을 선정한다. 데이터 마이닝을 하는 방법에는 여러 가지 방법이 있다고 했다. 이러한 통계적 다양한 방법들 중 우리 데이터에.. 2017. 5. 2.
데이터 마이닝 1장 - 데이터 마이닝 기초 지식 - 데이터 마이닝 1장- 데이터 마이닝 기초 지식 - 마이닝이라고 하는 것은 광부가 광산에서 석탄과 같은 것을 캐는 과정을 말한다. 결과적으로 데이터 마이닝이라고 하는 것은 기업의 특정한 데이터들로부터 무언가를 캐내는 것을 의미한다. 그러면 여기서 무엇을 깨낼 것인가? 바로 새로운 지식에 대해서 알아내는 것이다. 이렇게 기존에 있던 데이터들로 새로운 지식을 캐어내는 것을 데이터 마이닝이라고 한다. 데이터 마이닝을 하는 기법에는 여러 가지 종류가 있다. 크게 두 가지로 나눌 수 있다. 자율학습 분석기법과 지도학습 분석기법이 있다. 데이터 마이닝의 예시를 보게 되면 추천 제도를 들 수 있다. A라는 사람이 쇼핑 사이트에서 여러 가지 제품을 구매 했는데 이에 대해 기업은 데이터를 모으게 된다. 기업은 이를 이용해.. 2017. 4. 29.
데이터 마이닝 데이터 마이닝 정보화 시대에서 가장 큰 이슈는 바로 빅데이터이다. 엄청나게 많은 자료가 인터넷이라는 매체를 통해 쏟아져 나온다. 엄청나게 큰 도서관조차도 인터넷의 빅데이터 앞에서는 매우 초라해질 수밖에 없다. 21세기 기업에게 가장 중요한 자산은 바로 데이터이며 이를 관리하고 여기서 가자치를 이끌어내는 기업만이 살아남을 수 있는 시대가 된 것이다. 빅데이터의 주된 특징으로는 크기, 다양성, 속도가 꼽혔다. 단순히 양이 많다고 해서 빅데이터가 되는 것이 아니다. 물론 물리적 크기가 큰 데이터가 빅데이터이지만 그 뿐만 아니라 데이터의 형태가 다양성을 가지고 다양성에 따른 기술을 확보해야한다. 또한 데이터의 처리 능력인 속도가 매우 중요한 역할을 하고 있다. 많은 데이터를 가지고만 있고 처리할 능력이 없다면 .. 2017. 4. 14.