본문 바로가기
데이터 분석

데이터 마이닝4 - 분석 기법 및 모형 평가 -

by ChocoPeanut 2017. 5. 5.

데이터 마이닝4

- 분석 기법 및 모형 평가 -

 

분석 기법 중에서 사례 기반 추론 방법이 있다. 사례 기반 추론은 Case-based Reasoning으로 CBR이라고 불리는데 k-NN 알고리즘을 이용하여 검색된 유사 과거 사례들을 조합하여 새로운 문제에 대한 해를 도출하는 방법이다. 대표적인 예시로 대법원에서 판례집을 이용하는 경우라고 할 수 있다. 기존의 사건들을 일정한 규칙을 통해 case base라는 공간에 보관한다. 만약 새로운 사건이 발생했을 때 case base에 물어보고 어떻게 문제를 해결해야할 지를 결정하는 것을 말한다. 계속해서 다양한 case들이 쌓이게 되면 더욱 유용한 정보를 많이 가지고 있게 되어 더 좋은 결과를 도출할 수 있다.



로지스틱 회귀분석은 두 개의 집단을 분류하는 기준을 찾아내는 기법이다. 두 개의 독립적인 그룹을 나타내는 종속 변수와 이를 설명하기 위한 독립변수들 간의 관계를 잘 표현할 수 있는 모형을 구축하는 방법을 취한다. 다양한 변수들을 기반으로 특정 사건의 유무나 결정에 대해 판단을 하는 것이다. 가장 통계적인 기법이라고 볼 수 있다.


앞 장과 위와 같은 분석 기법들을 사용하고 나면 이에 나타나는 결과에 대해서 정말로 맞는지에 대한 판단을 할 수 있어야한다. 분류 또는 예측 모형의 유용성을 판단하고 상이한 모형들을 서로 비교하여 평가를 하는 것이 필요하다. 이런 과정이 모형 평가이다. 모형 평가는 결과변수를 알고 있는 Supervised learning의 환경에서 사용하게 된다. 분류 모형의 성과 평가는 분류 정확도와 이익도표, ROC 도표를 통해서 나타난다. 예측 모형의 성과 평가는 평균절대오차, 평균 오차, 평균 절대 비율 오차, 평균 제곱 오차의 제곱근, 제곱오차의 총합계로 이루어진다.


분류 정확도는 분류 결과의 정확성을 평가하여 최적의 분류 모형을 선택하는 방법이다. 정분류율, 오분류율, 민감도, 특이도에 따라 나눌 수 있다. 이익 도표는 모형의 결과를 바탕으로 분류 정확도를 측정하는 평가방법이다. 사례를 적게 선택하고 상대적으로 높은 응답자의 비율을 찾음으로써 가장 좋은 성과를 보이는 부분을 효과적으로 찾고자 할 때 유용하다. ROC 도표는 민감도와 특이도를 이용해서 분류의 정확성을 검증하는 방법이다. 민감도는 관심 있는 집단을 정확하게 판별할 수 있게 하는 지표이고 특이도는 중요하지 않은 집단을 정확하게 판별하기 위한 지표이다. 민감도를 높이면 특이도는 줄어 들고, 특이도를 높이면 민감도는 감소한다