본문 바로가기

데이터 분석4

데이터 분석 with Python 3장 - Matplotlib를 활용한 데이터 분석 - 데이터 분석 with Python 3장- Matplotlib를 활용한 데이터 분석 - Matplotlib은 numpy 혹은 pandas를 통해 얻은 데이터에 대한 분석 결과를 시각화시키는데 사용하는 라이브러리이다. Matplotlib은 DataFrame 혹은 Series 형태의 데이털르 가지고 다양한 형태의 플록을 만들어 주는 기능을 가지고 있다. Matplotlib를 설치하는 방법은 cmd 프로그램이나 터미널에 pip install matplotlib라는 명령을 입력해주면 쉽게 설치가 가능하다. Matplotlib를 사용하기 위해서는 Python에서 %matplotlib이라는 매직 명령어를 통해 플롯팅 옵션을 먼저 지정해야한다.(ipython에서 사용하는 경우) %matplotlib nbagg를 실행하.. 2017. 6. 11.
데이터 분석 with Python 2장 - Pandas를 활용한 데이터 분석 - 데이터 분석 with Python 2장- Pandas를 활용한 데이터 분석 - Pandas는 교유하게 정의한 Series 및 DataFrame 등의 자료 구조를 활용하여 빅데이터 분석에 있어 우수한 성능을 발휘하는 모듈이다. 기존에 엑셀로 하던 모든 분석을 더 큰 스케일의 데이터에 대하여 더 빠른 속도로 적용할 수 있는 장점을 가지고 있다. Pandas를 설치하는 방법은 cmd 프로그램이나 터미널에 pip install pandas라는 명령을 입력해주면 쉽게 설치가 가능하다. Pandas를 사용하기 위해서는 Python에서 import를 시켜 주어야한다. import Pandas as pd 로 명령을 넣어서 pd라는 이름을 통해 Pandas 모듈을 사용할 수 있는 상태로 만든다. Pandas의 대표적인 .. 2017. 6. 9.
데이터 분석 with Python 1장 - NumPy를 활용한 데이터 분석 - 데이터 분석 with Python 1장- NumPy를 활용한 데이터 분석 - NumPy는 주요한 python 데이터 분석 라이브러리의 기본 베이스가 되는 라이브러리로 벡터 및 행렬 연산과 관련하여 편리한 인터페이스를 제공한다. NumPy를 설치하는 방법은 cmd 프로그램이나 터미널에 pip install numpy라는 명령을 입력해주면 쉽게 설치가 가능하다. NumPy를 사용하기 위해서는 Python에서 import를 시켜 주어야한다. import numpy as np 로 명령을 넣어서 np라는 이름을 통해 numpy 모듈을 사용할 수 있는 상태로 만든다. NumPy는 기본적으로 array라는 단위로 데이터를 관리한다. 이러한 데이터를 활용해서 다양한 연산을 할 수 있고 이를 통해 데이터 분석을 할 수 .. 2017. 6. 9.
데이터 마이닝3 - 데이터 마이닝 분석 기법 - 데이터 마이닝3- 데이터 마이닝 분석 기법 - 데이터 마이닝을 사용하는 분석 기법들의 종류는 다양하다. 이에 대해 간단하게 살펴볼 것이다. 연관 규칙 분석에는 Association Rules이라는 규칙이 있다. Association Rules 대규모의 데이터 항목들 중에서 유용한 연관성과 상관관계를 찾는 기법이다. 상품 또는 서비스간의 관계를 살펴보고, 이로부터 유용한 규칙을 찾아내고자 할 때 이용한다. 함께 구매하는 상품의 조합이나 서비스 패턴을 발견하고 싶을 때 많이 사용하여 장바구니 분석이라고도 불린다. 예를 들어 감자 칩을 구입하는 고객의 40%는 콜라도 함께 구입한다. 목요일 저녁 맥주 구입 고객의 30%는 기저귀도 함께 구입한다. 와 같은 연관성을 분석하는 기법을 말한다. 확률 값을 보고 제일.. 2017. 5. 3.