본문 바로가기

2017/07/132

웹 크롤링 with Python 4장 웹 크롤링 with Python 4장 웹 크롤링을 통해 자연어를 읽고 쓰는 기능을 수행할 수 있다. 이는 웹 크롤링 파트에서 데이터를 분석하는 부분에 속한다고 볼 수 있다. 웹에서 자연어로 구성된 데이터를 가지고 와서 이를 우리가 원하는 결과물로 바꾸어주는 과정을 의미한다. 또한 일반적으로 구글이나 네이버와 같은 검색 엔진을 통해 우리가 원하는 정보를 찾는데 이런 과정이 어떻게 진행하는지에 대해서도 알 수 있게 된다. 검색창에 자연어를 입력하였는데 어떻게 해서 우리가 원하는 결과물로 잘 도달할 수 있는지가 바로 웹 크롤링의 과정에 속하게 된다. 우선 웹 상에 있는 자연어 데이터에는 불필요한 정보들이 매우 많다. 우리는 이러한 정보를 정리하고 필요한 정보만을 추출할 필요가 있다. 그래서 n-그램의 방법과 .. 2017. 7. 13.
C++ 프로그램 디자인 C++ 프로그램 디자인 코딩에 들어가기 전에 디자인 내용을 형식화하면 각 부분을 어떻게 연결할지 결정하는 데 도움을 준다. 비슷한 부분이 많은 코드를 하나로 묶어서 코드가 지저분해 지는 것을 막을 수도 있게 된다. 또한 다른 시스템과 연동을 할 때에도 이를 염두 해 두고 코드를 짜는 것과 코드를 우선적으로 짜고 나서 연동할 때에는 크게 차이가 발생하게 된다. C++ 언어는 너무나 많은 기능이 들어가 있다. 객체, 연산자 오버로딩, 예외 처리, 템플릿 등등 여러 다른 기능이 공존하고 있어 디자인 작업을 하는데 어려움을 겪는다. 또한 공용 코드와 재사용 코드를 설계할 수 있는 많은 기능이 있어 디자인을 하는데 신경을 많이 써야한다. C++ 언어에서 근간이 되는 디자인 원칙은 추상화와 재사용이다. 추상화는 내.. 2017. 7. 13.