본문 바로가기

크롤러

Python 을 이용한 간단 크롤러 만들기 Python은 쉽고 빠르고 간단한 코딩에 최적화되어 있다고 말해도 과언이 아니다. 이 글에선 간단하게 Python 크롤러를 만들어 보는 것을 보여주도록 하겠다. 참고. Python 3.5버전 기준이다 우선 크게 세 가지 라이브러리, requests, BeautifulSoup, lxml 이 설치되어있어야 한다. 우선 크롤링(혹은 스크래핑)할 대상을 찾아야 하는데, 여기서는 네이버 실시간 인기검색어 10위를 대상으로 해보자. 자 네이버 오른 쪽에 실시간 급상승 검색어다. 저 위에 커서를 두고 오른쪽 버튼을 누르면 요소검사(HTML문서 내에서 어떻게 표현되고 있나)를 할 수 있다 (는 크롬 기준이다). 보아하니 a태그 사이에 text로 설현이 있다. 하지만 저걸 통으로 가져오면 밑에 있는 span의 text마.. 더보기
크롤러를 만들어봅시다 (1) - Scrapy 설치와 설정 연구 목적으로 데이터를 얻고 싶으나 실제 기업의 데이터나 사내 데이터의 경우 많은 제약사항으로 연구에 사용되지 못하는 경우가 태반이다. 그래서 웹에 존재하는 데이터를 긁어 데이터셋을 만드는 것을 웹 크롤링이라고 한다. 웹 크롤링을 하는 방법은 여러 가지가 있으나, 여기에선 Python과 Scrapy를 이용한 크롤러를 제작해보도록 하겠다. 모든 설치 과정은 windows 기준이다. WARNING: 크롤링을 하는 데에 대한 모든 책임은, 크롤러를 실행하는 당사자에게 있음을 밝힌다. Python 은 편리하고 쉬운 스크립트 언어로 널리 사용되고 있는데, 유독 Python을 사용한 크롤러 모듈들이 많이 개발되어 있다. 그 중 Scrapy는 간단하게!(물론 열심히 공부한 이에게) 크롤링을 할 수 있게 도와준다. 우.. 더보기