'파이선' 태그의 글 목록

본문 바로가기

파이선

Python 을 이용한 간단 크롤러 만들기 Python은 쉽고 빠르고 간단한 코딩에 최적화되어 있다고 말해도 과언이 아니다. 이 글에선 간단하게 Python 크롤러를 만들어 보는 것을 보여주도록 하겠다. 참고. Python 3.5버전 기준이다 우선 크게 세 가지 라이브러리, requests, BeautifulSoup, lxml 이 설치되어있어야 한다. 우선 크롤링(혹은 스크래핑)할 대상을 찾아야 하는데, 여기서는 네이버 실시간 인기검색어 10위를 대상으로 해보자. 자 네이버 오른 쪽에 실시간 급상승 검색어다. 저 위에 커서를 두고 오른쪽 버튼을 누르면 요소검사(HTML문서 내에서 어떻게 표현되고 있나)를 할 수 있다 (는 크롬 기준이다). 보아하니 a태그 사이에 text로 설현이 있다. 하지만 저걸 통으로 가져오면 밑에 있는 span의 text마.. 더보기

[Scrapy] start_url 부터 긁어야 할 때 scrapy 를 사용할 때, start_url에도 긁어야 할 내용이 있는 경우엔 parse_start_url을 오버라이드 해야한다. 기본적으로 start_url은 Rule을 적용하지 않는데, 이 함수를 재정의함으로 첫 페이지부터 크롤링이 시작되도록 한다. spider 의 class 안에 다음과 같이 넣어주면 된다. def parse_start_url(self, response): return self.parse_item(response) 더보기

이전 1 다음

티스토리툴바