[Scrapy] start_url 부터 긁어야 할 때

scrapy 를 사용할 때, start_url에도 긁어야 할 내용이 있는 경우엔 parse_start_url을 오버라이드 해야한다. 기본적으로 start_url은 Rule을 적용하지 않는데, 이 함수를 재정의함으로 첫 페이지부터 크롤링이 시작되도록 한다.

spider 의 class 안에 다음과 같이 넣어주면 된다.

def parse_start_url(self, response):

return self.parse_item(response)

[BeautifulSoup]BeautifulSoup에서 UnicodeEncodeError날 때 (0)	2015.02.05
크롤러를 만들어봅시다 (1) - Scrapy 설치와 설정 (1)	2014.07.23
Eclipse 로 Python 개발하기 - PyDev (0)	2014.07.05

생각서랍