scrapy 를 사용할 때, start_url에도 긁어야 할 내용이 있는 경우엔 parse_start_url을 오버라이드 해야한다. 기본적으로 start_url은 Rule을 적용하지 않는데, 이 함수를 재정의함으로 첫 페이지부터 크롤링이 시작되도록 한다.
spider 의 class 안에 다음과 같이 넣어주면 된다.
def parse_start_url(self, response):
return self.parse_item(response)
'Computer > Python' 카테고리의 다른 글
[BeautifulSoup]BeautifulSoup에서 UnicodeEncodeError날 때 (0) | 2015.02.05 |
---|---|
크롤러를 만들어봅시다 (1) - Scrapy 설치와 설정 (1) | 2014.07.23 |
Eclipse 로 Python 개발하기 - PyDev (0) | 2014.07.05 |