BeautifulSoup으로 작업하다가 다음과 같은 애러를 만났다. \xa0 을 처리할 수 없다는 말인데 뭐지 하다가 구글링 시작
ASCII로 \xa0가 non-breaking space(참고: http://en.wikipedia.org/wiki/Non-breaking_space) 라고 한다. 즉 문장이 안 끝났으니 기다려봐~이쯤 되는데 BS가 이걸 처리하지 못한 것이다. 이는 다음과 같이 replace 와 strip으로 해결해주면 깔끔해진다.
d.text.replace(u'\xa0', u' ').strip()
'Computer > Python' 카테고리의 다른 글
Python 을 이용한 간단 크롤러 만들기 (1) | 2015.11.26 |
---|---|
크롤러를 만들어봅시다 (1) - Scrapy 설치와 설정 (1) | 2014.07.23 |
[Scrapy] start_url 부터 긁어야 할 때 (0) | 2014.07.11 |