본문 바로가기

Computer/Python

[BeautifulSoup]BeautifulSoup에서 UnicodeEncodeError날 때



BeautifulSoup으로 작업하다가 다음과 같은 애러를 만났다. \xa0 을 처리할 수 없다는 말인데 뭐지 하다가 구글링 시작


ASCII로 \xa0가 non-breaking space(참고: http://en.wikipedia.org/wiki/Non-breaking_space) 라고 한다. 즉 문장이 안 끝났으니 기다려봐~이쯤 되는데 BS가 이걸 처리하지 못한 것이다. 이는 다음과 같이 replace 와 strip으로 해결해주면 깔끔해진다.


 
d.text.replace(u'\xa0', u' ').strip()