본문 바로가기

Computer

크롤링은 신중히! 자나 깨나 ban 조심!

모 사이트를 Scrapy를 사용해 크롤링 하던 중 IP가 블럭되는 사태가 일어났다. 근 1주일동안 400만개 이상의 데이터를 추출해냈으니 그럴 만도 하겠지.....만서도 데이터가 궁한 나는 아쉬운 마음에 Admin에게 메일을 썼다... 하지만 돌아온 답변은 ..ㅠㅠ


Scraping is very likely to result in an IP ban. You're better off not doing any sort of scraping.


네 그렇답니다....distributed 로 짜도 이 정도 양을 긁는 건 한계가 있고...다른 방법을 찾아보든지 해야겠네 후....ㅠ