爬虫放在 scrapinghub 还是会被 ban

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› virtualenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› Pyflakes

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 3194 天前的主题，其中的信息可能已经有所发展或是发生改变。

DOWNLOAD_DELAY 设置为 7 ， COOKIES_ENABLED=False ， rotate user agent 。不管用。 deploy 到 scrapinghub 上也只有前 100 个 request 可以。还有什么防 ban 的方法.

6 条回复 • 2019-02-13 13:45:34 +08:00

binux

2016-03-21 07:53:07 +08:00

找 scrapinghub 客服

rebornix

2016-03-21 19:56:48 +08:00

scrapinghub 当然不管你是否被 Ban 啊，这个服务又不是管这个的。。。

他们会告诉你用他们的 CRAWLERA

lbfeng

2016-03-21 21:23:59 +08:00

@rebornix 免费的果然不好使

rebornix

2016-03-21 22:23:37 +08:00

@lbfeng 主要还是看业务需求，他们提供 hosting ，避免被 Ban 要好好优化代码以及多 IP 。前者他们帮不了，后者还是可以做的，一门好生意。

hanbingtel

2016-03-25 06:31:43 +08:00

最好丢个测试地址，大家研究下哈！！看是否能突破。

AceDogs

2019-02-13 13:45:34 +08:00

你要知道 scrapinghub 和你的爬虫被封没关系，封禁可能是对方网站的策略问题，你还是要考虑如果不被封锁，他们也提供了一个牛逼的代理服务叫 crawlera，这个就是专门干这事的。当然不同的网站有不同的封禁的方案，你还是看在代码中去好好控制一下的。