单台机器跑的太慢
打算买几台一个月的 vps,有这方面的经验的兄弟说一下哪家比较好
:)
1
tadtung 2016-05-29 17:52:33 +08:00
国内的话 BAT 3 家首选,,,也可以独服,,不过价格。。。。
剩下景安等也可以。。。 国外就很多选择了也便宜。。。。采集、爬虫的话可以用国外 vps ,,最好可以上独服。。 |
2
aljun 2016-05-29 18:10:25 +08:00 via iPhone
我爬过⋯⋯其实慢主要是知乎网速和他的 server 太慢⋯⋯
|
3
zoudeze 2016-05-29 18:12:36 +08:00 via iPhone
家里的百兆宽带不是更好?
|
7
ljcarsenal 2016-05-29 18:32:38 +08:00
爬到的数据干嘛用呢
|
8
UnisandK 2016-05-29 18:34:29 +08:00
弄个 ADSL 拨号的吧
K 总的 20IP 小鸡可以去 loc 看看能不能收到 |
9
Ouyangan 2016-05-29 18:35:02 +08:00
上次四个小时,才爬了三十万用户数据 , 我的代码太渣,哈哈哈哈
|
10
Ouyangan 2016-05-29 18:35:09 +08:00
第二天就被封了
|
11
TheCure 2016-05-29 18:37:41 +08:00
为啥不试试百度开放云 BCE 浮动 IP 被封了释放换一个就好了(逃
|
14
Goheing 2016-05-29 19:19:35 +08:00
开 Tor 爬~~
|
15
YUX 2016-05-29 19:22:40 +08:00 via iPhone
自己维护一个代理池吧 网上那么多 free proxy 定时拿下来挨个测一下 把速度快的挑出来给你的知乎爬虫用
|
22
hunk 2016-05-29 20:40:53 +08:00 1
爬用户啥信息拿来用?好奇,分享下思路呗
|
23
suuuch 2016-05-29 20:54:46 +08:00 1
这是上分布式的节奏啊?。先看看你的采集程序能不能吧你的带宽打满吧。要是可以。可以买代理 IP ,几块钱可以买到大把可以用的 IP ,写个测速的程序。就搞定了。
|
24
mogging 2016-05-29 20:57:29 +08:00 1
要是爬数据拿来玩就太浪费啊
|
27
airqj OP @McContax 一般家庭用户的 IP,除非路由器重新拨号,否则相应的公网 IP 不会变的
不知道兄弟说的动态 Ip 是代理吗? |
32
hunk 2016-05-29 21:52:12 +08:00 1
@airqj 家庭宽带,可以换 IP ,毕竟慢,不适合大数据量。我估计说的是 IP 库,前段时间做爬虫,看到这个网站 http://www.kuaidaili.com ,不是广告,我没用过,只是做备用研究下。
付费,实时提供测试可用的代理,专业的事让专业的人去做。 |
34
McContax 2016-05-29 21:53:32 +08:00 1
@airqj 额,貌似我这边是定时换 IP 的,重拨也不行,之前忘记哪间 VPS 提供商搞这种东西,你连进去是一个固定 IP 来的,但是出网就是一个民用动态 IP (而且 ip 切换速度比常用民用宽带快很多),之前是在找那些抗投诉的时候无意间找到的,不过价格很感人就是了。。。
|
35
bravecarrot 2016-05-29 21:54:12 +08:00 via iPhone 1
知乎应该是有反爬虫的,看他们好像还特意招人做这个事
有那种专门提供代理的网站,付费的,一天提供 xx 个 xx 元。 把代理弄进数据库,加个时间戳,一段时间换一个。爬虫把 ua , cookie 都带上 应该能爬好多吧 |
36
lbp0200 2016-05-29 22:08:36 +08:00 via Android 1
用长城宽带,封 IP ?整个长城用户都封掉?
|
39
Daddy 2016-05-29 22:30:58 +08:00 1
独立服务器, 8G 内存、 2X2TB 硬盘, 160 块 /月起,再套上代理 IP 好了, http://y0.cn/dufu
|
40
roychan 2016-05-29 22:42:45 +08:00 1
可以考虑买一点国内 ADSL 的 VPS , IP 地址都很多的。
如果要买国外的服务器,不建议用 VPS ,一般他们的 TOS 都很严格。建议上独立服务器,推荐楼上的 Dacentec 和 Quadranet... |
42
rainbo 2016-05-29 23:34:52 +08:00 1
taobao search adsl vps
|
44
airqj OP |
45
evilic 2016-05-30 09:32:56 +08:00 1
不知道爬知乎数据有什么用……
|
46
xiaotaoqi 2016-05-30 09:33:00 +08:00 1
外包:
现需网络爬虫脚本,基本功能如下: 1 、可以爬取阿里巴巴、淘宝、美团、大众点评四家平台上的企业详细信息。 2 、具体信息如下: ( 1 )公司档案:——基本信息:企业黄页(基本信息、经营状况、联系方式) ——交易信用信息:交易情况、服务情况、动态评分; ( 2 )供应产品分类:价格、详细描述、图片、成交量; ( 3 )公司信息:卖家旺旺号、满意度、交易勋章、地区 注:详细需求文档请联系本人。 QQ:574632347 |
49
chenwen 2016-05-30 10:22:56 +08:00 1
问下楼主呗, 知乎恶心的验证码咋整
|
51
xzcaosl 2016-05-30 10:32:04 +08:00 1
有魄力,具体爬那些数据,有这么大的存储空间吗
|
54
gkiwi 2016-05-30 13:05:10 +08:00 1
都被你们爬成 502 了。。。正看着呢!!
|
55
miaosu 2016-05-30 13:33:53 +08:00 1
我是知乎的,你邮箱多少,准备收律师函
|
56
Daddy 2016-05-30 14:47:41 +08:00
@airqj 宽带是 G 口,但实质瓶颈是你代理 IP 的质量,加代理肯定得打折。
足够你用了, 4T 硬盘,不怕你数据多, 8G 内存,不怕你程序烂。 独立服务器最好的, VPS 都会在 CPU 与宽带有所限制,不能长时间占用 CPU 与宽带的,不适合爬虫。 |
57
wudikua 2016-05-30 15:02:06 +08:00 1
兄弟,你头像和我在公司内网的头像一样。。好巧啊
|
58
CharlesWu 2016-05-30 15:37:41 +08:00 1
来来,这几天才做的 代理 IP 可用度 40%左右
http://www.uoolo.com/AppTask/GetProxyIP.ashx?num=100 |
59
dxk611 2016-05-30 15:39:59 +08:00
为什么我开 VPN 上不了知乎
|
60
whq731 2016-05-30 16:18:29 +08:00
知乎有个系统叫悟空,就是专门干反爬,删广告这些的。
我自己之前不知道,随便跑了十多个线程爬截图,结果运行几次后就被封了,所有结果都是一个缓存的页面 |
62
menc 2016-05-30 16:45:25 +08:00 1
果然还是看工作啊,在搜狗工作的时候,我们组就拥有脱了敏的知乎全部数据,包括问答,用户, tag 等等等等,可惜太坚守职业操守,我一点也没有 down 下来。
|
63
cszhiyue 2016-05-30 17:31:45 +08:00
如果换了微博.账号频繁更换 ip 不直接封了?
|
66
qcloud 2016-05-30 18:36:21 +08:00
爬那些干嘛,爬一些女优大片多好
|