在 V2EX 读了几篇前辈的文章,受益匪浅,最近在工作中做了一些爬虫的工作,总结了一下使用新的,供参考:Scrapy 爬虫工程设计
1
gulangyu 2017-07-21 19:38:52 +08:00 via Android
前排支持!
|
2
misaka19000 2017-07-21 19:47:33 +08:00 via Android
后排支持!
|
3
zenxds 2017-07-21 19:50:29 +08:00
中排支持!
|
4
aaronzjw 2017-07-21 19:50:59 +08:00
三排 支持
|
5
tE1lmEY 2017-07-21 21:20:32 +08:00
最近有需求做这个,想爬 discuz !监控评论!
|
6
CryMeatel 2017-07-22 14:48:37 +08:00 via Android
scrpay 限制太多。。。一个 twisted 陈旧的 API 有的时候要改下麻烦死了
|
7
xarrow 2017-07-22 23:54:05 +08:00
用来爬代理 ip 再保存数据库太鸡肋了,因为代理 ip 生命周期都很短,等你保存到数据库再拿来用估计都死的差不多了
|
8
samding123 OP @xarrow 你可以做一个代理池,每天有任务去爬取和校验有效性。只不过我这个工程是每天 7 点开始,提前两小时开始爬有效 ip,7 点到了就开始用只是今天爬到的。今天以前的就不再用了,省去了维护代理池的步骤
|
9
RangerWolf 2017-07-23 17:51:26 +08:00
图画的不错, 请问是用什么画出来的?
|
10
lzjun 2017-07-23 19:05:41 +08:00 1
图画的不错, 请问是用什么画出来的?
|
11
mxi1 2017-07-23 22:52:30 +08:00
看着像 visio
|
12
sunwei0325 2017-07-24 00:21:37 +08:00
感谢楼主分享!
|
13
samding123 OP @RangerWolf Balsamiq Mockups
|