这是一个创建于 2439 天前的主题,其中的信息可能已经有所发展或是发生改变。
需求有几百多个站点要爬,不可能每个站点都用 Scrapy 写一个爬虫吧?
有没有什么有效的解决方案?
 |
|
1
gitopen 2018-07-10 17:02:43 +08:00 via Android
scrapy 可以写多个爬虫,自定义命令后可启动多个爬虫进行爬取。。。。
|
 |
|
2
xanthu 2018-07-10 17:42:18 +08:00
@ gitopen ....有 700 多个站,每个站都不同
|
 |
|
3
yrj 2018-07-10 18:14:45 +08:00 via iPad
我想楼主是需要一个可以泛解析出内容页文章主体内容的库,我记得 python 有几个这样的库,但貌似准确率都不太高,我也一直在纠结这个问题。
|
 |
|
4
cyspy 2018-07-10 23:15:23 +08:00 via Android
pocket 或者 instapaper 能不能做中转?
|