这是一个创建于 3698 天前的主题,其中的信息可能已经有所发展或是发生改变。
单机爬虫我已经会弄了
但是分布式不会弄
数据库是postgresql
在我想象中,分布式爬虫是这样的:
一个控制中心,控制所有爬虫,给他们分配任务,并得到爬虫返回的结果
我的疑问是,
问题1: 怎么实现,控制中心给每个爬虫比较平均的分配任务,用什么框架 什么算法 来实现?
问题2: 比如我有60个爬虫,他们怎么和控制中心通信 有什么框架 或者算法来实现吗
3 条回复 • 2014-05-21 12:41:16 +08:00
![cdwyd](https://cdn.v2ex.com/gravatar/d880b02456a41a91a151f07eae09e3f3?s=48&d=retro) |
|
1
cdwyd 2014-05-15 08:27:11 +08:00 1
|
![Altman](https://cdn.v2ex.com/avatar/85aa/d03a/25320_normal.png?m=1344911742) |
|
2
Altman 2014-05-15 09:13:50 +08:00 1
|