开源、分布式爬虫系统 - Tarantula. 求 star

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

爱意满满的作品展示区。

这是一个创建于 2945 天前的主题，其中的信息可能已经有所发展或是发生改变。

支持私有部署
支持 JS 渲染
工作节点水平扩容
内置动态 IP
在线导出数据

Tarantula 的设计初衷是面向工程师的，支持大规模的任务爬取。此前日完成任务数平均在百万级（ JS 渲染）。友好性在不断完善中，但是不会发展成为点选式的爬取。因为在真实场景中这种方式局限性比较大。

https://tarantula.tech

tarantula

点选式

渲染

爬虫

6 条回复 • 2018-01-04 09:48:03 +08:00

thursday

2017 年 12 月 30 日

项目太大，是不是写个项目架构介绍的其他人好了解自己感兴趣的那块

514146235

2017 年 12 月 30 日

@thursday 文档方面后续会慢慢完善的。谢谢

fiht

2017 年 12 月 31 日

弱弱的问一句，楼主你这种解析 JS 的爬虫遇到那种挖矿的网站是怎么解决的。（就是后台 JS 不停不停不停地占用 CPU 的情况）

514146235

2017 年 12 月 31 日

@fiht
js 挖矿通常是在一些用户停留时间比较长的页面才会部署。而且一般都是后台工作，不会影响用户的浏览行为。

所以爬取任务在打开页面的完成的时候，抽取到了数据就会立即关闭这个页面。js 挖矿运行的时间不会很长，所以影响不大。如果真的是 js 执行时间较大，导致流程卡住了，那么最终调度程序也会限制每一个任务的超时时间，超过之后会直接 kill 掉。

sunwei0325

2018 年 1 月 4 日

为什么会依赖 python2 呢？

514146235

2018 年 1 月 4 日

@sunwei0325 安装和编译环境需要依赖。