Tarantula 的设计初衷是面向工程师的,支持大规模的任务爬取。此前日完成任务数平均在百万级( JS 渲染)。 友好性在不断完善中,但是不会发展成为点选式的爬取。因为在真实场景中这种方式局限性比较大。
1
thursday 2017-12-30 17:20:16 +08:00
项目太大,是不是写个项目架构介绍的其他人好了解自己感兴趣的那块
|
3
fiht 2017-12-31 10:19:52 +08:00
弱弱的问一句,楼主你这种解析 JS 的爬虫遇到那种挖矿的网站是怎么解决的。(就是后台 JS 不停不停不停地占用 CPU 的情况)
|
4
514146235 OP @fiht
js 挖矿通常是在一些用户停留时间比较长的页面才会部署。而且一般都是后台工作,不会影响用户的浏览行为。 所以爬取任务在打开页面的完成的时候,抽取到了数据就会立即关闭这个页面。js 挖矿运行的时间不会很长,所以影响不大。如果真的是 js 执行时间较大,导致流程卡住了,那么最终调度程序也会限制每一个任务的超时时间,超过之后会直接 kill 掉。 |
5
sunwei0325 2018-01-04 04:00:19 +08:00
为什么会依赖 python2 呢?
|
6
514146235 OP @sunwei0325 安装和编译环境需要依赖。
|