1
guonning 2017-05-10 10:40:30 +08:00 via iPhone
整个 Google play 的爬虫
|
2
Morriaty 2017-05-10 10:51:20 +08:00 1
如果你的项目有明显优于`scrapy`的地方,那请重点介绍这个优点;
如果你只是想深入了解爬虫架构,那请配合分享你的开发博客,《深入理解爬虫架构》; 否则,你的这个项目,除了自己练手,没有任何可分享的意义。 |
3
yanzixuan 2017-05-10 11:04:44 +08:00
不是很推荐用 xpath 来提取信息,麻烦得很。用 beautifulsoup 或 pyquery 都好点。
|
4
xvx 2017-05-10 11:17:12 +08:00 via iPhone
难道 lz 这个还能智能爬不成?不用每个网站都搞个爬虫规则。
|
5
intohole OP @xvx 可以看我另外个工程 sixgod 也在这个 github, 里面可以自动提取正文;如果有提取其它元素的话,可以提 issue
|
10
3b295 2017-05-10 15:21:49 +08:00
@yanzixuan 我倒是觉得有时用 xpath 也很方便, 直接在浏览器中右键复制节点的 xpath, 在稍微改改就写出来了。
|
11
IanPeverell 2017-05-10 15:53:57 +08:00
楼主加油,不过……
感觉是在重复造轮子,因为功能不完善所以很轻,很多情况都没考虑到 scrapy 和 pyspider 已经很出色,再加上很多分支,已经很完美了,requests 也足够满足轻型 spider 的需求,所以除非以学习为目的,这种重复造轮子很浪费时间 |
12
intohole OP @IanPeverell 肯定有些不同的,比如我现在抓取的时候 面临资源不足的情况,有自己的解决方案 ;
|
13
mikezhang0515 2017-05-10 16:31:54 +08:00
MSpider 也很好
|
14
IanPeverell 2017-05-10 16:42:19 +08:00
@intohole,然而资源不足只是 spider 很小的问题,更多的问题则在于反爬上,如果楼主能在这方面下功夫那这个框架的肯定不可小觑
anyway,还是很支持楼主将一个框架由小做大的,希望楼主能坚持下去 |
15
intohole OP @mikezhang0515 我会参考这个工程的 ,thx
|
16
intohole OP @IanPeverell 谢谢,我会加油的
|
17
faywong8888 2017-05-10 16:47:23 +08:00
技术这个行业,过去一个话题的开始是写一个:hello, world。
这个行业的现在变成了:从零写一个爬虫。 |
18
intohole OP @faywong8888 什么项目不是从 0 开始的呢? 还有你觉得写爬虫架构很好写,写个队列,写个抓取器就完活了? 谢谢关注
|
19
Yc1992 2017-05-10 17:22:36 +08:00 via Android
加上一句,make the world a better place
|
20
xvx 2017-05-11 09:08:20 +08:00 via iPhone
@intohole sixgod 比较块密度进行爬取,这个思路以前看过,对结构简单的网站比较适用,复杂的还是很难搞吧。
|
21
intohole OP @xvx 首先你的业务是什么? 每个人的业务都不一样,只能是大体通用 , 智能提取算法 , 你可以自己找找 paper
|