对于 Python 的学习,有个关键又极其适合练手的应用场景——网络爬虫。
之前在做类似项目的时候,发现总是会找不到合适的工具以及不清楚对应工具的应用方法及场景,所以想要整理一份小集合,希望可以帮助自己以及其他有需求的人,目前我简单整理了一下,但是有些说明是直接复制的英文,没有翻译,以及可能感觉格式、板式,尚需完善,但是自己暂时没有太多想法,希望有人可以帮助自己共同进步。
page 地址 page
项目地址(强烈建议 PR )https://github.com/lartpang/spyder_tool
1
timboy 2018-08-07 11:22:40 +08:00
phantomjs 已经不被新版 selenium 支持了,得用 Headless Chrome( http://chromedriver.storage.googleapis.com/index.html)和 Headless Firefox(这个暂时没用过)
|
2
beny2mor 2018-08-07 11:22:52 +08:00
先观望( watch )下
|
3
timboy 2018-08-07 11:28:40 +08:00
charles 也可以做抓包
|
4
SpiderXiantang 2018-08-07 13:00:20 +08:00 1
工具:Fiddler/Chrome(调试 js)
渲染:Pyqt5/scrapy-splash 解析:lxml/re 下载:requests/aiohttp(异步) 队列:Queue(爬虫队列) 增速:thread/mutilprocessing/gevent 数据库:pymysql/redis/sqlalchemy(ORM) 其他:fack-user-agent |
5
brucedone 2018-08-07 14:59:09 +08:00
https://github.com/BruceDone/awesome-crawler , 已经有类似的了,收集的也相对齐全
|
6
xFrank 2018-08-07 17:19:26 +08:00
缺失最重要组件:验证码识别
|
7
hellwys1 2018-08-07 17:58:29 +08:00
mark
|
8
tanglijun 2018-08-08 09:53:28 +08:00
还有最重要也是最容易忽略的一点:数据分析
这个归纳的挺好的 https://www.zhihu.com/question/20899988/answer/58388759 |
10
plart OP 我会再考虑下这个仓库存在的必要性,或者说进一步进行提升。
|
11
plart OP 进行了一下想法的调整,感觉仓库存在是值得滴。
且行且看吧! |