收集整理 Python 爬虫的工具，求 PR - V2EX

首页注册登录

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

推荐学习书目

› Learn Python the Hard Way

Python Sites

› PyPI - Python Package Index

› http://diveintopython.org/toc/index.html

› Pocoo

值得关注的项目

› PyPy

› Celery

› Jinja2

› Read the Docs

› gevent

› pyenv

› Stackless Python

› Beautiful Soup

› 结巴中文分词

› Green Unicorn

› Sentry

› Shovel

› pytest

Python 编程

› pep8 Checker

Styles

› PEP 8

› Google Python Style Guide

› Code Style from The Hitchhiker's Guide

这是一个创建于 2748 天前的主题，其中的信息可能已经有所发展或是发生改变。

对于 Python 的学习，有个关键又极其适合练手的应用场景——网络爬虫。

之前在做类似项目的时候，发现总是会找不到合适的工具以及不清楚对应工具的应用方法及场景，所以想要整理一份小集合，希望可以帮助自己以及其他有需求的人，目前我简单整理了一下，但是有些说明是直接复制的英文，没有翻译，以及可能感觉格式、板式，尚需完善，但是自己暂时没有太多想法，希望有人可以帮助自己共同进步。

page 地址 page

项目地址（强烈建议 PR ）https://github.com/lartpang/spyder_tool

11 条回复 • 2018-08-19 19:41:38 +08:00

1

timboy

2018 年 8 月 7 日

phantomjs 已经不被新版 selenium 支持了，得用 Headless Chrome( http://chromedriver.storage.googleapis.com/index.html)和 Headless Firefox(这个暂时没用过)

2

beny2mor

2018 年 8 月 7 日

先观望（ watch ）下

3

timboy

2018 年 8 月 7 日

charles 也可以做抓包

4

SpiderXiantang

2018 年 8 月 7 日

1

工具:Fiddler/Chrome(调试 js)
渲染:Pyqt5/scrapy-splash
解析:lxml/re
下载:requests/aiohttp(异步)
队列:Queue(爬虫队列)
增速:thread/mutilprocessing/gevent
数据库:pymysql/redis/sqlalchemy(ORM)
其他:fack-user-agent

5

brucedone

2018 年 8 月 7 日

https://github.com/BruceDone/awesome-crawler , 已经有类似的了，收集的也相对齐全

6

xFrank

2018 年 8 月 7 日

缺失最重要组件：验证码识别

7

hellwys1

2018 年 8 月 7 日

mark

8

tanglijun

2018 年 8 月 8 日

还有最重要也是最容易忽略的一点：数据分析
这个归纳的挺好的 https://www.zhihu.com/question/20899988/answer/58388759

9

plart

OP

2018 年 8 月 9 日

@brucedone 感谢

10

plart

OP

2018 年 8 月 9 日

我会再考虑下这个仓库存在的必要性，或者说进一步进行提升。

11

plart

OP

2018 年 8 月 19 日

进行了一下想法的调整，感觉仓库存在是值得滴。

且行且看吧！

关于 · 帮助文档 · 自助推广系统 · 博客 · API · FAQ · Solana · 675 人在线 最高记录 6679 ·

Select Language

创意工作者们的社区

World is powered by solitude

VERSION: 3.9.8.5 · 21ms · UTC 21:21 · PVG 05:21 · LAX 13:21 · JFK 16:21
♥ Do have faith in what you're doing.