V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
initialD
V2EX  ›  Python

最近正在学爬虫,主要用来抓取门户网站的评论,选用 Python 语言。有没有大神给点好的资料,或者一个好的指导方向。

  •  2
     
  •   initialD · 2014-10-04 18:57:29 +08:00 · 5231 次点击
    这是一个创建于 3737 天前的主题,其中的信息可能已经有所发展或是发生改变。
    16 条回复    2014-10-05 18:24:36 +08:00
    mrytsr
        1
    mrytsr  
       2014-10-04 19:09:44 +08:00 via Android
    Scrapy
    mhycy
        2
    mhycy  
       2014-10-04 19:17:18 +08:00   ❤️ 1
    手写....
    Requests + re + threading + logging
    各种爽~

    PS.其实是觉得框架太不灵活了
    paulw54jrn
        3
    paulw54jrn  
       2014-10-04 20:22:04 +08:00   ❤️ 1
    不是很复杂就是楼上说的
    requests + re + threading/greenlets

    或者是楼上上说的
    Scrapy..
    ShiehShieh
        4
    ShiehShieh  
       2014-10-04 20:37:56 +08:00
    有没有什么好点的材料能学习嘛? 0.0
    binux
        5
    binux  
       2014-10-04 20:42:33 +08:00   ❤️ 2
    no13bus
        6
    no13bus  
       2014-10-04 21:32:13 +08:00   ❤️ 1
    @binux 感觉torado经常用来监控,celery的监控flower就是用他来做的。
    XadillaX
        7
    XadillaX  
       2014-10-04 21:40:50 +08:00
    -。 - 为什么没多少人学 node 做爬虫呢?
    chemzqm
        8
    chemzqm  
       2014-10-04 22:44:35 +08:00   ❤️ 1
    node异步回调太恶心,占用内存太高,低配机器跑不了几个进程
    GeekGao
        9
    GeekGao  
       2014-10-04 23:13:37 +08:00   ❤️ 1
    曾经用twisted自己写过一个,后来才知道有scrapy这个爬虫框架,推荐scrapy
    Codist
        10
    Codist  
       2014-10-04 23:35:52 +08:00   ❤️ 1
    scrapy简单又方便,selector用起来也很舒服,不用写正则了
    kenis
        11
    kenis  
       2014-10-05 02:54:57 +08:00   ❤️ 1
    推荐用Scrapy,比较成熟的爬虫框架,资源也不少。
    briefcopy
        13
    briefcopy  
       2014-10-05 09:38:11 +08:00   ❤️ 1
    imn1
        14
    imn1  
       2014-10-05 10:40:13 +08:00   ❤️ 1
    我抓取的量很大,所以分离过程用wget抓取,py做parse,95%用正则,少量用 lxml+xpath
    无论用什么,通读http协议+抓包工具是跑不掉的
    ericls
        15
    ericls  
       2014-10-05 14:07:54 +08:00 via Android   ❤️ 1
    requests pyquery
    helloworld00
        16
    helloworld00  
       2014-10-05 18:24:36 +08:00   ❤️ 1
    快速构建实时抓取集群

    http://blog.nosqlfan.com/html/2604.html
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2485 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 04:43 · PVG 12:43 · LAX 20:43 · JFK 23:43
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.