V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
推荐学习书目
Learn Python the Hard Way
Python Sites
PyPI - Python Package Index
http://diveintopython.org/toc/index.html
Pocoo
值得关注的项目
PyPy
Celery
Jinja2
Read the Docs
gevent
pyenv
virtualenv
Stackless Python
Beautiful Soup
结巴中文分词
Green Unicorn
Sentry
Shovel
Pyflakes
pytest
Python 编程
pep8 Checker
Styles
PEP 8
Google Python Style Guide
Code Style from The Hitchhiker's Guide
allencode
V2EX  ›  Python

Python 爬取拉勾策略的疑问

  •  
  •   allencode · 2016-08-09 19:11:15 +08:00 · 3536 次点击
    这是一个创建于 3032 天前的主题,其中的信息可能已经有所发展或是发生改变。

    各位好。小弟最近用 python 爬拉勾数据。也大致做出来了。但是遇到一个数据量不够的问题。按照我的策略只能爬取 1.2w 左右的数据。但是我看见过有人爬到 10w 左右。不知道是什么策略呢? 我的策略就是先爬取职位关键词。然后一个一个请求。如下图。比如 java 。大概这个职位有 30 pages 左右,每页 15 items 这样总的也才 450 左右。但是我个人猜想 java 职位应该不止这么多吧?

    所以来此提问。还请知道的哥们指导一下。谢谢啦

    8 条回复    2016-08-10 08:53:53 +08:00
    wang9571
        1
    wang9571  
       2016-08-09 20:28:54 +08:00
    应该是网站限制最大显示 30 页。按城市、行政区、工作年限等条件组合搜索才会有更多内容
    l0wkey
        2
    l0wkey  
       2016-08-09 21:33:01 +08:00
    学习搜索引擎爬虫策略,递归来爬嘛.
    sukai0me
        3
    sukai0me  
       2016-08-09 21:38:24 +08:00
    #1 一楼方法是可行的,之前爬大众点评也是这样,它为了保护数据,每个条件下最多显示 N 条数据。
    你可以算一下数量的,组合下来的数据量是远远大于网站上显示的
    namco1992
        4
    namco1992  
       2016-08-09 22:27:33 +08:00
    我的办法很简单...遍历全站数据,然后根据关键词分类。你可以看到拉钩的职位页面地址都是 /jobs/{job_id},并且 job_id 是连续的。我当时爬的时候拉钩大概有两百多万页面,然后硬生生爬下来就好了,技术岗位貌似是从五万开始。
    sniper1211
        5
    sniper1211  
       2016-08-10 00:00:35 +08:00
    之前爬过,两个思路:
    ①按照其他筛选条件去爬
    ②直接去找 ID ,不过有些早期的职位不存在了
    liulongfei
        6
    liulongfei  
       2016-08-10 08:24:23 +08:00
    liulongfei
        7
    liulongfei  
       2016-08-10 08:30:00 +08:00
    你参考一下吧,大致的思路是先把首页的 job 都爬下来,然后在遍历这些 job 。
    取招聘数据的时候,向一个地址 post 提交数据,一页一页的提交直到不返回数据的时候这个 job 的数据就没了。
    获取到的数据我是放到 es 里面的方便分析。
    allencode
        8
    allencode  
    OP
       2016-08-10 08:53:53 +08:00
    谢谢各位的耐心解答。目前已经解决了。我把一些重要的城市趴下来了。大概三十左右。然后再依次在这些指定的城市下面查询大致 40 个职位。目前爬虫正跑着呢。谢谢啦。
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   4094 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 23ms · UTC 10:15 · PVG 18:15 · LAX 02:15 · JFK 05:15
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.