V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
ljc864921462
V2EX  ›  外包

有偿求 Python 爬虫思路指点

  •  
  •   ljc864921462 · 2020-03-22 09:48:41 +08:00 · 580 次点击
    这是一个创建于 1702 天前的主题,其中的信息可能已经有所发展或是发生改变。

    需求:一个需要的登录的网页,对效率有需求,需多线程爬取 登录网页我只会 selenium 模拟,写不了多线程。还有些其他细节问题,故有偿求指点

    q:864921462

    7 条回复    2020-03-23 17:22:35 +08:00
    ljc864921462
        1
    ljc864921462  
    OP
       2020-03-22 09:50:42 +08:00
    价格详谈,预期 200,如果能提供更多帮助,可加
    yingxiangyu
        2
    yingxiangyu  
       2020-03-22 13:15:15 +08:00
    selenium 也可以多窗口同时爬,一个窗口登陆后把 cookie 在其他窗口同步下就可以了,一般都能解决,除非服务器端做了访问频率限制
    chzb
        3
    chzb  
       2020-03-22 23:43:12 +08:00 via Android
    你可以不用多线程,试试异步,如果单主机跑用 pyputeer,多个爬取试试 splash
    zhanghelin
        4
    zhanghelin  
       2020-03-23 11:46:25 +08:00
    用 selenium 登陆后,记录 cookie,在用多线程的方式。
    freakxx
        5
    freakxx  
       2020-03-23 16:59:52 +08:00
    把过程 切分成

    登陆 + 爬取 + 清洗

    登陆:做一个 cookies 池,登陆完将 cookies 存起来,如果笨点,手动去收集也可以

    爬取:做一个待爬取列表,N 线程 = 取出 N 个链接, 每次从 cookies 池捞个上来 + 捞个代理 ip 上来(如果需要的话),爬取成功就继续走,爬取失败,如果是 cookies 失效了,扔掉。
    warcraft1236
        6
    warcraft1236  
       2020-03-23 17:22:30 +08:00
    对效率有要求不应该关注多线程,应该关注分布式,部署到不同的机器上。或者关注高匿代理,要不然你的 ip 迟早被 ban
    zhiguang
        7
    zhiguang  
       2020-03-23 17:22:35 +08:00
    多用阻塞队列
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   3423 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 30ms · UTC 11:36 · PVG 19:36 · LAX 03:36 · JFK 06:36
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.