Cy86 最近的时间轴更新
Cy86

Cy86

V2EX 第 316181 号会员,加入于 2018-05-14 04:55:35 +08:00
今日活跃度排名 2706
Python 爬虫并发极限是多少呢?
  •  1   
    Python  •  Cy86  •  2024-05-20 10:12:32 AM  •  最后回复来自 Cy86
    35
    如何自学 Vue 呢
    Vue.js  •  Cy86  •  2020-02-26 13:47:43 PM  •  最后回复来自 Hanggi
    70
    从 WSL1 换到 WSL2 ,整体速度上去了, 但没法通过公网链接
    Windows  •  Cy86  •  2020-02-20 21:31:58 PM  •  最后回复来自 Cy86
    14
    光猫的 Lan 口和路由器的 Lan 口做级联,会增加带宽么
    分享创造  •  Cy86  •  2020-03-09 19:50:11 PM  •  最后回复来自 Cy86
    10
    朋友公司买了网站 1W 元,请大家看看,提些意见
    程序员  •  Cy86  •  2020-03-09 19:45:16 PM  •  最后回复来自 Cy86
    118
    用 阿里云和域名(已备案) 反向代理国外 vps 的网站 可以么
    Chamber  •  Cy86  •  2018-09-02 23:58:50 PM  •  最后回复来自 ThirdFlame
    1
    如果在网页嵌入别人的网页然后刷流量可行么
    浏览器  •  Cy86  •  2018-08-27 19:00:45 PM  •  最后回复来自 night98
    3
    Cy86 最近回复了
    @iorilu 那还是得上手干, 遇到问题处理完了之后再总结出一个通用方案, 爬虫最需要考虑的是反爬, 其他的都比较简单,没太多需要考虑的
    楼主不理我,我再捞一下, 目前我负责的爬虫抓取量每天在百万级, 月抓取量在亿级,主做舆情的
    推荐:
    百条用 requests 就行
    几十万条有时效性就 aiohttp
    同一个网站大量数据, scrapy 和 feapder 都可以
    上亿条自己开发爬虫框架
    你说的这几个问题: 访问限制, 需要登陆, 代理轮询, 执行 js, 错误重试
    访问限制, 需要登陆: 对于反爬都是针对目标单独定制的,市面上没有能包含所有反爬的的框架
    代理轮询最简单的就自己整个队列, 每次爬虫轮着取代理 ip, 对于账号绑定 IP 的,就单独开个服务针对要爬的渠道固定 IP
    执行 js 可以单独作为一个服务旁运行, 需要执行的 js 扔进去只关注返回结果就好

    感觉你可以说说你的整体目标是啥
    我觉得 requests 应该够了吧, 直接把接口抓出来比较简单,我最近也在鼓捣爬虫练手, 你这是要爬啥网站呢
    把这活儿外包出去, 嘴上说让他们手动点击(后端是爬虫), 速度别太快, 这样你就安全了
    2024-05-20 10:12:32 +08:00
    回复了 Cy86 创建的主题 Python Python 爬虫并发极限是多少呢?
    @macaodoll #29 感谢建议, 目前只是突然想到了技术上的问题, 在纠结 Python 为啥并发上不去, 卡点在哪
    2024-05-20 10:10:44 +08:00
    回复了 Cy86 创建的主题 Python Python 爬虫并发极限是多少呢?
    @shanyaoxingtong #31 后面接了 5 家的代理池, 每天的总请求 13 亿, qps 能达到 15K, 咱们先讨论技术再讨论代理
    2024-05-20 10:08:06 +08:00
    回复了 Cy86 创建的主题 Python Python 爬虫并发极限是多少呢?
    @chengxiao #28 每错是舆情
    2024-05-14 18:12:02 +08:00
    回复了 Cy86 创建的主题 Python Python 爬虫并发极限是多少呢?
    @chengxiao #26 日常监控 30 万个网站的更新, 每 5 分钟跑一次, 不需要账号和风控, 单站点请求一分钟一次都没有
    2024-05-14 16:41:24 +08:00
    回复了 gezimonkey 创建的主题 信息安全 发现一个诈骗网站,有没有人替天行道一下?
    @fkdtz #42 哦哦, 我以为你用了啥放大原理, 用很小的流量大比如 1:100 打他, 我这是杀敌 1000, 自损 1000
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2600 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 22ms · UTC 06:32 · PVG 14:32 · LAX 23:32 · JFK 02:32
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.