V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
gongfuxiongmao
V2EX  ›  程序员

现在的公众号还能爬到信息吗

  •  
  •   gongfuxiongmao · 2020-09-28 18:57:13 +08:00 · 3131 次点击
    这是一个创建于 1511 天前的主题,其中的信息可能已经有所发展或是发生改变。

    想学习一下爬虫,爬点公众号的文章,大佬们有什么建议吗,只需要大概的可行的方向就行,剩下的自己去研究。

    网上搜到的方法都是比较老的信息,一般都不能用了

    13 条回复    2020-09-29 19:01:20 +08:00
    kof21411
        1
    kof21411  
       2020-09-28 19:27:03 +08:00   ❤️ 1
    爬虫写得好,坐牢坐得早,别惹南山必胜客!
    pandait
        2
    pandait  
       2020-09-28 19:37:29 +08:00 via Android
    搜狗的微信搜索,有入口。
    crclz
        3
    crclz  
       2020-09-28 21:51:07 +08:00
    几个月之前爬过,方法是用 pc 微信客户端,打开某个公众号,然后人工用鼠标往下滚动,然后右键-查看源代码,然后保存为文件,用 python 解析 dom,就可以找出地址列表。有时候请求多了,会封禁那个入口 24 小时,换个号就行了。

    搜狗的微信搜索能够搜索到的极其有限。
    mlhadoop
        4
    mlhadoop  
       2020-09-28 23:32:27 +08:00
    @crclz

    ```
    try {
    const maxScroll = Number.MAX_SAFE_INTEGER;
    let lastScroll = 0;
    const interval = setInterval(() => {
    window.scrollBy(0, 100);
    const scrollTop = document.documentElement.scrollTop;
    if (scrollTop === maxScroll || scrollTop === lastScroll) {
    clearInterval(interval);
    //resolve();
    } else {
    lastScroll = scrollTop;
    }
    }, 1000);
    } catch (err) {
    console.log(err);
    //reject(err.toString());
    }
    ```

    不用手滑
    wangyzj
        5
    wangyzj  
       2020-09-28 23:56:57 +08:00
    最好的办法是逆向
    其次用 appium
    0o0O0o0O0o
        6
    0o0O0o0O0o  
       2020-09-29 00:49:32 +08:00
    /t/708599

    逆向微信违法,所以只提供一个方法,你可以提交需要爬的公众号,然后爬我的(
    locoz
        7
    locoz  
       2020-09-29 01:35:01 +08:00 via Android
    要么自动化测试,要么逆向。如果只是玩玩,那就自动化测试一把梭就行,最多十分钟就完事了。
    sweat89
        8
    sweat89  
       2020-09-29 08:38:33 +08:00
    @pandait 村里刚通网?
    zsdroid
        9
    zsdroid  
       2020-09-29 09:07:18 +08:00
    公众号都凉透了。。。
    pandait
        10
    pandait  
       2020-09-29 09:20:46 +08:00 via Android
    @sweat89 差不多,刚出来。
    Achiii
        11
    Achiii  
       2020-09-29 09:38:49 +08:00
    曾经想分析一个公众号里面的投票数据,先在 pc 上面滚轮加载完他的页面,保存 html 再正则。算是比较低效的方法吧
    qsnow6
        12
    qsnow6  
       2020-09-29 09:41:03 +08:00
    @0o0O0o0O0o #6 牛逼,真手动扒
    gongfuxiongmao
        13
    gongfuxiongmao  
    OP
       2020-09-29 19:01:20 +08:00
    看了大家的回复,我估计要放弃了
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5915 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 33ms · UTC 03:32 · PVG 11:32 · LAX 19:32 · JFK 22:32
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.