V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
hu5ky
V2EX  ›  问与答

使用 Python 抓取当前网站加载的 JS 地址问题

  •  
  •   hu5ky · 2019-06-12 12:50:00 +08:00 · 1337 次点击
    这是一个创建于 2021 天前的主题,其中的信息可能已经有所发展或是发生改变。

    方案有两个:方案一是打开网站->读取源代码->匹配 SRC 内的 JS 地址(但是这样做的话实际上并没有完全抓取到) 方案二打开网站->监听浏览器 network->匹配内容存在.js 的地址(因为部分网站的 JS 后面还存在一串字符 test.js457244asd24 这样)

    目前的问题是浏览器 network 怎么监听呢?

    5 条回复    2019-06-12 19:44:52 +08:00
    c4f36e5766583218
        1
    c4f36e5766583218  
       2019-06-12 13:49:40 +08:00
    <script ></script>
    这样吗?
    x66
        2
    x66  
       2019-06-12 17:28:03 +08:00
    如果你用 selenium 来爬的话,selenium-wire 是你想要的
    Jirajine
        3
    Jirajine  
       2019-06-12 17:36:25 +08:00 via Android
    mitm 抓包不好吗?
    hu5ky
        4
    hu5ky  
    OP
       2019-06-12 19:44:28 +08:00
    @Jirajine 已经在着手了
    hu5ky
        5
    hu5ky  
    OP
       2019-06-12 19:44:52 +08:00
    @x66 O 了,我去了解一下
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5395 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 26ms · UTC 07:48 · PVG 15:48 · LAX 23:48 · JFK 02:48
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.