用 python 爬取疫情通报网站 http://www.nhc.gov.cn/xcs/yqtb/list_gzbd.shtml 时遇到的一个问题。 第一次请求网站时返回状态码 412,同时返回了一个 js 文件后再次请求网站后请求成功。如图 我猜是第一次返回的请求头 set-cookie 字段和这个 js 文件 http://www.nhc.gov.cn/efzZI1ZIHCHw/lRzGTrFtfOv6.ca73791.js (再加上一个 html 的 js 混淆后的脚本,查看网页源代码能看到)生成了完整的 cookie,就可以成功请求网站了。 本人不懂前端和 js 技术,请问如何在 python 中实现这个生成 cookie 的功能呢?(或者能在 python 中执行这个脚本生成 cookie 的方法) 谢谢各位!
1
luoleng 2020-07-10 15:47:45 +08:00
找到生成 cookie 的 js 代码,python 可以直接调用 js,比如 execjs ;
|
2
sirthisman OP @luoleng 谢谢。那经过加密的 js 也可以执行吗?
|
3
Loooom 2020-07-10 16:07:31 +08:00
这不是瑞数嘛
|
4
sirthisman OP @Loooom 我是小白不太懂,能给解释一下吗
|
5
baxtergu 2020-07-13 19:31:42 +08:00
这个网站加密比较厉害,建议用模拟浏览器的方式去爬
|