最近在学习爬虫,在网站反爬的时候遇到些问题
爬虫在请求目标网站的时候会返回 202 ,但是浏览器是能请求成功的,我检查发现
目标网站是 post 请求,表单提交,没有使用 ajax ,表单提交的时候有两个奇怪的字段 1.__RequestVerifyToken: 看起来是一个加密的随机数,在首次请求的时候会带这个参数,参数在 response 的 html 页面存在,是一个隐藏类型的标签,name = __RequestVerifyToken ,value=它的值 2.刷新几次之后,表单只携带一个 payload ,键是 OMv5e9ZM ,值看起来也是个加密的数据,但是这个值变化的时候 cookie 里有一个键值对也会发生变化,应该是有关联的,暂时不清楚是干啥的
我的程序携带对应的 cookie ,payload 发起请求一直会是 202 ,不太明白问题出在哪
1
CaptainD OP 页面居然乱码了。。。
网站还有个特点,正常浏览器请求有时也会出现 202 ,大概每 4 ,5 次出现一次 |
2
hidemyself 2021-12-28 15:24:13 +08:00
爬的网站此时应该贴出来吧
|
3
CaptainD OP |
4
murmur 2021-12-28 15:27:32 +08:00
别学习爬虫了,是带薪学习把,灰产就老实出钱找人
|
6
czfy 2021-12-28 15:42:23 +08:00
敢爬 .gov 的数据?
|
7
lysS 2021-12-28 15:56:49 +08:00
这个域名~,哈人
|
8
ch2 2021-12-28 16:00:26 +08:00 3
版权所有:国家知识产权局(未经许可不得复制)
牢饭香 |
9
deplivesb 2021-12-28 16:04:07 +08:00
主办单位:国家知识产权局 软件维护:知识产权出版社 ICP 备案编号:京 ICP05069085 号
版权所有:国家知识产权局(未经许可不得复制) 技术支持:010-62086466 / 6421 / 6415 牢饭警告 |
11
CaptainD OP @deplivesb 不是特别了解这块,专利数据我看大部分是开源的,我的理解开源数据一般不是默认可以爬虫吗,我的经验是看国外开源的数据一般提供了爬虫接口,非常方便,国内的没怎么了解
|
12
czfy 2021-12-28 16:11:34 +08:00 2
1. 爬虫本来就在灰色地带
2. 为什么网站 /App 要反爬?因为别人不想让你爬 3. 别人不想,你还要做,这叫强迫 4. 强迫别人做不想做的事情是违法的 5. 商业公司,是否追究爬虫者的法律责任,主要考虑投入产出比 6. gov 是否追究爬虫者的法律责任,考虑啥我也不知道,可能看心情吧,不过一抓一个准 |
14
deplivesb 2021-12-28 16:17:04 +08:00 1
@CaptainD 专利数据是公开的,但是不代表你可以用爬虫批量获取。而且还是 gov 网站,玩意爬虫频率太快,把网站搞炸了,那就是不是单纯爬虫这么简单了,小心被反手一个非法侵入计算机信息系统罪。
|
15
CaptainD OP @czfy 感谢科普,之前确实没想这么多,我平时研究数据发现国外的大多提供给你这么几种方式,其中一种就是 linked data ,允许运行程序获取数据,就是我说的接口,可能表述不准确
|
16
czfy 2021-12-28 16:30:40 +08:00 1
国家知识产权局提供什么数据,在这里( http://ggfw.cnipa.gov.cn:8010/PatentCMS_Center/)
目前有一些城市 gov 会提供数据接口调用( https://data.sh.gov.cn/) 一方面,国内 gov 数据公开确实做得一般 另一方面,你提到 “总想着以后能靠这东西赚钱”,这里的法律和道德风险有多少就不好说了 |
17
ZAXON 2021-12-28 16:35:17 +08:00
这个网站的爬虫属于比较难的那种吧,楼主实在学 JS 逆向吗🧐
|
18
CaptainD OP @czfy 这个网站我之前就看过,网站非常卡顿,bug 也比较多,但是提供了开源数据下载,下载流程比较复杂,需要注册还要上传身份证号,我按部就班的注册了,也上传了证件信息,结果不通过,理由是不清楚,但是我拍的照片就是很正常的那种,也不知道为啥,我还给他们发了邮件,询问能否提供开源地址,能否通过程序访问,如果不行能否加速一下认证过程,但是他们回复比较模棱两可,只说我提交的材料不合格
另外赚钱这事我想的比较简单,大学的时候我玩过 kaggle ,当然比较菜,大部分时间就看看数据,看看他们分析一件事找了什么特征,有什么因素能影响事件结果之类的,我说的赚钱是指能不能自己搭建一下系统,然后分析点感兴趣的数据培养一下这方面能力,并不是单纯的卖数据 |
19
czfy 2021-12-28 16:47:12 +08:00
@CaptainD 嗯,这就是我说的 “国内 gov 数据公开做得一般”,要不就是完全不公开,要不就不是真心实意想公开,只是给了个口子,实际上还是拿不到
如果你说的是指培养能力,想用国内的数据炼丹,可能可以看看国内仿 kaggle 的网站,上面有一些国内数据 |
20
liubaicai 2021-12-28 18:07:14 +08:00
很刑
|
21
evil0harry 2021-12-28 18:20:35 +08:00
我曾经在地方专利局爬过,你的这个网站太卡了。
http://pss-system.cnipa.gov.cn/sipopublicsearch/portal/uiIndex.shtml |
22
evil0harry 2021-12-28 18:21:53 +08:00
@evil0harry 建议使用地方的
|
23
evil0harry 2021-12-28 18:23:07 +08:00
|
24
evil0harry 2021-12-28 18:25:13 +08:00
@evil0harry 当时是为了科研任务,并且是 3 年前没有网络安全法的时候。
|
25
mswh 2021-12-28 20:33:29 +08:00
puppeteer 试试?
|