这是一个创建于 1690 天前的主题,其中的信息可能已经有所发展或是发生改变。
emm,爬虫相关的制度不太懂,想爬取某视频网站的评论内容(用于项目研究),现在遇到了如下问题,
1:爬评论较多的视频有时会报错,没有内容返回,浏览器打开视频网站发现评论区的内容无法加载,这种情况是被反爬虫 ip 封禁了吗?
2:爬取评论的这个行为是合规的吗?需不需要向视频网站申请?获得许可或者支付费用?
1 条回复 • 2021-01-23 15:55:22 +08:00
 |
|
1
FaceBug 2021-01-23 15:55:22 +08:00 1
1 、建议你优化代码,当判断到请求返回的数据清洗后为空的时候,记录本次请求的代理 IP 、源数据、http code 等数据,以此来筛查可能的原因
2 、如果网站有规则不允许你爬,或者允许你爬但是你严重影响到网站的正常使用、消耗了较大流量都是不合规的;如果网站本身提供 API,允许开发者获取评论数据,你就去申请,但是以我的了解,应该不会有人会给你用户数据的,被发现了视频网站吃不了兜着走
|