个人想制作一个简单的爬虫项目(在未登录的情况下,以低频率爬取微博),是一个非常简单的代码,是教学向的,为了方便传播,为了方便传播,想要开源在 github 上,并且制作一期代码流程说明发布到 B 站。
请问这种情况会被微博告吗?如果犯法的话会判多长时间?还是想要谨慎一点,请问有无懂哥介绍一下国内法律爬虫抓人的规矩,谢谢
1
mekingname 2021-07-20 11:23:19 +08:00
我自己做了一个新闻通用网站提取的开源项目,就把主动请求网页的功能取消了,只保留正文提取的功能,用户要用必须自行请求网页再把源代码传进来。这样就没有风险了。
|
2
AoEiuV020 2021-07-20 11:26:42 +08:00
有听说是,爬虫不能针对具体某个目标,
不过具体还是应该律师才清楚了, |
3
InDom 2021-07-20 11:34:48 +08:00
把被爬取网站的地址搞成配置文件,代码里如果没有被爬的网站地址,还有问题没?
|
4
suotm 2021-07-20 11:55:50 +08:00
你做一个 demo 网页就可以了嘛,
或者用通用的框架搭一个,比如 wordpress 。 |
5
mmdsun 2021-07-20 12:32:47 +08:00 via Android
不会的。不放心可以放免责声明。
我爬虫代码都会先搜索,要是 github 有现成就拿下来用了。那么多人上传。。法不责众 |
6
westoy 2021-07-20 12:51:45 +08:00
定向爬虫当然有问题了, 而且属于你发布出来危险更大
免责声明就是骗骗自己的, 你只能赌自己不是被抽中儆猴的那只鸡 大公司有的是办法, 非商用可以核损啊, 你玩得过对方法务团队么 现在活着的像火车头那种做了十五六年的都是通用的, 出问题你去告卖用户规则的 |
7
01802 2021-07-20 14:12:28 +08:00 via Android
腾讯告红包那个,不是有一条,增加了服务器非正常操作频率,也算侵权
|
8
iyaozhen 2021-07-20 14:25:57 +08:00
应该是会 因为你太特定了,风险是肯定的
|
9
HankLu 2021-07-20 14:53:59 +08:00
没有任何风险,放一百个心
|
10
zhuxiaoxi 2021-07-20 21:48:43 +08:00
https://weibo.com/robots.txt 按 robot.txt 协议爬,不会出问题
|
11
galenzhao 2021-07-21 16:22:28 +08:00
可以照着 pgp 来啊,
代码出书, 属于言论自由 |