关于爬虫的法律问题 - 知乎的用户信息的法律问题？

V2EX = way to explore

V2EX 是一个关于分享和探索的地方

现在注册

已注册用户请登录

• 请不要在回答技术问题时复制粘贴 AI 生成的内容

这是一个创建于 1797 天前的主题，其中的信息可能已经有所发展或是发生改变。

爬知乎的用户的相关信息（姓名、简介），和回答标题，然后展示在网站上，跳转连接到知乎上去

不存储内容，只存储连接，和标题（可能还有摘要、点赞这些），但是会存储用户信息用户名这些

这种会有法律风险么，或者说即使有，但是会有被知乎起诉的风险么

也有可能是豆瓣

readhub 这种算爬虫么，或者有法律风险么，大致可能和这种类似

知乎

存储

标题

法律

20 条回复 • 2020-11-29 11:42:22 +08:00

imn1

2020-11-27 20:33:04 +08:00

是说隔壁那个展示某知乎用户做浏览器盈利的帖子么？🐶

此题，我觉得会

beryl

2020-11-27 20:34:22 +08:00

@imn1 不是不是，而且那个是影响了人家知乎的商业价值，我这个想到与是知乎的导引，最近内容还是要点连接，进入到知乎网站。类似搜索，但是是结构化搜索

woodensail

2020-11-27 20:37:49 +08:00 via Android

我决定你更应该考虑隐私问题，用户信息也是隐私

imn1

2020-11-27 20:38:56 +08:00

@beryl #2
嗯，1 楼歧义了，”此题“指的是你的正文，不是隔壁帖子
所以正式回复是，有法律风险的

locoz

2020-11-27 20:40:40 +08:00 via Android

看起来是数据分析类的？这种的话看情况，如果平台自己想做这种东西，那你不关站就死；但是如果平台自己不做，那你就随便搞，总之就是只要不触及到别人利益就可以活得好好的。

jr55475f112iz2tu

2020-11-27 20:43:22 +08:00

凡是爬虫都有一定法律风险的，差别只在于被爬的主体愿意花多少精力来应付这件事
爬虫，基本上不可避免的就是要处理反爬，这约等于违反被爬主体意愿获取其数据

zerofancy

2020-11-27 21:14:48 +08:00

这好像就是搜索引擎的做的事情啊……
那么我们看下 robots.txt

User-Agent: *
Disallow: /

很好^_^

cmostuor

2020-11-27 21:19:11 +08:00

会, 未经他人许可窃取他人数据

cmostuor

2020-11-27 21:20:24 +08:00

@cmostuor 如果是获得了作者和知乎豆瓣这些平台提供商的同意那不属于犯法属于业务合作.

cmostuor

2020-11-27 21:21:38 +08:00

@cmostuor 作者同意的话可以手抄一份再发不能在平台页面直接复制粘贴

kingfalse

2020-11-27 22:25:18 +08:00 via Android

你觉得你是在给知乎引流，但是知乎并不会这么觉得。不然淘宝为啥不让搜索引擎爬了呢！一样的道理

chevalier

2020-11-27 23:25:41 +08:00

取决于你有没有凭此获利

tuding

2020-11-28 00:09:44 +08:00 via Android

如果你做得不成气候，没意思。做得好，知乎做个差不多的，然后告你侵权？

Lemeng

2020-11-28 00:57:37 +08:00

这个东西目前还是比较隐晦。好像没有因此而入邢的吧。可能我孤陋了
说不好

laminux29

2020-11-28 01:03:19 +08:00

中立地说，大部分大佬早期都是走违法高风险来起步的。

只是这其中，有些大佬通过一些方法成功避险上岸，有些大佬太高调进去了而已。

爬虫目前在法律上的确是高风险，但是，目前这部分法律，是有漏洞的，是可以通过一些方法避险的，我只能点到这里，再具体下去，我就是在这里教唆违法了。不建议做，如果一定要做，你要认识到这是高风险，想好利益得失。

Jooooooooo

2020-11-28 01:13:05 +08:00

你感觉有风险

那就真的有风险

不要做

opengps

2020-11-28 01:26:27 +08:00

法律风险从来都有，因为法律问题可以从很多出发点发起。风险小不等于没有
爬虫本身就不是真人访客，给目标站带来的压力，带来的流量引导，可能都成为被告理由

muzuiget

2020-11-28 01:33:03 +08:00

这不是搜索引擎？

fdy1995

2020-11-29 02:16:04 +08:00

readhub 应该就是爬虫采集的，我看有好多重复性的不同网站的文章，他这个内容更类似把不同报纸内容，剪下来。但是，他这个采集的都不是特别热门的网站，反扒应该不是很厉害（猜测，没实际爬过不知道）。
不过，按照你的叙述，就是想提取一些热点回答以此吸引流量嘛？但是，这个跟他本身存在的一些热度推荐没啥差别把？如果你再做并以此获利，很大概率会被起诉把

yasaminekldkxf

2020-11-29 11:42:22 +08:00

看 robots.txt ，只要没有禁止，原则上就可以，频率别太高就行。