话说,某些网站把个人博客的文章爬去了,放在他们自己网站上,还不带原文链接,这个怎么应对呢?
1
murmur 2019-11-01 21:03:25 +08:00
只能不写,没办法,君不见啊*云 等大网站都大量爬取外国网站翻译后当 seo 用 整个行业都这样 你能怎么办
|
2
aocif23 2019-11-01 21:05:23 +08:00 3
我想到了百度知道的骚招,让部分文字变成图片。
|
3
opengps 2019-11-01 21:05:52 +08:00 1
我反正是为了防这个,原文的连接总是故意作为内容带在文章末尾。
|
4
shiny 2019-11-01 21:06:18 +08:00 1
找些版权平台,类似快版权之类
|
5
caijunyi 2019-11-01 21:07:24 +08:00
维权骑士
|
6
secondwtq 2019-11-01 21:45:14 +08:00 2
在原文内容中插入一些比较和谐的片段,谁爬谁倒霉
... 反正思路大体如此 一个旧闻:歌词协作共享平台 Genius 怀疑搜索引擎 Google 一直在剽窃他们网站上的歌词,于是他们选了一些歌词,以摩尔斯码的规律替换其中的单引号字符为直引号和弯引号,并监测 Google 的搜索结果,发现这些引号的变化同样出现在 Google 的结果中,于是就发出了 complaint,第二天发现 Google 上面那些零宽字符消失了 :) 当然个人就算能掌握证据也不能怎么样,所以就只能借助那只无形的大手的力量 |
7
1239305697 2019-11-01 22:02:45 +08:00 1
还好我都加了原文地址的
|
8
xkzhangsan 2019-11-01 22:05:00 +08:00
现在爬虫是违法的,可以告他们
|
9
Jirajine 2019-11-01 22:07:17 +08:00 via Android 1
放敏感内容,等他爬完删掉然后举报。
|
10
linvaux 2019-11-01 22:23:22 +08:00
开玩笑,看看 csdn,毒瘤啊
|
11
opengps 2019-11-01 22:40:17 +08:00
歪个楼,楼主的头像能不能设计的认真点!
|
12
mamahaha 2019-11-01 23:04:09 +08:00
摇人,打他
|
13
slanternsw 2019-11-01 23:07:02 +08:00 1
推特上流行喝茶内容反盗图,不过要小心自己吃到赵弹打击
|
14
Monkey2020 2019-11-01 23:11:12 +08:00 1
自己在文章中留下自己的原文地址; 最好写系列文章;然后文章里面外链引用一下自己之前发的文章;这样被爬取了,也能看到你的原文的
|
15
jimmy3780 2019-11-02 02:28:35 +08:00 via iPhone
不知道国外的主机能不能发出 DMCA 的侵权通知,如果接受的话对方就会被拔网线了
是国外,一般是美国的主机商 国内不清楚 |
16
BrightSphere 2019-11-02 02:56:22 +08:00 via Android
更改一套字体映射
|
17
liufish OP 多谢各位回复。我回头在文章里做做内容好了。
|
18
Varobjs 2019-11-02 08:07:28 +08:00 via Android
隔几段就把后一段变成图,记不影响体验,被抓了换图
|
20
ThomasZ 2019-11-02 09:04:55 +08:00 1
恩不写原文链接的是挺没道德的,盗用他人文章样然后说自己原创的不仅没有道德还没有素养
要不楼主试试直接全文图片带特大号水印的方式, 代码什么的给上 gits 或者 github 的链接这样 |
21
liufish OP @1239305697 他们非常贴心的把原文地址删了。
|
22
dandycheung 2019-11-02 09:20:47 +08:00 via iPhone
曾被推酷这么干过,给他们发邮件就搞定了。觉得还是尽量先直接联系他们吧。
|
23
skiy 2019-11-02 09:23:50 +08:00
现在很多人不爱写博客了,因为流量都没到这边来。百度权重永远是给 CSDN 之流的,估计是交了保护费吧
|
24
mydearbaby 2019-11-02 09:38:32 +08:00 via Android
这个还是要从根本上解决,早两年也做过一些抓取,楼上说的什么插图片不解决问题,对方可以把图片本地化。这个要先确认下对方是用的什么方法抓去的,html 标签提取,还是 xpath,有没有用代理。如果对方用的标签提取,你不考虑 seo 的话,文章内容写一个打乱排序的方法或者加密方法,结合 js,重置排序或者解密,不影响用户阅读体验,但是他抓去之后就乱了。如果是 xpath 提取,大概率是能直接提取你给用户最终呈现的效果,乱序和加密解密没意义。那没办法,只能封 ip,做策略,限制访问。
|
25
reus 2019-11-02 10:43:19 +08:00 via Android
起诉
|
26
reus 2019-11-02 10:44:20 +08:00 via Android
@xkzhangsan 爬虫不违法,爬个人信息才违法。爬虫违法的话,百度就不用干了
|
27
MikeLei 2019-11-02 10:48:53 +08:00
阿里云爬的文章,真的是垃圾中的战斗机,有时候里面就是零零散散完全没有意义的几个字,有时候里面压根就没有任何内容,只有标题是搜索的目标词,都是目录导流到其它页面的词条,真的是垃圾。
|
28
isukkaw 2019-11-02 12:15:38 +08:00
把你自己网站的权重做到足够高,这样不论他们怎么爬取,都没有办法和你竞争 SEO。
|
29
luckylo 2019-11-02 12:25:04 +08:00 via Android
转图片?上水印?
|
30
greatbody 2019-11-02 12:29:41 +08:00
爬虫是违法的。除非你的网站里面没有写 rebot.txt
|
31
LZSZ 2019-11-02 12:32:43 +08:00
放些广告试试?
|
32
tabris17 2019-11-02 12:39:00 +08:00
把原文链接以 0px 的大小嵌入正文
|
33
superrichman 2019-11-02 13:30:20 +08:00 via iPhone
@Jirajine 这操作太骚了
|
34
FantasyPupil 2019-11-02 14:10:45 +08:00
@reus 爬虫需要遵守 robots.txt 规则,只要遵守了就不违法。 主流的搜索引擎都遵守的。
|
35
Epsil0n9 2019-11-02 14:21:46 +08:00
@shiny
"看了一下这位蒋律师的历史回答,就是快板的人。这是帮律师开的公司,收购作者报刊上的旧文章版权,然后散播到网上。因为作者知名度一般,原文章首发于地方报纸,刊登内容为生活常识小科普。导致网上大多数公众号运营无法判断来源,同时也觉得这种日常生活文章没有过多原创性。转载后,该公司会恶意发函,对公众号索要高达 3000 的侵权费,同时该公司位于杭州垄断了 80%的杭院互联网起诉案,全靠这种无赖起诉法,被告多为内蒙北京等远地,又会驳回异审申诉,导致被告打官司成本过高,只能吃哑巴亏。收益全部被该公司获得,作者只有当初卖的稿费。说白了就是买旧文章处找中小企业碰瓷的公司,钻了法律的漏洞,屡试不爽,用同一篇文章已经起诉了上百家企业,一个打着“保护原创”的流氓公司。" 作者:匿名用户 链接: https://www.zhihu.com/question/59277574/answer/227023845 来源:知乎 著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。 |
38
encro 2019-11-02 18:17:36 +08:00
如果被百度收录了,去百度举报。
|
39
yingfengi 2019-11-02 18:38:51 +08:00 via Android
我的小破站也被爬了,我去留言要脸吗,作者回复不要。。。。。
|
40
xdaoo 2019-11-04 00:23:49 +08:00 via iPhone
文章用 canvas 画出来
|
41
liufish OP 一个比一个硬核了。我这只是个 hexo 做的静态博客而已 [捂脸
|
42
janyin 2019-11-04 10:56:25 +08:00
阿里云 seo 很厉害呀
|