V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
gzdaijie
V2EX  ›  程序员

独立博客被各种聚合网站爬,好心累。

  •  
  •   gzdaijie ·
    geektutu · 2019-06-29 12:23:19 +08:00 · 19164 次点击
    这是一个创建于 1966 天前的主题,其中的信息可能已经有所发展或是发生改变。

    博客没权重,本来都放弃治疗了,今年 6 月份一个同事提起我原来的博客,心有不甘,又开始操作了。

    删了 20+原来辛辛苦苦敲出来的文章,因为已经被 CSDN 等各种网站转载得面目全非了,谷歌搜索在一万页以后了。原来没经验,第一时间将网址分享到头条、掘金,segmentfault 等地方,完全没想到,这些网站都是全文爬取的。这些站推到首页后,更多的站也转了,然后,权重拼不过,反而是我被认定为抄袭了。

    百度就不说了,前 10 页,不是 CSDN 就是 cnblogs,小站基本不收录,也没索引。

    最近又写几篇,想安安静静地把两年前没写完的主题继续完成,也不往外分享链接了。10 篇文章左右,声明了禁止转载,平均每天 2、3 百流量,有一天到了 800,算是有点安慰,还有人看。

    但是,但是,但是。

    最近 2 周疯狂被各种聚合站爬,包括码农网、数据之路,闪念基因,等等。。。

    甚至 bigdataway 经常在我发表文章后 10 分钟 就爬走了 !!!而且指向我站点的链接全删,谷歌搜索关键字,聚合站居然还排在第一页第一个,心好累。有几个网站还算有点良心,联系了后删了文。也有不理我的,还有不留联系方式的。

    无奈,只能通过 Google Spam Report 举报这种无良转载,连续举报了一周,关键字搜索,有几篇又慢慢回到了谷歌首页。但是有些 10 分钟就爬走的,真心很难举报。与各个技术站长共勉吧。

    如果后期维权有成果,搜索流量、阅读量等上来了,到时候写一篇 “维权之路” 吧。先立一个 flag,估计撑不到那个时候,就心累得永远放弃了。

    https://geektutu.com

    第 1 条附言  ·  2019-07-01 17:01:21 +08:00
    主题 Github 地址: [geektutu 极速加载的 hexo 主题]( https://github.com/geektutu/hexo-theme-geektutu)
    156 条回复    2019-07-02 11:39:18 +08:00
    1  2  
    lunatic5
        1
    lunatic5  
       2019-06-29 13:04:15 +08:00   ❤️ 9
    干货太多,所以采集的人多。。。像我们这里小博客,搜索引擎的爬虫都不想来
    loading
        2
    loading  
       2019-06-29 13:06:01 +08:00   ❤️ 3
    技术博客不能写成技术 wiki,要加点自己生活的东西在里面,这样爬虫也要费神。
    楼主你这种,闭眼爬就行了。。。
    jdhao
        3
    jdhao  
       2019-06-29 13:09:07 +08:00 via Android
    试试英语写博客?我的博客搜索相关关键词,还是比较靠前的
    gzdaijie
        4
    gzdaijie  
    OP
       2019-06-29 13:11:12 +08:00
    @loading 嗯,写自己生活的东西也是最近几周想到的,最近把自己的心路历程总结了几篇。

    爬虫爬的时候估计是按关键字的,特别是标题关键字契合就行。码农的关键字就那么几个,里面塞点个人情感,也不影响爬。我最新的 2 篇文章图片全加了水印,一样肆无忌惮地采集。
    starrycat
        5
    starrycat  
       2019-06-29 13:12:01 +08:00 via Android
    大佬才会有的烦恼😂。我博客文章只在博客发,很少有采集,只有一般博客的转载引用。
    gzdaijie
        6
    gzdaijie  
    OP
       2019-06-29 13:13:57 +08:00
    @lunatic5 因为最近写的东西还没人写,框架都还没发布,参考了各种文档,一行一行码出来的,每一篇都花了好多时间,所以被这样瞬间采集挺难过的。
    loading
        7
    loading  
       2019-06-29 13:15:09 +08:00
    @gzdaijie 写点自己东西是为了让看到垃圾站的人知道,他正在看的文章并不是那个站点原创的。
    qf19910623
        8
    qf19910623  
       2019-06-29 13:15:53 +08:00
    我那个小破站人家都不想爬。。。
    gzdaijie
        9
    gzdaijie  
    OP
       2019-06-29 13:16:14 +08:00
    @jdhao 嗯,这个问题思考了很久了。想用另一个站做英文博客。受众大一些,谷歌也会更友好一点。不过精力真是个大问题,难得逼自己,写几篇文章。中间有过一年,一篇都没写过。原来的 20+篇也是集中写完的。
    gzdaijie
        10
    gzdaijie  
    OP
       2019-06-29 13:19:16 +08:00
    @loading 我做了几点尝试,一是图片加水印,二是每个代码片段,最开始注释加域名。

    不过很感谢你的这个思路,我会尝试的。中间夹杂几句,更容易被读到,而且文章也有点情感,立体一点。不然总觉得自己写的东西干巴巴的。
    gzdaijie
        11
    gzdaijie  
    OP
       2019-06-29 13:21:07 +08:00
    @starrycat 原来每天也就 20-30 流量,也没人采,最近写了几篇比较新颖的,然后就被盯上了。
    loading
        12
    loading  
       2019-06-29 13:21:58 +08:00
    @gzdaijie 加域名没用的,爬虫匹配后清掉就行了。要冷不丁地加东西,你都加是很容易别过滤的。
    loading
        13
    loading  
       2019-06-29 13:22:28 +08:00
    甚至你可以尝试加 xss 脚本。
    gzdaijie
        14
    gzdaijie  
    OP
       2019-06-29 13:25:39 +08:00
    @qf19910623 我原来也没人爬,只是怪自己手贱非要主动分享链接到掘金这些地方去,被全文爬了。而且是刚发就分享,至少等收录几天后再干这种事,被谷歌认定抄袭心有不甘。

    我的也是个小破站,没几篇文章。不知道最近几篇怎么被看上的。
    NikoLan
        15
    NikoLan  
       2019-06-29 13:27:39 +08:00
    所以,有木有防止爬虫的前端框架(换个角度思考问题
    就算有,SEO 也有问题,伪命题
    sisylocke
        16
    sisylocke  
       2019-06-29 13:28:35 +08:00
    歪个楼,大佬能加个 RSS 源吗(*´∇`*)
    terence4444
        17
    terence4444  
       2019-06-29 13:30:35 +08:00 via iPhone
    是否可以像视觉中国那样起诉索赔?
    mogp
        18
    mogp  
       2019-06-29 13:33:28 +08:00 via Android
    昨天刚从贵站下载 Pandas 数据处理(三) - Cheat Sheet 中文版
    whwq2012
        19
    whwq2012  
       2019-06-29 13:38:56 +08:00   ❤️ 7
    话我就放这里了,垃圾聚合站站长司马。

    前两天室友要我帮忙查询他亲戚的高考分数够不够某个学校的录取线,于是我就去查了去年的一分一档表,搜索后发现只有聚合站才有符合条件的关键字,其他网站都没有,于是我没有细看就信了,但是万万没想到,网页的 title 和正文标题都是 2018 年一分一档,但是实际上图里是 2017 的,只有一行小字在旁边标注。而实际是该省去年并未发布一分一档表,但是这司马聚合站还用这个当标题误导人。
    幸好算出来的分数最多也就七八分的误差,要是再多差一点,那个人可能就可能从第一志愿滑档了。

    更别说平时查资料时,聚合站污染视线,比广告站还过分


    我再重复几遍
    聚合站站长司马!
    聚合站站长司马!
    聚合站站长司马!

    就是这个网站 http://www.aiyangedu.com
    brust
        20
    brust  
       2019-06-29 13:43:59 +08:00
    @whwq2012 #19
    这些网站确实恶心
    twoconk
        21
    twoconk  
       2019-06-29 13:46:17 +08:00
    刚好在看 TensorFlow 的东西的,楼主的博客写的很细致,好好看看!
    gzdaijie
        22
    gzdaijie  
    OP
       2019-06-29 14:12:11 +08:00
    @twoconk 之前自己找资料的时候,代码动辄几百上千行,太冗长。TF2.0 还没正式发布,目前是 beta 版,觉得还不错,就直接用 2.0 开始写了,每个 demo 都保持在 50-100 行左右。谢谢你的认可~
    skiy
        23
    skiy  
       2019-06-29 14:13:19 +08:00 via Android
    内容里面加本文 url
    gzdaijie
        24
    gzdaijie  
    OP
       2019-06-29 14:14:43 +08:00
    @mogp 哈哈,女票金融行业的,会经常用 pandas 处理 excel,又不喜欢看英文版,特意给她做的版本,顺便就传到自己博客了。这个系列三篇是根据她问的问题写的,不知道算不算是狗粮,先逃了。
    gzdaijie
        25
    gzdaijie  
    OP
       2019-06-29 14:18:20 +08:00
    @sisylocke 感谢认可!!!加上 RSS 后再来回复你。之前博客是 React+Koa 从头到尾自己写的,后来懒得维护了,就用了静态框架 hexo 花了 2 天按照自己原来博客的样式,一模一样地撸了这个主题,功能还很弱。
    Buges
        26
    Buges  
       2019-06-29 14:20:59 +08:00   ❤️ 4
    写点不太和谐的东西,他们就不敢采集了。
    gzdaijie
        27
    gzdaijie  
    OP
       2019-06-29 14:21:58 +08:00
    @NikoLan 是的,SEO 是个大问题。对于动态生成的页面,谷歌好像也可以提供 json 格式的描述支持收录,忘记了。但是总觉得不是主流不靠谱。内容只能先渲染出来。
    gzdaijie
        28
    gzdaijie  
    OP
       2019-06-29 14:25:45 +08:00
    @whwq2012 中文站是无解的,百度偏好这类站,广告流量稳定,关键字可以卖,垃圾网页也无处举报。

    小站百度半年估计也不愿看一眼,我的有篇文章,按关键字 google 排第一条,但是百度宁愿显示些毫不相关的内容,也不愿意收录显示小站的。
    easylee
        29
    easylee  
       2019-06-29 14:28:35 +08:00
    站点加载速度特么是真的快!

    💪
    gzdaijie
        30
    gzdaijie  
    OP
       2019-06-29 14:31:43 +08:00
    @terence4444 这些聚合站采集文章,估计知道大家不会这样做的。

    不过,大家如果发现自己的网站被爬了,搜索结果还排在前面,Google Spam Report 真心推荐。效率很高,一般两小时后,再去搜索,垃圾站的索引就没了。前提是,你第一时间向 Google 提交了网址。

    真心得总结一篇,让大家都少走点弯路。
    gzdaijie
        31
    gzdaijie  
    OP
       2019-06-29 14:35:47 +08:00
    @skiy 嗯,我在代码片段里加了,图片也加了。不过令我最烦恼的,是 Google 搜索把我判定为抄袭,然后搜索结果显示聚合站,而不显示我的。比如对方十分钟就爬走了,然后第一时间提交 Google,并被收录。跳进黄河也洗不清。
    gzdaijie
        32
    gzdaijie  
    OP
       2019-06-29 14:39:06 +08:00   ❤️ 1
    @easylee 自己撸的 hexo 主题,持续优化中~

    如果对 hexo 主题感兴趣,也欢迎关注我的主题,两周前花两天时间撸的。

    https://github.com/geektutu/hexo-theme-geektutu
    gzdaijie
        33
    gzdaijie  
    OP
       2019-06-29 14:41:43 +08:00
    @Buges 哈哈,我觉得生活对我不薄,还想多活几年。
    youngxu
        34
    youngxu  
       2019-06-29 14:42:52 +08:00 via Android
    用 github pagse 啊,看他们怎么爬
    gzdaijie
        35
    gzdaijie  
    OP
       2019-06-29 14:47:18 +08:00
    @youngxu pages 是 robots 协议不允许百度爬,对普通的爬虫也有反爬措施吗?还有一点,就是觉得 pages 访问太慢了,今年发现快很多了,上海联通,github 晚上卡得不行。
    weixiangzhe
        36
    weixiangzhe  
       2019-06-29 15:00:31 +08:00 via iPhone
    我觉得还挺好 我在我的所有文章里都有写原文地址的
    cifermail
        37
    cifermail  
       2019-06-29 15:04:06 +08:00
    LZ 看起来对爬虫有经验?可以写个比较全面的反爬虫博客?比如外部的“举报、Google Spam Report、曝光、维权”,文章本身的“链接、remark、代码 js/css/内容混淆”,服务器的”反爬虫“,一条龙服务。
    gzdaijie
        38
    gzdaijie  
    OP
       2019-06-29 15:06:14 +08:00
    @weixiangzhe 正常转载问题不大的,主要是采集站爬得太快了,搜索引擎难以分别原创。不过即使是正常转载,Google 也会给转载站降权重的,对自己不利。其实自己写一段推荐摘要,不放原文会比较好。
    gzdaijie
        39
    gzdaijie  
    OP
       2019-06-29 15:11:47 +08:00
    @cifermail 爬虫琢磨过一段时间,静态博客,服务器端能做的有限。不过计划下一篇博客折腾记,专门记录这两周的心路历程和反爬措施,让看到的独立博主多点方式维护自己的利益。目前还要再总结点干货。
    fengtons
        40
    fengtons  
       2019-06-29 15:23:52 +08:00 via Android
    厉害,收藏了
    NG6
        41
    NG6  
       2019-06-29 15:27:41 +08:00
    楼主博客专业性很强,我自己的博客每天也就 400 多访问量,不过搜索引擎索引了不少,经常还是能搜到我自己的文章,哈哈,转载啥的到也无所谓,都是一些笔记之类的,实用性较强,被转载了也能帮助别人,本来也没广告
    https://sleele.com
    77alex
        42
    77alex  
       2019-06-29 15:29:33 +08:00   ❤️ 1
    我觉得 @Buges #26 楼的方法非常好,被转载之后第一时间你编辑自己的原帖,然后去把对方网站举报了。这种直接封站 1 个月起步。尤其针对那种 10 分钟就偷你文章的网站
    gzdaijie
        43
    gzdaijie  
    OP
       2019-06-29 15:37:52 +08:00
    @NG6 你的文章数量和质量都不错,肯定花了不少时间。写文章很耗精力,当然是希望帮助别人的~ 但是希望搜索引擎认为自己的原创的,这是底线。收录了几天后再转,也没啥问题,我原来的声明也是鼓励转载的,伤心了。

    大家也可以发一发自己的原创博客链接,独立博主是个小圈子,一起交流交流~
    skenan
        44
    skenan  
       2019-06-29 15:42:00 +08:00 via iPhone   ❤️ 1
    增加一些 google markup
    nicevar
        45
    nicevar  
       2019-06-29 15:45:58 +08:00
    写的太认真了, 写随意点, 每写几篇中间用程序生成几十篇, 爬虫都吐血
    darmau
        46
    darmau  
       2019-06-29 15:47:57 +08:00
    我们都没人来爬。。。

    medium 的权重很高,我一般在 medium 再发一篇,再链到博客
    gzdaijie
        47
    gzdaijie  
    OP
       2019-06-29 15:57:24 +08:00
    @skenan 感谢,这个有时间给加上。
    weakish
        48
    weakish  
       2019-06-29 16:05:58 +08:00
    可以学习一下萨达姆,据说萨达姆从来不说「我」,总是说「萨达姆」。

    例如,「我之前尝试过把某某元参数设为 X 」替换成「极客兔兔之前尝试过把某某元参数设为 X 」,
    「这篇文章将介绍 Y 」替换成「和极客兔兔一起了解下 Y 吧」,
    「有兴趣深入的读者可以参见张三在某顶会上的工作」替换成「这个概念是极客兔兔读了张三在某顶会上的工作后掌握的,有兴趣深入的读者也可以去瞄一眼」

    我以前见过有几个人的文章全是这个风格,但是只觉得比较别致。今天看到这篇帖子才想到,也许他们是为了反盗版。
    gzdaijie
        49
    gzdaijie  
    OP
       2019-06-29 16:15:49 +08:00
    @weakish 你居然发了语音,我跟着读了一遍。你的 pages 主页别具一格~
    halfer53
        50
    halfer53  
       2019-06-29 16:16:17 +08:00 via Android
    google 不会惩罚重复内容,google 会把相同的内容聚合在一起,当返回结果的时候,选择其中的一个返回
    gzdaijie
        51
    gzdaijie  
    OP
       2019-06-29 16:21:42 +08:00
    @halfer53 #50 这点没了解过,一开始搜相关关键字,都是转载的网站,但是用 site:查看的确是收录了,但是举报后,效果确实很明显。连续几天我的文章就能出现在搜索首页了,刚刚搜索也是......
    vsitebon
        52
    vsitebon  
       2019-06-29 16:23:13 +08:00
    @gzdaijie bonxg.com 就一直都说学习的东西,基本每篇都是思考后的内容。
    lirui0073
        53
    lirui0073  
       2019-06-29 16:25:17 +08:00
    第一时间报告给 google 让 google 过来索引啊 几次后就排名第一了
    Raynard
        54
    Raynard  
       2019-06-29 16:27:01 +08:00   ❤️ 1
    聚合站站长司马!
    LongLights
        55
    LongLights  
       2019-06-29 16:28:24 +08:00 via Android
    纯干货。。。采集完都不需要二次编辑的,唉 心疼楼主我。我的网站也差不多,写文艺作品评论的,好多被百家号之类的辣鸡平台花式采集,排名还都比我高
    gzdaijie
        56
    gzdaijie  
    OP
       2019-06-29 16:31:22 +08:00
    @vsitebon 配色好漂亮呀,突然感觉我设计的土得掉渣了,注重功能,没注重色调了。
    gzdaijie
        57
    gzdaijie  
    OP
       2019-06-29 16:32:30 +08:00
    @LongLights #55 作为一个搜索引擎,搞百家号这种专注于抄袭的内部引流,格局之小,令人咂舌。
    gzdaijie
        58
    gzdaijie  
    OP
       2019-06-29 16:34:40 +08:00
    @lirui0073 感谢,我现在新文章推上去,马上在 google 上手工更新 sitemap.xml ,5 分钟后发现收录了,安心睡觉。之后发现采集再举报,效果明显。过去荒废了一年,不懂这些。
    ElegantOfKing
        59
    ElegantOfKing  
       2019-06-29 16:34:47 +08:00
    没想到以这种方式又看到楼主的博客!我前几个月帮人写毕设,就是参考了楼主的 Mnist 相关文章,还在 Github 上 star 了相关的项目。真心感谢,写的真不错!
    westoy
        60
    westoy  
       2019-06-29 16:35:57 +08:00
    聚合一般都是爬 feed 的, 改成输出部分再加个查看全文的连接
    vsitebon
        61
    vsitebon  
       2019-06-29 16:37:11 +08:00   ❤️ 1
    @gzdaijie colorhunt.co 你可以从里面找配色
    siyushin
        62
    siyushin  
       2019-06-29 16:39:52 +08:00
    自从有人宣称他发明了免费这种商业模式后,生态就必然会变成这样了……
    Dslayer
        63
    Dslayer  
       2019-06-29 16:40:13 +08:00
    @weakish 第三人称己称, 萌点。
    据说史达林也这样,可能是塑造形象所需。
    iyaozhen
        64
    iyaozhen  
       2019-06-29 16:40:33 +08:00
    正常(全文)转载,留原文链接我也能接受。

    但完全的那种聚合站,原文链接还是另一个聚合站的,还嵌套了,这是最骚的。
    gzdaijie
        65
    gzdaijie  
    OP
       2019-06-29 16:45:26 +08:00
    @ElegantOfKing #59 当时在打比赛,然后用 mnist 总结了一些与众不同的地方写了下来,对你有帮助,感觉很开心!现在有更新的内容了~
    littleghosty
        66
    littleghosty  
       2019-06-29 16:48:32 +08:00
    cnblog 自己都被爬
    gzdaijie
        67
    gzdaijie  
    OP
       2019-06-29 16:51:42 +08:00
    @littleghosty #66 爬 cnblogs 就太傻了,除非是做推荐用,比如 tuicool,cnblogs 的权重太高了。爬百度不管的原创博主,是收益最大的。
    gzdaijie
        68
    gzdaijie  
    OP
       2019-06-29 17:02:48 +08:00
    @westoy #60 也有可能爬 sitemap,比对是否有新链接再过滤。估计维护了一个域名列表,定期去看是否有新链接。我被爬取后的文章不是 feed 里的原文,而是从 article 标签内部,过滤掉 a、script、canvas 等标签的结果。
    weicools
        69
    weicools  
       2019-06-29 17:04:17 +08:00 via Android
    我的搜索都是用油猴脚本屏蔽了 csdn,抄太多,质量差,阅读体验极差!!!
    haozi3156666
        70
    haozi3156666  
       2019-06-29 17:14:11 +08:00
    文末插入一个转载自当前页面的链接,就算爬过去也会有个链接指向你的博客,给你加点权重。
    gzdaijie
        71
    gzdaijie  
    OP
       2019-06-29 17:20:58 +08:00
    @haozi3156666 #70 我分析了大部分转载的网站,结果很失望。

    1. 将指向原站的链接全部干掉。
    2. 将原站链接的 a 标签,加上 nofollow, noindex 属性,搜索引擎会过滤掉有这个属性的标签。
    3. 将原站的链接全转为跳转,比如 https://la_ji_zhan 点 com/go?href=你的链接,由垃圾站的服务器提供 302 重定向。
    4. 把你原站的链接,全爬过来,都改为指向自己的。

    最终连外链都舍不得施舍。
    haozi3156666
        72
    haozi3156666  
       2019-06-29 17:40:20 +08:00
    @gzdaijie 这么凶残,那别用 a 标签了,直接把链接用文本形式写出来,做一些引导文案,让看的用户主动到源站去看。比如:更多精彩请订阅 xxx,关注 xxx 公号,反正就是引导到你自己的地盘上去。
    ziseyinzi
        73
    ziseyinzi  
       2019-06-29 17:52:31 +08:00 via Android
    @阿里云云栖社区
    weixiangzhe
        74
    weixiangzhe  
       2019-06-29 17:58:44 +08:00 via iPhone
    尾部链接都不行 这也太恶心人了
    kwoktung
        75
    kwoktung  
       2019-06-29 17:58:49 +08:00 via Android
    干货满满
    xratzh
        76
    xratzh  
       2019-06-29 18:06:54 +08:00 via Android
    我一般加上自己的文章地址在文章里,顺便也被爬了,然后有人会回我的博客看
    JCZ2MkKb5S8ZX9pq
        77
    JCZ2MkKb5S8ZX9pq  
       2019-06-29 18:13:09 +08:00
    国家准备推侵权的惩罚性赔偿,不知道能不能搭上顺风车。
    meetocean
        78
    meetocean  
       2019-06-29 18:48:09 +08:00
    博客折腾记(一) - 极致性能的尝试,写的很好。
    gzdaijie
        79
    gzdaijie  
    OP
       2019-06-29 19:03:45 +08:00
    @meetocean #78 你是专业写作的,这个评价很开心!技术博客写作算是业余爱好,不喜欢被采集也只是一时气愤不过。看了你写书的帖子,才觉得,版权状况的好转对于全职投入的人至关重要,祝愿你实现梦想!
    sbmzhcn
        80
    sbmzhcn  
       2019-06-29 19:04:00 +08:00
    发生这种事是因为搜索引擎的质量及索引高质量内容的能力有所下降,如果搜索引擎能很好的区分内容的原始来源,就不会形成这种情况,聚合网站能快速获取流量,然后靠流量可以获得收入,目前 baidu google 对聚合内容都无法很好的处理,它们的排名往往非常好。但实际内容是没什么帮助的,前些年还不是这样,最近几年搜索引擎结果页质量越来越差,是 baidu google 本身的能力有限,还无法区分哪些是好的,哪些是不好的。

    有一个可能的解决办法,及时把你的内容让 google baidu 收录,可以加入它们的站长管理员工具里,这种情况,必须做一些 seo,不然聚合内容排名会在你上面,比你还原创。
    还有就是投诉相应的网站。
    hoyixi
        81
    hoyixi  
       2019-06-29 19:06:47 +08:00
    简体中文个人站已亡,真要写技术类文章,还不如注册个公众号之类自媒体,说不定还能赚个饮料钱
    ety001
        82
    ety001  
       2019-06-29 19:37:35 +08:00
    这些聚合站终将会完蛋!
    StarRED
        83
    StarRED  
       2019-06-29 19:44:39 +08:00 via Android
    在国内很正常啦,怀念以前都是免费的时代。什么都是免费的。
    gzdaijie
        84
    gzdaijie  
    OP
       2019-06-29 20:13:38 +08:00
    @sbmzhcn #80 提交到百度=没有提交,一年来爬一次,爬的时候发现转载的早已被收录,降权重,改成两年爬一次。被收录的永远是转载的 CSDN,cnblogs 等少数几个平台,举报无用,恶性循环。
    提交到谷歌=五分钟内收录,发现有人采集,可以举报,举报有用,还能搜到原创的东西。

    所以现在专心在谷歌上优化了,百度彻底放弃了,提交了网址,几个月都不理一次的。
    gzdaijie
        85
    gzdaijie  
    OP
       2019-06-29 20:15:50 +08:00
    @hoyixi #81 倒也不是为了赚钱,花费的精力也远远大于饮料钱,主要是做个总结,希望能帮到别人。但是不希望被无底线地爬取,最终原创的人被贴上抄袭的标签。
    gzdaijie
        86
    gzdaijie  
    OP
       2019-06-29 20:17:32 +08:00
    @StarRED #83 写博客公开出来也是免费的,我觉得和免费不免费没有关系。只是希望原创者不要被误解为抄袭者罢了。
    hoyixi
        87
    hoyixi  
       2019-06-29 20:27:12 +08:00
    @gzdaijie #85
    我也差不多是这个意思,与其便宜了聚合站。不如自己在封闭平台搭个窝。 不过做好备份就是了,平台有个弊端就是说删就删
    gzdaijie
        88
    gzdaijie  
    OP
       2019-06-29 20:30:21 +08:00
    @hoyixi #87 非常感谢你的建议,目前还想在博客上做一些实验的,比如某些页面做些好玩的东西,公众号有点封闭了,再坚持坚持。
    marcosteam
        89
    marcosteam  
       2019-06-29 20:31:30 +08:00 via Android   ❤️ 1
    聚合站真的恶心,SEO 搞得搜索结果乌烟瘴气
    jinyu121
        90
    jinyu121  
       2019-06-29 21:27:26 +08:00 via iPhone
    记得有个东西,显示出来的是一套,复制出来的又是另一套。

    叫 寒蝉
    glouhao
        91
    glouhao  
       2019-06-29 21:33:46 +08:00 via Android
    以前有人采集我把链接带上了了,挺爽。
    shijingshijing
        92
    shijingshijing  
       2019-06-29 21:41:45 +08:00
    都是头条系带的好头,大家看着头条系靠爬新闻做这么大了,都玩起了聚合分发这一套了,最终的结果就是中文内容质量越来越差,原创性的东西越来越少。
    mon3
        93
    mon3  
       2019-06-29 21:55:58 +08:00
    把 rss 关了,再做一下反爬,就 OK 了。
    做聚合的要大量写爬虫规则的,遇到恶心的反爬会直接放弃的。
    s4nd
        94
    s4nd  
       2019-06-29 22:07:27 +08:00
    在文章里用你自己的域名或者网站名字把几个敏感词分开,他们爬去过滤掉你的域名就出现了敏感词,各种敏感词一起上,看他们还敢不敢爬
    qsbaq
        95
    qsbaq  
       2019-06-29 22:11:03 +08:00
    楼主交换链接么?
    gzdaijie
        96
    gzdaijie  
    OP
       2019-06-29 22:48:57 +08:00
    @qsbaq #95 交换友链的话,你可以到 https://geektutu.com/post/link.html 这里留言~
    欢迎原创博主换链接。
    Hypn0s
        97
    Hypn0s  
       2019-06-29 23:54:31 +08:00
    一个自损八百的方法就是用 canvas 画博客
    sz007
        98
    sz007  
       2019-06-30 01:20:29 +08:00
    可以试试这几个方法
    1.文章结尾处加上原文链接,跟内容混合在一起,利于 PR
    2.写完文章立即提交到 Google console、百度站长,利于辨别原创
    3.定期有规律更新文章,利于吸引爬虫
    GTim
        99
    GTim  
       2019-06-30 06:48:47 +08:00
    1. 别只发技术文章,不要使用分类,更多应该用标签
    2. 第一时间提交到 baidu / google
    3. 生活文章有时候也提一提技术。

    这样,有时候聚合站会被你气死,哈哈....
    huhexian
        100
    huhexian  
       2019-06-30 07:24:54 +08:00
    哈哈我个人博客,写写日记随笔,基本没人采集
    1  2  
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   2696 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 34ms · UTC 12:29 · PVG 20:29 · LAX 04:29 · JFK 07:29
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.