V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
V2EX 提问指南
abelyao
V2EX  ›  问与答

这里有 SAE 的童鞋吗?网站被各家搜索引擎给轮 X 了,怎么破?

  •  1
     
  •   abelyao · 2014-10-09 10:19:08 +08:00 · 3691 次点击
    这是一个创建于 3724 天前的主题,其中的信息可能已经有所发展或是发生改变。
    估计这个域名以前是有网站的,
    现在我绑定到 SAE 上面,
    百度 / Google / Bing 等几个搜索引擎的蜘蛛,每天访问几百次特定页面,
    消耗了我很多云豆,
    有什么办法可以屏蔽吗?

    21 条回复    2014-10-09 20:23:54 +08:00
    sunshower
        1
    sunshower  
       2014-10-09 10:23:20 +08:00
    robots.txt
    abelyao
        2
    abelyao  
    OP
       2014-10-09 10:26:36 +08:00
    @sunshower 就访问记录来看,只有 bing 偶尔才访问一次 robots.txt
    dong3580
        3
    dong3580  
       2014-10-09 10:50:09 +08:00
    @sunshower
    更新robots.txt基本不起作用,试过整整两个月之后,世界才清净了。
    试了试写邮件反馈,也是没用的。
    唯一的方法不知道是不是暂时屏蔽他们的ip.
    loading
        4
    loading  
       2014-10-09 10:53:57 +08:00
    你这个url有东西吗?返回403
    kenjey01
        5
    kenjey01  
       2014-10-09 10:56:33 +08:00
    每天几百次 会消耗很多云豆吗? 404基本没有多少流量消耗
    abelyao
        6
    abelyao  
    OP
       2014-10-09 11:03:52 +08:00
    @dong3580 他们的 IP 太多了,哎!
    abelyao
        7
    abelyao  
    OP
       2014-10-09 11:04:29 +08:00
    @loading 没有对应的 url,返回 403 可以让搜索引擎歇一歇吗?
    abelyao
        8
    abelyao  
    OP
       2014-10-09 11:05:16 +08:00
    @kenjey01 云豆目前来说是足够的,但是占了几百页日志,严重影响我分析网站的一些情况…
    ab
        9
    ab  
       2014-10-09 11:08:42 +08:00
    没有这个问题...
    mornlight
        10
    mornlight  
       2014-10-09 11:14:25 +08:00
    robots.txt 肯定会有用的,但是搜素引擎会缓存robots的内容,你更新后很久他们才跟着更新。
    另外,如果针对百度的话可以到百度站长平台里试一试,能调节Spider频率
    abelyao
        11
    abelyao  
    OP
       2014-10-09 11:30:02 +08:00
    @mornlight 暂时先添加 robots.txt 了
    typcn
        12
    typcn  
       2014-10-09 12:03:09 +08:00
    @abelyao 为毛要用日志分析..... 用第三方分析就完了,正好还能过滤不支持 js 的 bot,话说我以前也是用的sae bae 后来感觉性能太渣就开始用 vps 了
    Execution
        13
    Execution  
       2014-10-09 12:12:34 +08:00
    花时间去整这些什么e的时间,够撸主上几个性价比vps了,撸的还带劲。
    dong3580
        14
    dong3580  
       2014-10-09 13:13:38 +08:00
    @abelyao
    我想了想一个解决方法,前提如果你的代码使用MVC方式写的,可以在路由中加入全局代码,404的话跳转到某个静态页面。
    截一段我的代码给你参考。
    ```C#
    protected void Application_Error(object s, EventArgs e)
    {
    Exception ex = Server.GetLastError();
    if (ex.GetType().Name == "HttpException")
    {
    HttpException exception = (HttpException)ex;
    if (exception.GetHttpCode() == 404)
    {
    Response.StatusCode = 404;
    Response.Redirect("/Home/Error?code=PageNotExist");
    }
    }
    Server.ClearError();
    }
    ```

    如果使用了IIS部署的,直接可以在iis设置里面加上404的跳转地方,这样就不会销耗什么流量了。
    (猜想其他部署的方式也可以实现吧)
    knightluffy
        15
    knightluffy  
       2014-10-09 13:24:24 +08:00
    用https吧。。估计只有Google的蜘蛛能进了。。
    zts1993
        16
    zts1993  
       2014-10-09 15:43:45 +08:00
    SAE防火墙啊。。。
    我也被艹过。。。好惨的说。、
    mornlight
        17
    mornlight  
       2014-10-09 16:11:10 +08:00
    @knightluffy SAE 的自定义域名能使用https?我前几天还在微博上跟SAE的架构负责人吐槽过
    abelyao
        18
    abelyao  
    OP
       2014-10-09 18:14:23 +08:00
    @zts1993 防火墙研究了半天,不懂如何屏蔽搜索引擎啊,请指点一下!
    sandideas
        19
    sandideas  
       2014-10-09 19:18:33 +08:00 via Android
    @abelyao 把所有爬虫ip拉黑名单
    zts1993
        20
    zts1993  
       2014-10-09 20:23:32 +08:00
    @abelyao 屏蔽p
    zts1993
        21
    zts1993  
       2014-10-09 20:23:54 +08:00
    屏蔽ip段
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5380 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 25ms · UTC 08:53 · PVG 16:53 · LAX 00:53 · JFK 03:53
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.