V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
matrix67
V2EX  ›  Google

谷歌昨天挂是因为磁盘满了。。。。

  •  1
     
  •   matrix67 · 2020-12-15 09:41:29 +08:00 · 23442 次点击
    这是一个创建于 1443 天前的主题,其中的信息可能已经有所发展或是发生改变。

    感觉很实诚,没用网络割接抖动之类的借口。

    Snipaste_2020-12-15_09-36-57.png

    顺便问下监控技术哪家强。

    有人吐槽从 google photos 开始不再无限存照片,就知道它磁盘资源吃紧了!

    第 1 条附言  ·  2020-12-15 10:26:38 +08:00
    看了一下这个页面 https://status.cloud.google.com/summary 其实一年里面问题也不少啊。
    第 2 条附言  ·  2020-12-15 15:18:05 +08:00

    简单的事故报告出来了 https://status.cloud.google.com/incident/zall/20013

    的确不是磁盘满了,感谢 @reus 老哥提醒。

    111233.png

    108 条回复    2020-12-16 11:52:13 +08:00
    1  2  
    salmon5
        1
    salmon5  
       2020-12-15 09:43:13 +08:00   ❤️ 1
    丢人的 Google
    silvernoo
        2
    silvernoo  
       2020-12-15 09:44:07 +08:00
    哈哈不丢人
    lvzhiqiang
        3
    lvzhiqiang  
       2020-12-15 09:44:17 +08:00   ❤️ 1
    实诚!
    andrewpsy
        4
    andrewpsy  
       2020-12-15 09:44:40 +08:00 via Android
    图显不出来,不是用的谷歌图库吧?
    wgbx
        5
    wgbx  
       2020-12-15 09:47:11 +08:00
    丢人在哪里?
    Tink
        6
    Tink  
       2020-12-15 09:48:13 +08:00
    不容易
    salmon5
        7
    salmon5  
       2020-12-15 09:50:27 +08:00
    @wgbx 全球鼓吹 SRE,结果自己核心系统出现低级失误;
    felixcode
        8
    felixcode  
       2020-12-15 09:51:25 +08:00
    不丢人,技术还是全球首屈一指的。
    gtchan13579
        9
    gtchan13579  
       2020-12-15 09:51:29 +08:00
    怪不得昨天我的谷歌账号登不上了,今天又突然好了。
    43529
        10
    43529  
       2020-12-15 09:53:33 +08:00
    磁盘满了.....满了....
    thet
        11
    thet  
       2020-12-15 09:54:37 +08:00
    @salmon5 SRE 不是不出错误,要综合 SLA 等等一起看的
    MeteorCat
        12
    MeteorCat  
       2020-12-15 09:55:07 +08:00 via Android
    这理由清新脱俗,导致不知道从哪里开始吐槽
    fyovo
        13
    fyovo  
       2020-12-15 09:57:02 +08:00
    磁盘满了害行...
    deorth
        14
    deorth  
       2020-12-15 10:00:54 +08:00
    昨天油管帐号登不上,都不知道该看啥
    matrix67
        15
    matrix67  
    OP
       2020-12-15 10:01:00 +08:00
    @salmon5 #7 而且降级熔断也有问题哈,命名是认证服务挂了,但是油管也看不来,这个没有降级啊。

    所以有人说隐身模式是可用的。
    matrix67
        16
    matrix67  
    OP
       2020-12-15 10:01:25 +08:00
    命名 => 明明
    luob
        17
    luob  
       2020-12-15 10:04:17 +08:00 via iPhone   ❤️ 19
    隔壁 p 站这几天删了 70%的内容,正好可以找他们借几车硬盘……
    dxfree
        18
    dxfree  
       2020-12-15 10:04:45 +08:00
    看来运维都差不多……
    Kupanda82
        19
    Kupanda82  
       2020-12-15 10:06:55 +08:00
    45min sla 今年 kpi 不达标了
    saytesnake
        20
    saytesnake  
       2020-12-15 10:10:13 +08:00
    k8s 的监控做得不好吧...
    mmdsun
        21
    mmdsun  
       2020-12-15 10:11:07 +08:00
    @wgbx 5 个月内宕机 3 次。。 次数有点多啊
    thjwuliubu
        22
    thjwuliubu  
       2020-12-15 10:16:02 +08:00
    所以 薅羊毛别太狠了 最后的结果就是大家都没得玩
    opengps
        23
    opengps  
       2020-12-15 10:21:17 +08:00   ❤️ 58
    45min/(365*24*60)=0.0000856164,也就是说可用性 99.99143836‬%
    谷歌级别的服务,可用性才有 4 个 9,各位提需求的老哥们,你们参考下,别动不动要求 7 个 9
    wpblank
        24
    wpblank  
       2020-12-15 10:23:47 +08:00
    上上周我们这边也是一个提供服务器+数据库的服务商磁盘满了,他们提供的数据库应该是共用磁盘,最后当天服务好几家公司宕了半天
    goodryb
        25
    goodryb  
       2020-12-15 10:27:12 +08:00   ❤️ 22
    思路清奇,挂了就是挂了,什么原因对用户来说重要么,还要贴个诚实的标签
    love
        26
    love  
       2020-12-15 10:27:24 +08:00
    原来 Google 也不监控磁盘空间的
    marcong95
        27
    marcong95  
       2020-12-15 10:28:15 +08:00
    昨天刚好在那个时间点想看一下 notion 上的东西,然而登录信息过期了,用的 Google 第三方登录,就连带 notion 也登不上了。。。看来第三方登录也不太靠谱,起码要留一个密码备用。。。
    arthas2234
        28
    arthas2234  
       2020-12-15 10:30:46 +08:00
    事实证明,不要把鸡蛋放在一个篮子里
    whileFalse
        29
    whileFalse  
       2020-12-15 10:30:56 +08:00
    @luob #17 怎么就删内容了呢?
    Braisdom
        30
    Braisdom  
       2020-12-15 10:34:08 +08:00
    作为程序员看了这样的问题,是不是觉得内心平衡了一点呀。
    NewIPIsComing
        31
    NewIPIsComing  
       2020-12-15 10:34:59 +08:00   ❤️ 1
    誠實,作為核心價值觀之外的一種美德,當然值的表揚
    RudyS
        32
    RudyS  
       2020-12-15 10:40:12 +08:00
    这个理由根本就是瞎几把扯
    就算是是一个没有运维的小公司,也很少会因为磁盘满导致服务挂掉的;更何况 google !
    stoneabc
        33
    stoneabc  
       2020-12-15 10:41:04 +08:00
    1. 短时间内某些程序突然大量写盘把磁盘占满了,监控来不及告警
    2. 监控很早就告警了,SRE 当做没看到
    3. SRE 看到了,通知机房运维上新磁盘,但由于疫情 机房运维人手不足没来得及上…
    哪种可能性比较大。。
    cnkuner
        34
    cnkuner  
       2020-12-15 10:43:10 +08:00 via Android   ❤️ 11
    不一定是实诚,可能是用硬盘满了来掩盖更大的问题。
    ddefewfewf
        35
    ddefewfewf  
       2020-12-15 10:43:40 +08:00
    @whileFalse 收款方式凉了
    hq136234303
        36
    hq136234303  
       2020-12-15 10:46:59 +08:00
    @luob 为啥?
    qiaobeier
        37
    qiaobeier  
       2020-12-15 10:50:55 +08:00
    昨晚吓死我了,我那个 gmail 绑定了一大堆服务。。。这 gmail 好像没怎么靠谱啊。但是也许我应该自己买个域名,这样就算邮件服务器挂了也可以换一个。不至于那么被动。
    tikazyq
        38
    tikazyq  
       2020-12-15 10:51:23 +08:00
    如果没遭遇过 磁盘 /CPU/内存 /带宽满了、上线翻车、数据库损坏、 版本冲突、网络故障,人生都不完整。

    看看人家赛博朋克 2077,bug 都多出天际了,照样不影响它的受欢迎程度
    whyso
        39
    whyso  
       2020-12-15 10:56:41 +08:00
    刚清过线上磁盘,已经百分之 80 多了。。。
    liangch
        40
    liangch  
       2020-12-15 11:03:47 +08:00   ❤️ 2
    丢人的前提是,有其它家做得更好。问题是,有么?没有,就不丢人。
    treblex
        41
    treblex  
       2020-12-15 11:05:12 +08:00
    @opengps #23 原来是这个意思,前几天在抖音看见,还以为是八心八箭之类的
    weyou
        42
    weyou  
       2020-12-15 11:06:57 +08:00 via Android
    找这个理由是为以后的收费做铺垫吧
    Illusionary
        43
    Illusionary  
       2020-12-15 11:07:21 +08:00
    不是因为总所周知的原因?
    phpcxy
        44
    phpcxy  
       2020-12-15 11:10:58 +08:00   ❤️ 1
    某知名学习网站疯狂删除大量视频,莫非也是这个原因吗
    NerverLibis
        45
    NerverLibis  
       2020-12-15 11:13:18 +08:00   ❤️ 11
    来个中国式的理由吧:
    谷歌官方表示,导致故障发生的人员为无正式编制的临时工。
    对 AA BB CC DD EE FF 等 6 名实习生 /临时工 /外包员工-予以解聘。
    故障发生时时,从监控视频中可看到,有一位牌号“J1397”的资深员工缓慢经过,但并未做任何反应停留。
    对此,运维部门 XX 经理答复道,当是运维人员因公出差,此地服务器不属于我们管辖范围内。
    被解聘实习生:“我看电视才知道自己已经解聘了,以后不想再干这份工作,我想离开美国”。
    受影响客户:希望运维道歉 规范操作
    kuner0614
        46
    kuner0614  
       2020-12-15 11:17:23 +08:00
    昨天 p 站也调整了内容政策,删除了未认证账号的发布视频。目前 P 站的视频总数从 1300 万部降至仅 400 万部。
    另外,以后仅允许认证用户发布视频,方式是上传手持 ID 的照片。
    6IbA2bj5ip3tK49j
        47
    6IbA2bj5ip3tK49j  
       2020-12-15 11:21:32 +08:00   ❤️ 12
    说实话,我是不信的。
    硬盘是最容易冗余,最低价的设施了。
    Authentication 系统出问题,这也不是一个会产生大量数据的系统。

    当然,在有些人眼里,谷歌说啥都是对,楼上都快扯到阿共的阴谋了。
    hd2ex
        48
    hd2ex  
       2020-12-15 11:23:29 +08:00   ❤️ 2
    没什么丢人的,错误不论高级还是低级,是人就会犯。诚恳面对的态度才可以造就伟大,而这正是国内环境缺少的。
    TypeError
        49
    TypeError  
       2020-12-15 11:24:14 +08:00   ❤️ 2
    spanner/f1 数据库不是全球分布式的吗
    bankroft
        50
    bankroft  
       2020-12-15 11:24:51 +08:00
    @kuner0614 #46 特地上去看了一眼,timeline 和片单都空了🥺🥺🥺so sad
    wangkai123
        51
    wangkai123  
       2020-12-15 11:27:27 +08:00   ❤️ 7
    quota 和磁盘满了还是有区别吧,别搞这种营销号标题。。
    Williams2008
        52
    Williams2008  
       2020-12-15 11:32:01 +08:00 via Android   ❤️ 1
    所以说地主家也没余粮了?
    matrix67
        53
    matrix67  
    OP
       2020-12-15 11:33:46 +08:00   ❤️ 1
    @wangkai123 #51

    磁盘配额问题,只可用资源的上限。

    要是你来翻译,你会咋翻译呢?
    feast
        54
    feast  
       2020-12-15 11:39:02 +08:00
    Y2B 一直 something wrong,http500 就知道是谷歌服务器出问题了,不过不登录的话是正常的,应该是用户评论数据那块满了
    mingt
        55
    mingt  
       2020-12-15 11:40:18 +08:00   ❤️ 5
    googlephotos
    不免费的原因是 AI 学习的资源已经足够了,
    不再需要各位提供了而已
    weifan
        56
    weifan  
       2020-12-15 11:41:51 +08:00   ❤️ 1
    是我高估 Google 了...
    sm0king
        57
    sm0king  
       2020-12-15 11:44:33 +08:00   ❤️ 1
    都遇到过磁盘满的事情吧?
    也没见多少因为磁盘满宕机的。
    MonoBiao
        58
    MonoBiao  
       2020-12-15 11:45:04 +08:00
    @kuner0614 那么问题来了,我以后要怎么看考研课程呢
    laoyur
        59
    laoyur  
       2020-12-15 11:51:17 +08:00   ❤️ 1
    很好,那正好可以为油管删除它不喜欢的视频找到借口了,磁盘不够了
    kuner0614
        60
    kuner0614  
       2020-12-15 11:54:30 +08:00
    @bankroft 私以为 p 站的长篇没有 twi 上的小视频刺激 XD
    Narcissu5
        61
    Narcissu5  
       2020-12-15 11:55:20 +08:00   ❤️ 9
    @goodryb 大侠有所不知,像阿里云这种每次出了问题死不承认,说是我们程序 BUG 让我们找原因,真是能把人憋屈死。另外阿里云的那么多个 9 也完全是靠死不认错换来的
    superrichman
        62
    superrichman  
       2020-12-15 11:58:35 +08:00 via iPhone
    @goodryb 信息透明,开放,比糊弄用户要好多了,用户可能不懂技术问题,但是服务提供者给出真实的事故说明很加分。
    js8510
        63
    js8510  
       2020-12-15 12:01:07 +08:00 via Android   ❤️ 2
    Quota 不是硬盘资源吃紧 是某些 service 分配的 quota 用完了会被 downstream throttled
    aonshuy
        64
    aonshuy  
       2020-12-15 12:10:06 +08:00   ❤️ 1
    @goodryb 比烂的时代,造就了这种斯德哥尔摩综合征奇观
    AllRightReserve
        65
    AllRightReserve  
       2020-12-15 12:17:50 +08:00   ❤️ 1
    果然跟我们的百度网盘比还是有一段路要走!
    mwftts
        66
    mwftts  
       2020-12-15 12:48:49 +08:00 via Android
    公司 SAP HANA DB 出错,宕机两次,阿里云可以申请赔偿,只是留给优惠券而已
    deeplydrink
        67
    deeplydrink  
       2020-12-15 12:52:24 +08:00
    天啊。。。。。真的啊,,,
    bnrwnjyw
        68
    bnrwnjyw  
       2020-12-15 12:52:42 +08:00
    讲道理,别管问题低不低级,贴了原因就是诚实啊。总比某些服务挂了永远不说原因,它犯的就是“高级错误”?
    love
        69
    love  
       2020-12-15 13:01:51 +08:00   ❤️ 2
    楼上说得好象 Google 也公布了细节似的,这说内部存储问题和说网络抖动有什么区别
    smilingsun
        70
    smilingsun  
       2020-12-15 13:14:12 +08:00   ❤️ 1
    看 SRE 书里面讲,Google SRE 写 postmortem 都不会被 blame 。
    话说对外会不会有更详细的解释?
    leonidas
        71
    leonidas  
       2020-12-15 13:19:24 +08:00
    @NerverLibis 优秀
    cholerae
        72
    cholerae  
       2020-12-15 13:20:38 +08:00   ❤️ 1
    谁说的 internal storage quota issue 一定是容量满了。。。。
    towry
        73
    towry  
       2020-12-15 13:32:07 +08:00
    他说是啥就是啥
    weifan
        74
    weifan  
       2020-12-15 13:36:26 +08:00
    @Narcissu5 Google 感觉这解决速度有些慢了些。不过国内确实都是推卸责任,不是自己问题。。。
    ntgeralt
        75
    ntgeralt  
       2020-12-15 13:37:32 +08:00
    所以,上面的读者都信是储存满了?
    fyxtc
        76
    fyxtc  
       2020-12-15 13:52:04 +08:00
    @goodryb 你是挺清奇的,客观的标签都需要贴,可不是靠同行衬托的好吗,这也要酸
    reus
        77
    reus  
       2020-12-15 14:02:24 +08:00
    storage quota 问题,不一定是磁盘满了,也可能是配额设置有问题,配少了,或者没有自动调整配额,等等。
    reus
        78
    reus  
       2020-12-15 14:04:45 +08:00   ❤️ 1
    @love https://status.cloud.google.com/incident/cloud-networking/19009 以前公布的一些细节。这就是区别。刚恢复没有细节也不奇怪,但不公布细节不是谷歌的风格。
    exploreexe
        79
    exploreexe  
       2020-12-15 14:04:57 +08:00
    不愧是你。
    还是我爱的谷歌,宕机的理由都是这么清新脱俗。:doge
    reus
        80
    reus  
       2020-12-15 14:07:49 +08:00
    https://sre.google/sre-book/postmortem-culture/
    Postmortem Culture: Learning from Failure
    Blameless 才是好哲学,出了一点点问题就找人背锅,只会让人倾向于掩盖问题
    willsplashing
        81
    willsplashing  
       2020-12-15 14:46:53 +08:00
    "internal storage quota issue" 是非常精确而且客观的描述,这都能联想到阴谋论也是醉了
    frostming
        82
    frostming  
       2020-12-15 14:48:34 +08:00
    别这样,谷歌一挂,大家都炸了,你让有关部门的脸往哪搁
    Y29tL2gwd2Fy
        83
    Y29tL2gwd2Fy  
       2020-12-15 14:52:41 +08:00 via iPhone
    张口就来磁盘满了,呵呵
    whileFalse
        84
    whileFalse  
       2020-12-15 15:08:42 +08:00
    @ddefewfewf #35 为啥凉了?我刚买了终身会员🐶
    matrix67
        85
    matrix67  
    OP
       2020-12-15 15:13:14 +08:00
    @Y29tL2gwd2Fy #83
    @willsplashing #81
    @reus #78
    @reus #77
    @ntgeralt #75

    补充一下,这边有详细原因解释,大家不用瞎猜了哈。 rsus 老哥最稳!!!

    https://status.cloud.google.com/incident/zall/20013

    The root cause was an issue in our automated quota management system which reduced capacity for Google's central identity management system, causing it to return errors globally.
    baiyi
        86
    baiyi  
       2020-12-15 15:15:59 +08:00
    https://status.cloud.google.com/incident/zall/20013

    "The root cause was an issue in our automated quota management system which reduced capacity for Google's central identity management system, causing it to return errors globally. "

    还没有更细节的内容,但这个描述能说明不是单纯的磁盘满了
    Voichesapete
        87
    Voichesapete  
       2020-12-15 15:25:22 +08:00
    @baiyi
    看了卫报的报道,就是磁盘写满的原因吧。When that storage filled up, the system should have automatically made more available; instead, it seems it didn’t, which meant the system crashed
    https://www.theguardian.com/technology/2020/dec/14/google-suffers-worldwide-outage-with-gmail-youtube-and-other-services-down
    ggabc
        88
    ggabc  
       2020-12-15 15:47:16 +08:00
    楼层里的评论,感觉经历过集群项目的人不多啊。说不定人家谷歌的系统多复杂呢!
    XiLingHost
        89
    XiLingHost  
       2020-12-15 15:54:01 +08:00
    这是自动磁盘配额管理出现的问题,应该是自动配额调整出现故障导致的,八成是算法问题,没有及时调整存储池配额或者是应用了错误的配额,和磁盘写满没啥关系
    willsplashing
        90
    willsplashing  
       2020-12-15 15:59:45 +08:00
    @Voichesapete 卫报纯属 speculation 。可以很负责的说只是 quota issue 不是 disk capacity issue
    h2xai111
        91
    h2xai111  
       2020-12-15 16:03:52 +08:00
    @kuner0614 我擦
    hafuhafu
        92
    hafuhafu  
       2020-12-15 16:09:13 +08:00
    好奇怪啊,我昨天听朋友说谷歌挂了的时候我还能看油管、并且发评论,虽然头像显示不出来。
    Nadao
        93
    Nadao  
       2020-12-15 16:39:18 +08:00
    不要吹 GOOGLE 了,本人亲身经历,8 月份网盘坏了 6 个小时才修复( 13:00-19:00)。 估计维护人员在睡觉。

    https://www.v2ex.com/t/699990
    Voichesapete
        94
    Voichesapete  
       2020-12-15 16:47:42 +08:00
    @willsplashing 细看了谷歌的分析,确实不是磁盘写满
    jjianwen68
        95
    jjianwen68  
       2020-12-15 16:55:06 +08:00
    @kuner0614 P 站这删除是物理删除还是只是不给用户看到,要是物理删除的话,里面有质量高的视频岂不是很遗憾
    mxydsg8858
        96
    mxydsg8858  
       2020-12-15 17:08:22 +08:00
    @kuner0614 泪目
    ShadowWhisper
        97
    ShadowWhisper  
       2020-12-15 18:17:33 +08:00
    昨天还以为账号被删了,老是提示我邮箱不存在
    vanxy
        98
    vanxy  
       2020-12-15 18:29:34 +08:00
    @hd2ex #48 优秀,Google 出问题, 也能转进到国内环境。
    yongliu
        99
    yongliu  
       2020-12-15 18:49:40 +08:00
    @luob #17 p 站表示也没有余粮。视频没有删,只是不让看了,这部分视频需要用户认证后才能开放出来。
    cassyfar
        100
    cassyfar  
       2020-12-15 19:23:39 +08:00
    @matrix67

    LZ 搞过云计算吗?没办法降级熔断的。GCP 大量核心服务都要通过 Auth 管理权限。Auth 一崩,大家都得不到权限,没法使用了。youtube 也不例外。
    1  2  
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   1201 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 35ms · UTC 23:12 · PVG 07:12 · LAX 15:12 · JFK 18:12
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.