V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Recommended Services
Amazon Web Services
LeanCloud
New Relic
ClearDB
crayymumumu
V2EX  ›  云计算

企业请避雷阿里云

  •  
  •   crayymumumu · 8 天前 · 7826 次点击

    云服务器直接无缘无故宕机 给的解决方案是销毁数据,重新部署

    截止目前已经宕机两小时,里面包含了主营业务的相关服务

    94 条回复    2025-11-10 15:53:37 +08:00
    xshell
        1
    xshell  
       8 天前
    没备份么?
    RangerWolf
        2
    RangerWolf  
       8 天前   ❤️ 1
    GCP AWS 也出现过大规模故障

    不是给他们洗地,而是要认知 是系统就会出故障

    不过这个故障需要销毁数据,这个有点太坑了
    crayymumumu
        3
    crayymumumu  
    OP
       8 天前
    @xshell 备份了 有镜像
    rekulas
        4
    rekulas  
       8 天前
    习惯就好 每一家都会轮番翻车的
    salmon5
        5
    salmon5  
       8 天前
    这不是正常的吗?刚开始用吧(阿里云 11 年、AWS7 年使用)
    salmon5
        6
    salmon5  
       8 天前
    宕机重启就好了
    mingtdlb
        7
    mingtdlb  
       8 天前
    系统故障,这个应该可以排查一下不是吗 没有给分析报告嘛?磁盘都坏了 文件系统坏了?

    好奇,云厂商对于这块系统损坏条款是怎么写的,负责任吗
    boringwheat
        8
    boringwheat  
       8 天前   ❤️ 5
    去试试别家,然后你就会发现国内阿里云是最省心的
    ETiV
        9
    ETiV  
       8 天前
    云厂商的 [本地硬盘] 就是这样,希望你能学到……
    zbw0414
        10
    zbw0414  
       8 天前
    没有哪家云厂商能做到永不宕机。
    另外,直接买的高可用数据库这种不都是 m*GW+1*主+n*从+1 备,主挂了应该是秒级切从库顶上的呀。
    难道只买了一个主库么。
    salmon5
        11
    salmon5  
       8 天前
    阿里云 华为云 腾讯云 AWS Azure ,中国企业最应该避雷 Azure 、最优先使用阿里云。
    perfectlife
        12
    perfectlife  
       8 天前
    倒不是无缘无故宕机,一般都是宿主机出现问题,只不过好多时候阿里云不给你反应时间,直接就重启了云服务器,或者就不按约定维护时间,突然就给你重启了机器。另外用本地盘就是会有这问题,宿主机挂了,虚拟机迁移到别的机器上了,一般也没办法,除非你是大客户能让他把本地盘也给你迁移。话说现在还有本地 ssd 盘可选么,大部分不都是用 essd 了么。
    salmon5
        13
    salmon5  
       8 天前
    @boringwheat #8 所见略同,阿里云是最省心的。
    salmon5
        14
    salmon5  
       8 天前
    产品做的最好的。
    perfectlife
        15
    perfectlife  
       8 天前
    @zbw0414 他是大概率是云服务器上自行部署的数据库
    salmon5
        16
    salmon5  
       8 天前
    云上 ECS 自建 MySQL ,可用性要自行考虑主备;如果数据盘是本地盘,要考虑数据丢失的可能。
    这些都很正常。
    mayli
        17
    mayli  
       8 天前   ❤️ 1
    本地盘不应该就是这样吗?您这是啥企业,是不是需要避雷?
    nrtEBH
        18
    nrtEBH  
       8 天前
    你们家 SRE 工资多少 ? 建议开除
    没有 common sense
    Kinnice
        19
    Kinnice  
       8 天前
    上云不是为了降本。反而是提高成本,如果你的 rds 挂了,肯定能找到给你处理的。如果是自己 ecs 部署的数据库,他们才不会管你的数据。
    ZeroClover
        20
    ZeroClover  
       8 天前   ❤️ 1
    本地盘 + 无灾备

    用哪家云遇到宿主机故障都是一样的结果
    crayymumumu
        21
    crayymumumu  
    OP
       8 天前
    本地盘 数据全部丢失
    Goooooos
        22
    Goooooos  
       8 天前
    就算自己部署也没办法保证不故障不丢数据
    上面说上云提高成本,可能你的场景是这样,但我司场景,比自建机房的成本每年都降了不少
    salmon5
        23
    salmon5  
       8 天前
    @salmon5 #16
    云上 ECS 自建 MySQL ,可用性要自行考虑主备;如果数据盘是本地盘,要考虑数据丢失的可能。
    这些都很正常。
    ###############################################
    有些云,不正常的见多了;所以有些问题,它是正常的。
    wineejam
        24
    wineejam  
       8 天前
    等你用了国内其它公有云后就不会这样说了。目前来说。国内公有云还是阿里云第一
    binge921
        25
    binge921  
       8 天前
    该说不说 我感觉腾讯云更稳定点,阿里云之前一直在用,但是咋说呢 目前感觉不如腾讯云稳定,个人见解
    SURA907
        26
    SURA907  
       8 天前
    阿里云还中断过工地主域名的 dns 解析呢(╯‵□′)╯︵┻━┻
    v5mark
        27
    v5mark  
       8 天前
    这种要追责的
    1.数据丢失,是否可以恢复
    2.宕机时长对比阿里云承诺的 SLA 例如( 3 小时恢复,99.9%的可用性这种)超过了没有恢复,赔偿经济损失
    Shanky
        28
    Shanky  
       8 天前
    @binge921 #25 没一个屁股干净的,自己做好容灾吧
    stoneabc
        29
    stoneabc  
       8 天前
    本地盘实例哪家云不是这样?第一次用云吗?
    imnpc
        30
    imnpc  
       8 天前
    这个谁推荐的 企业数据 用云服务器自建数据库的?
    所有云都限制磁盘 IO 读取,一般要求使用 云数据库,不推荐自建.

    自建需要多服务器读写分离备份,否则不要玩自建数据库,
    这个没办法,大部分云都这样,AZURE 的硬盘还重启就没数据呢..
    aobamaM
        31
    aobamaM  
       8 天前   ❤️ 4
    你家是什么野鸡公司 云上数据库这么玩的
    axuadm19
        32
    axuadm19  
       8 天前
    这不就等同于云上用实例自建 K8S 集群嘛(参考 VPS 建一切,还用云干啥。。。),用 IaaS 实现 PaaS ,那可不是可用性、弹性运维、安全性啥的都得自己承担。
    clarkethan
        33
    clarkethan  
       8 天前
    你们自己的运维应急处理能力太差了,哪个云不出问题,哪个服务器不出问题呢?买不到 100%在线率的服务,只能做好应用层的容灾,和提高灾难时刻的应急处理能力,这个时候不应该是直接拿备库的数据,重新起一个新的实例,尽快恢复服务么,坏了的东西坏了就坏了,事后再管
    MindMindMax
        34
    MindMindMax  
       8 天前
    所有的服务都不可信,必须要及时备份。深刻的教训
    daimaosix
        35
    daimaosix  
       8 天前
    哈哈哈哈哈,敢用本地盘,本地盘你还没见过漂移呢,本地盘就是这种属性,跟阿里云无关
    mytsing520
        36
    mytsing520  
    PRO
       8 天前
    印证了一些人说的话:
    公有云异常,如果和你没利益相关,不会骂;和你利益相关,就骂翻天
    AmiKara
        37
    AmiKara  
       8 天前
    腾讯云连宕机都显示正常运行
    seasona
        38
    seasona  
       8 天前
    本地盘不保证 sla 啊,硬盘硬件很容易坏,宕机只是时间问题
    FrankAdler
        39
    FrankAdler  
       8 天前 via Android   ❤️ 1
    腾讯云问题更多,至于什么华为云 京东云 字节云 ucloud 这些体验只会更差
    JoeDH
        40
    JoeDH  
       8 天前
    本地盘自建的数据库吗?
    guanzhangzhang
        41
    guanzhangzhang  
       8 天前
    计算和存储不分离就容易这样,特别还是没备份的时候
    XDiLa
        42
    XDiLa  
       8 天前
    @wineejam 是这样的
    caola
        43
    caola  
       8 天前
    阿里 腾讯 AWS Azure 都有宕机的情况,基本上都是轮流着来,见怪不怪了。做好数据备份就行
    fredcc
        44
    fredcc  
       8 天前 via Android
    上云不用托管 RDS 用本地盘 ssd 做主库,很棒棒
    dif
        45
    dif  
       8 天前
    没有一家云服务是 100%,都是 99.999......% 就看谁家 9 多了。所以,心理预期就是会出故障,做好备份就行。
    ryHope
        46
    ryHope  
       8 天前
    阿里云算是最省心的了
    mmdsun
        47
    mmdsun  
       8 天前 via iPhone
    这个是云服务器?还是阿里的 RDS 数据服务。
    找阿里要赔偿吧。
    sansam
        48
    sansam  
       8 天前
    @v5mark 本地盘(相当于你独占一整块 ssd ),这种没 sla 保障、没有任何数据可靠性保障,购买的时候会弹框让你确认。优点是 IO 很高,缺点是得自己负责数据和业务的可靠性。这个锅得自己背咯。
    loarland
        49
    loarland  
       8 天前
    这个故障有点离谱了
    goodryb
        50
    goodryb  
       8 天前
    1.起码 op 没有用什么套路云,光明正大的写了阿里云
    2.如果是云盘,底层物理机故障重启一般就恢复了,如果是操纵系统故障,有可能会起不来; 如果是本地盘,赶紧重搭数据库,恢复备份或者切备库吧
    FabricPath
        51
    FabricPath  
       8 天前
    SLA 中不包含本地盘数盘丢失
    zouqiang
        52
    zouqiang  
       8 天前
    用的本地 SSD 类型?
    v166ex
        53
    v166ex  
       8 天前 via Android
    我已经听到运维人员在骂人了,,,如果没有运维的那就已经找人背锅吧
    nxuu
        54
    nxuu  
       8 天前
    这不是表现运维人员的时候到了么 我觉得阿里云做的没问题.
    v166ex
        55
    v166ex  
       8 天前 via Android
    如果有运维,那我真的很好奇是谁做的这个决策,为啥不用云服务
    hefish
        56
    hefish  
       8 天前
    哈哈哈哈哈哈哈哈哈。。。。 含泪又续了一台 ecs 。。。。
    dynastysea
        57
    dynastysea  
       8 天前
    国内云就是这样,如果是 aws 出问题,他们就会知道反思了。。
    sampeng
        58
    sampeng  
       7 天前 via iPhone
    鬼故事,很多公司上云数据库都是自建的。美其名曰:节省成本。
    wzw
        59
    wzw  
       7 天前
    阿里云 rds 小系统有必要上 高可用系列吗? 还是基础系列够了,

    - 基础系列 数据安全吧
    - 基础系列 在线率也很高吧

    有用过的 , 有经验的分享一下, 谢谢
    Miao18
        60
    Miao18  
       7 天前
    但问题是,阿里已经是国内最好的选择了。难不成还能选华为?
    而且,就最近两周,aws ,azure 也连着炸。
    xscanqianmeng666
        61
    xscanqianmeng666  
       7 天前
    这种一看就是没运维,或者后端兼运维。最基本的都没整好,而且还在乎成本 不上 rds
    xiaomushen
        62
    xiaomushen  
       7 天前
    还是避雷这样的企业吧。。。
    NoString
        63
    NoString  
       7 天前
    数据库为啥不用 RDS POLARDB ?有能力自建做 SLA 的方案吗?没有就是抽奖,要避雷的是提这种方案的人吧
    LaLy
        64
    LaLy  
       7 天前
    @boringwheat 确实,腾讯云里面的东西乱到你怀疑人生,可以感觉到他们内部管理十分混乱。
    ares001
        65
    ares001  
    PRO
       7 天前
    如果你选 RDS 主从各一台机器的方案,也不至于今天来发帖。不管什么神仙公司,硬件都可能会坏的。

    如果你不是老板,肯定选择最保险的方案,花钱也是花老板的钱
    CheckMySoul
        66
    CheckMySoul  
       7 天前
    @wzw #58 基础只有通用规格( CPU 共享、单可用区部署)肯定不如独占规格稳定,负载不高用着也没啥感觉,功能没有大的区别,能接受就用基础,再把库表恢复、异地备份都打开足够了。遇到异常提工单换独占换 polardb 呗。
    realpg
        67
    realpg  
    PRO
       7 天前
    什么企业连个灾备都没有

    云服务本身就不能视为高可用的东西...
    jhdxr
        68
    jhdxr  
       7 天前
    @wzw 在线率正常情况都不低的,非正常情况。。。以现在的主流云的素质是不挂则已,一挂全挂。。。

    至于数据安全,如果你说是 OP 这种丢不丢数据,那么如果你的数据丢了无所谓(不是说彻底没了,而是假定比如你配合每日备份的策略,丢失一天内的数据可以接受),那我觉得最基础的就行


    回到 OP 的帖子,这纯属你们的研发菜/老板抠门(当然更可能是两者同时发生,毕竟抠门的老板找到的研发可能也不懂)
    virjay
        69
    virjay  
       7 天前
    早就避雷了,云主机会因为内存直接宕机,天翼云、腾讯云、华为云都不会
    wzw
        70
    wzw  
       7 天前
    @CheckMySoul @jhdxr 目前看 基础款 没有故障过, [国内] https://status.aliyun.com/

    数据安全依赖存储, 99.99% 所以可以接受故障停机一会, 而数据不丢, 应该小站应该是可以考虑的吧
    hatch
        71
    hatch  
       7 天前
    ![这就不得说]( https://imgur.com/qzwTJ37)
    azh7138m
        72
    azh7138m  
       7 天前
    @wzw
    数据可用和服务可用并不是一回事

    一个地域通常有很多可用区,只要其中存在可以服务的可用区,它都不算服务宕机,基础系列单可用区部署,万一正好遇到在用的可用区挂了,就寄了。
    kfpenn
        73
    kfpenn  
       7 天前
    啊,自建数据库这么多隐患吗?我待的几家公司,包括现在的,都是自己搭的数据库,没买 rds
    wzw
        74
    wzw  
       7 天前
    @azh7138m 可用区不可用的时候, 能接受的时候, 选基础版应该是够的, 数据相对是安全的了, 整列+每天凌晨备份
    barathrum
        75
    barathrum  
       7 天前
    机房那么多机器, 天天出故障都很正常, 不过挨到你头上了.

    正常来说用实例存储就是为了缓存加速, 不是用来持久存储的. 不买 rds 的话自建数据库肯定也得多可用区自己做 replica, 冗余没做好怨不得别人.

    该找赔付找赔付就行了.
    Mrun
        76
    Mrun  
       7 天前
    @kfpenn 当然隐患多,云厂商我记得是不保证 本地硬盘的数据可靠性的
    dmanbu
        77
    dmanbu  
       7 天前   ❤️ 2
    你省下的成本,终有一天会以别的方式支付出去
    simple688
        78
    simple688  
       7 天前
    活该,为啥不用高可用实例+ESSD 云盘
    tcper
        79
    tcper  
       7 天前
    楼主多试试别的几家就有经验了,自己运维水平低的话,哪个云都可以帮你把数据丢了
    我记得有一次腾讯云把一个小公司用户给清了,人家直接倒闭最后也没啥补偿,更别提有些国企云就是阿里云套壳
    neutrino
        80
    neutrino  
       7 天前 via Android
    @kfpenn 我是一天备份一次,用系统盘跑的数据库,最多丢一天数据,完全可以接受。
    smileawei
        81
    smileawei  
       7 天前
    本地盘就是这样的。。 应该用 EBS 。
    Rickkkkkkk
        82
    Rickkkkkkk  
       7 天前
    灾备去哪了...
    holulu
        83
    holulu  
       7 天前
    这世界说是草台班子,重要的设施无论是机器还是数据,都得做冗余。
    oudemen
        84
    oudemen  
       7 天前
    自己的锅不要推到云厂商上
    Gilfoyle26
        85
    Gilfoyle26  
       7 天前
    99.9999% ,只要这帮云服务厂商胆子够大,他们后面加一万个 9 都可以,反正都是假的,数字那还不是随便写
    DeWjjj
        86
    DeWjjj  
       7 天前
    年轻的时候就吃一堑长过一智,不能把服务挂在一个云上,一定要有备份服务器。
    哪怕公司没有机房,也要有一个数据机架备份数据。
    guiyumin
        87
    guiyumin  
       6 天前 via iPhone
    有人骂腾讯,有人骂阿里
    怎么说呢
    有别的选择吗
    guiyumin
        88
    guiyumin  
       6 天前 via iPhone
    有人骂腾讯,有人骂阿里
    怎么说呢
    有别的选择吗
    zlin
        89
    zlin  
       6 天前
    记得一点,所有电子产品都不可靠。 需要定时异地备份。
    qiuyoo
        90
    qiuyoo  
       6 天前
    阿里云的坑挺多,但是大部分人都没有遇到过。选择云不就是为了省事。但是总结起来并没有省事,关键还费钱。研究一下私有云。现在很多机房都不错。
    COW
        91
    COW  
       6 天前
    同上,建议研究一下私有云
    betabao
        92
    betabao  
       6 天前
    @qiuyoo 本地盘上跑数据库还没有备份,就这运维水平搞私有云?私有云的硬盘不会坏吗?
    BadAngel
        93
    BadAngel  
       6 天前
    目前各个厂家的本地盘就是最便宜的,为啥就是因为遇到硬件故障恢复很麻烦。
    2025 年的互联网公司,高可用不再是一个很麻烦的事情,建议对 RTO 和 RPO 都要有考量。
    其他厂不知道,菊花厂除了你自己买裸金属,基本都不支持本地盘了。
    michael2016
        94
    michael2016  
       2 天前
    搞技术的这么极端的看待问题只能证明要么缺钱要么缺技术要么缺根筋。
    关于   ·   帮助文档   ·   自助推广系统   ·   博客   ·   API   ·   FAQ   ·   Solana   ·   1249 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 31ms · UTC 17:30 · PVG 01:30 · LAX 09:30 · JFK 12:30
    ♥ Do have faith in what you're doing.