V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
cjpjxjx
V2EX  ›  职场话题

运维事故,公司虚拟化服务器 ALL IN BOOM 了

  •  
  •   cjpjxjx · 2023-10-20 12:05:08 +08:00 · 6835 次点击
    这是一个创建于 394 天前的主题,其中的信息可能已经有所发展或是发生改变。

    单机跑的 Proxmox VE ,硬盘超发了,同事为了升级一台虚拟机内 300 多 G 的内部项目,在下班前打包备份全部项目文件到虚拟机本地目录(虚拟机内磁盘剩余 400G ,以为没问题,就先下班了),此时没人知道该虚拟机所在的宿主机物理磁盘实际仅剩余 200 多 G ,结果就是大家都下班后,有其他部门在加班的同事反馈内部系统登录不了,开发数据库也连不上,在家准备远程到公司电脑查看,结果发现 VPN 也登不上了,远程处理不了只能前往公司处理,然后就发现 Proxmox VE 宿主机物理磁盘被干爆了,导致上面跑的好几个内部系统、数据库和 VPN 全部 GG 了,迁移了几个虚拟磁盘到其他物理磁盘后所有服务恢复,总共导致服务中断两小时,还好全部服务都是对内的而且是下班时间,没造成什么大影响,群里通报一下差不多就过去了,自己引以为戒

    我是刚接手不久,还没来得及优化,已经采购了硬盘,正在路上呢,没想到就挂了。。。

    39 条回复    2023-10-23 11:33:57 +08:00
    lifekevin
        1
    lifekevin  
       2023-10-20 12:11:31 +08:00   ❤️ 2
    运维不管怎么交接,总是能留下大大小小的坑等着后人一脚踩进去
    iloveayu
        2
    iloveayu  
       2023-10-20 12:12:53 +08:00
    这还好啦,刚接手锅不能算你的,只是恰好雷到你手里炸了,并且你还提前预判(买硬盘)了。
    赶紧要钱把 VPN 拆出来搞个硬的,有电就有网,这种事要自己来回跑不值啊。
    Andim
        3
    Andim  
       2023-10-20 12:14:17 +08:00 via iPhone
    把数据放虚拟磁盘里 这就过分了
    cqmzgg2023
        4
    cqmzgg2023  
       2023-10-20 12:25:09 +08:00   ❤️ 2
    感觉 PVE 没 ESXI 稳
    Iamsonny
        5
    Iamsonny  
       2023-10-20 13:16:34 +08:00
    数据还在,这多是小问题。。
    更别说是内部系统。无所谓。。。
    Iamsonny
        6
    Iamsonny  
       2023-10-20 13:19:21 +08:00
    不过很少见有公司跑 pve 的。。
    Felldeadbird
        7
    Felldeadbird  
       2023-10-20 13:21:07 +08:00
    系统可以恢复就不是大问题了。就怕 boom 了之后,有一些服务启动不了。里面数据还跑不出来。
    Felldeadbird
        8
    Felldeadbird  
       2023-10-20 13:22:16 +08:00
    上面描述有点歧义,不是大问题指的是数据可以恢复,业务也正常运作。不是指这个事故不大。
    paranoiagu
        9
    paranoiagu  
       2023-10-20 13:38:48 +08:00 via Android
    硬盘还是要分配多少实际占用多少。
    baicx
        10
    baicx  
       2023-10-20 13:49:32 +08:00   ❤️ 1
    @cqmzgg2023 #4 在 op 这个情景中,与是 pve 还是 esxi 没关系。esxi 物理磁盘不够了照样挂,那是就会有人说感觉 esxi 兼容性没 pve 好。
    yyzh
        11
    yyzh  
       2023-10-20 14:01:32 +08:00
    @baicx 因为服务器的系统支援列表里一般都是支持 esxi.pve 的我还真没见过服务器系统列表里有它的.
    fs418082760
        12
    fs418082760  
       2023-10-20 14:01:39 +08:00
    我家 pve 跑了 5 年了,公司还是 esxi 方便
    加个硬盘都要命令 不方便
    Jirajine
        13
    Jirajine  
       2023-10-20 14:06:58 +08:00 via Android
    @yyzh #11 pve 就是 Debian ,买了 Debian 支持的服务器也可以支持 pve 。
    www5070504
        14
    www5070504  
       2023-10-20 14:18:14 +08:00
    内存 硬盘超配的 只能说胆子真大
    yyzh
        15
    yyzh  
       2023-10-20 14:22:55 +08:00
    @Jirajine 也是不支持.哈哈.可能也没啥公司会用 debian 吧.
    263
        16
    263  
       2023-10-20 14:25:25 +08:00
    别的不说,既然有业务在上面跑,基础监控预警都没一个的吗?
    chanChristin
        17
    chanChristin  
       2023-10-20 14:28:46 +08:00
    机器有价数据无价,数据没丢就是好事。
    cjpjxjx
        18
    cjpjxjx  
    OP
       2023-10-20 14:39:12 +08:00 via iPhone
    @263 业务系统有监控,宿主机没监控🥶,正准备下个月部署一套监控来着
    cqmzgg2023
        19
    cqmzgg2023  
       2023-10-20 15:14:32 +08:00
    业务不都有虚拟磁盘吗?怎么会把宿主机给填满。
    ervqq
        20
    ervqq  
       2023-10-20 15:44:52 +08:00
    为何不上云?
    gvdlmjwje
        21
    gvdlmjwje  
       2023-10-20 16:20:02 +08:00
    为啥不用 esxi 我直接用 veeam one 监控
    cpu IOPS 流量 剩余空间给你现实的清清楚楚 直接拿台显示器监控页面投上去就完了
    joyhub2140
        22
    joyhub2140  
       2023-10-20 16:28:25 +08:00
    宿主机应该还是有监控的,我们这边所使用的超融合除了会监控 guest 系统的资源占用,本身的资源占用也会发警告的。
    dongkof
        23
    dongkof  
       2023-10-20 17:19:43 +08:00 via iPhone
    吓得我赶紧去看看,虚机都做的瘦硬盘为了节省容量,前两天还做了个几 t 的 oracle 测试系统,拉数据库前还做了快照,我感觉快炸了
    Quarter
        24
    Quarter  
       2023-10-20 20:10:23 +08:00 via Android
    @Andim 额,数据一般不也放虚机里嘛,不在虚拟磁盘的话放在哪里哇
    Quarter
        25
    Quarter  
       2023-10-20 20:10:56 +08:00 via Android
    @cqmzgg2023 没办法,esxi 有限制,只能单机
    vivisidea
        26
    vivisidea  
       2023-10-20 20:14:00 +08:00
    监控报警呢?剩余 200G ,剩余比例是多少?一般到 80%就要介入了,要么扩容,要么删掉一些数据
    Andim
        27
    Andim  
       2023-10-20 20:26:55 +08:00
    @Quarter ESXI 可以挂载物理盘呀,PVE 我没用过
    fsdrw08
        28
    fsdrw08  
       2023-10-20 23:10:47 +08:00 via Android
    单机我只考虑 hyperv
    adoal
        29
    adoal  
       2023-10-20 23:35:34 +08:00
    所以呢,thin provisioning 这玩意,双刃剑啊。

    不管怎么说,监控还是要做起来的。
    adoal
        30
    adoal  
       2023-10-20 23:42:40 +08:00
    另外呢,物理磁盘还是建议做成池。你这个案例里,“迁移了几个虚拟磁盘到其他物理磁盘后所有服务恢复”,说明物理磁盘的总量还是有富余的,这种如果用池就不会挂掉。当然,都做成池了,如果整体不够用,那就没地方可迁,所以最关键的还是要监控。

    另外的另外,跑最基础的 infrastructure 的虚拟机,建议放在单独的一组池上,并且用 thick provisioning ,确保不超。甚至可以考虑单独的物理机集群……哦,你只有单机……当我没说。
    patrickyoung
        31
    patrickyoung  
       2023-10-20 23:51:32 +08:00 via iPhone
    @yyzh #11 因为不需要,他的底层就是 Debian ,什么古董硬件都可以
    fantathat
        32
    fantathat  
       2023-10-21 10:37:44 +08:00 via iPhone
    怎么会虚拟机的空闲空间比宿主机的剩余空间还要大呢
    fantathat
        33
    fantathat  
       2023-10-21 10:39:51 +08:00 via iPhone
    boom 的聲音很好聽,不過求問若是某運行於容器中的單服務的虛擬機磁盤爆了如之奈何?
    Rorysky
        34
    Rorysky  
       2023-10-21 14:53:46 +08:00
    为什么都在一台物理机上?
    Quarter
        35
    Quarter  
       2023-10-22 09:54:16 +08:00 via Android
    @Andim 我没说不能挂在物理盘啊,我是说只能单机运行😂
    xbird
        36
    xbird  
       2023-10-22 13:38:31 +08:00
    @cjpjxjx 监控 A 监控监控 C ,监控 B 监控监控 A ,监控 C 监控监控 B ,环而控之,则一机不损
    dode
        37
    dode  
       2023-10-22 16:36:05 +08:00
    赶紧删几个不重要虚拟机
    podel
        38
    podel  
       2023-10-22 20:03:13 +08:00
    PVE 的 LVM 很容易超发硬盘。
    xwh
        39
    xwh  
       2023-10-23 11:33:57 +08:00
    @Quarter #24 我理解他的意思是单独分配挂载数据盘吧?比方说 50g 系统盘+300g 数据盘
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   968 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 27ms · UTC 19:21 · PVG 03:21 · LAX 11:21 · JFK 14:21
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.