V2EX = way to explore
V2EX 是一个关于分享和探索的地方
现在注册
已注册用户请  登录
Int100
V2EX  ›  硬件

请教一下存储大佬, 这服务器的硬盘是不是很快要升天了? 有必要立刻迁移数据吗?

  •  
  •   Int100 · 17 天前 · 1895 次点击

    两块 NVME 固态组的 (soft) Raid-1, S.M.A.R.T.测试两块盘都没通过 (FAILED) :

    • 第一块已达使用寿命 106%
    - NVM subsystem reliability has been degraded
    
    SMART/Health Information (NVMe Log 0x02)
    Critical Warning:                   0x04
    Temperature:                        34 Celsius
    Available Spare:                    100%
    Available Spare Threshold:          10%
    Percentage Used:                    106%
    Data Units Read:                    30,712,672,589 [15.7 PB]
    Data Units Written:                 1,862,279,023 [953 TB]
    Host Read Commands:                 76,147,225,142
    Host Write Commands:                9,769,033,638
    Controller Busy Time:               52,392,054,374
    Power Cycles:                       11
    Power On Hours:                     24,101
    Unsafe Shutdowns:                   1
    Media and Data Integrity Errors:    0
    Error Information Log Entries:      144
    Warning  Comp. Temperature Time:    0
    Critical Comp. Temperature Time:    0
    Temperature Sensor 1:               34 Celsius
    Temperature Sensor 2:               36 Celsius
    
    • 第二块已达使用寿命 163%
    - NVM subsystem reliability has been degraded
    
    SMART/Health Information (NVMe Log 0x02)
    Critical Warning:                   0x04
    Temperature:                        39 Celsius
    Available Spare:                    100%
    Available Spare Threshold:          10%
    Percentage Used:                    163%
    Data Units Read:                    47,306,232,682 [24.2 PB]
    Data Units Written:                 3,009,805,511 [1.54 PB]
    Host Read Commands:                 132,313,748,968
    Host Write Commands:                41,306,780,960
    Controller Busy Time:               141,500,864,939
    Power Cycles:                       19
    Power On Hours:                     32,831
    Unsafe Shutdowns:                   6
    Media and Data Integrity Errors:    2
    Error Information Log Entries:      259
    Warning  Comp. Temperature Time:    0
    Critical Comp. Temperature Time:    0
    Temperature Sensor 1:               39 Celsius
    Temperature Sensor 2:               65 Celsius
    

    有必要立刻迁移数据吗? 感谢🙏

    12 条回复    2025-04-25 16:27:01 +08:00
    kokutou
        1
    kokutou  
       17 天前 via Android
    固态不会立刻暴毙,但是这不是服务器吗。。。换硬盘不是供应商的事?
    defunct9
        2
    defunct9  
       17 天前 via iPhone
    机械飞升在即,赶紧换吧
    oldboy627
        3
    oldboy627  
       17 天前   ❤️ 2
    我不是存储有关的人,但是我把第一块数据扔给了 AI ,它给出的结论是:Critical Warning 值为 0x04 ,表明硬盘处于危险状态。

    我又去搜索了 NVME 文档验证了下有关于 Critical Warning 的内容,在 NVM-Express-1_4-2019.06.10-Ratified.pdf 中 122 页的 Critical Warning 的部分,给出了具体 bit 的定义。
    Critical Warning 的值 0x04 转换为 2 进制的话,是 00000100 ,其第二位是 1 ,根据文档中的定义,如果设置为 1 ,NVM 子系统的可靠性已经降级(If set to ‘1’, then the NVM subsystem reliability has been degraded due to significant media related errors or any internal error that degrades NVM subsystem reliability)。

    Percentage Used: 生产厂商对硬盘预计的寿命时间,这个值可以大于 100%,也不一定表示一定发生故障,当这个值大于 254 的时候会使用 255 来表示。 这个值更新时间是每一小时一次。

    国外也有人在 reddit 上问过类似的情况。

    我的个人建议是,如果数据重要且是公司的存储,换新硬盘更保险,不要自己承担风险。

    相关链接
    https://nvmexpress.org/wp-content/uploads/NVM-Express-1_4-2019.06.10-Ratified.pdf
    https://www.reddit.com/r/unRAID/comments/vlmody/nvme_ssd_failed_in_smart_test_but_is_still_working/
    wunonglin
        4
    wunonglin  
       17 天前
    现在存储便宜得很,该换换
    xclimbing
        5
    xclimbing  
       17 天前   ❤️ 1
    存储冗余还完全没有使用,按固态的原理,没啥问题,不过数据重要,不差钱就换了吧。换下来可以继续用。
    sugubei
        6
    sugubei  
       17 天前
    @oldboy627 以后尽量少回复这种,有人看不惯会 @管理员 删你账号,之前就有人使用 ai 回复被删账号了。
    jardel
        7
    jardel  
       17 天前
    @sugubei 是使用 AI 回复才会,这种结合 AI 判断的不会
    HojiOShi
        8
    HojiOShi  
       17 天前
    使用了超过 100%的寿命和 SMART 自检不过都不去换吗,你还真坐的住。

    @sugubei #6 一大段全是 AI 的,和只有一句话是 AI 的,还是有区别的。
    julyclyde
        9
    julyclyde  
       17 天前   ❤️ 1
    想都别想,赶紧换

    SMART 报 OK 不一定真的 OK ,但是报错那一定是有错
    Felixchen1062
        10
    Felixchen1062  
       16 天前
    是自己的就立刻备份换掉, 是公司的就打个报告, 给出评估结果, 让别人做决定, 记得工作留痕
    WuSiYu
        11
    WuSiYu  
       16 天前   ❤️ 1
    赶紧备份吧,写入量巨大,寿命已经耗尽了,Media and Data Integrity Errors 和 Error Information Log Entries 有值了,鉴定为寄,能活到现在也不容易
    chnsatan
        12
    chnsatan  
       14 天前
    数据没那么重要的话,心大点,无所谓。
    我有块 14T 的氦气盘,报错一年了,里面都是些电影电视剧,即便炸了也无所谓
    关于   ·   帮助文档   ·   博客   ·   API   ·   FAQ   ·   实用小工具   ·   5338 人在线   最高记录 6679   ·     Select Language
    创意工作者们的社区
    World is powered by solitude
    VERSION: 3.9.8.5 · 19ms · UTC 09:01 · PVG 17:01 · LAX 02:01 · JFK 05:01
    Developed with CodeLauncher
    ♥ Do have faith in what you're doing.