两块 NVME 固态组的 (soft) Raid-1, S.M.A.R.T.测试两块盘都没通过 (FAILED) :
- NVM subsystem reliability has been degraded
SMART/Health Information (NVMe Log 0x02)
Critical Warning: 0x04
Temperature: 34 Celsius
Available Spare: 100%
Available Spare Threshold: 10%
Percentage Used: 106%
Data Units Read: 30,712,672,589 [15.7 PB]
Data Units Written: 1,862,279,023 [953 TB]
Host Read Commands: 76,147,225,142
Host Write Commands: 9,769,033,638
Controller Busy Time: 52,392,054,374
Power Cycles: 11
Power On Hours: 24,101
Unsafe Shutdowns: 1
Media and Data Integrity Errors: 0
Error Information Log Entries: 144
Warning Comp. Temperature Time: 0
Critical Comp. Temperature Time: 0
Temperature Sensor 1: 34 Celsius
Temperature Sensor 2: 36 Celsius
- NVM subsystem reliability has been degraded
SMART/Health Information (NVMe Log 0x02)
Critical Warning: 0x04
Temperature: 39 Celsius
Available Spare: 100%
Available Spare Threshold: 10%
Percentage Used: 163%
Data Units Read: 47,306,232,682 [24.2 PB]
Data Units Written: 3,009,805,511 [1.54 PB]
Host Read Commands: 132,313,748,968
Host Write Commands: 41,306,780,960
Controller Busy Time: 141,500,864,939
Power Cycles: 19
Power On Hours: 32,831
Unsafe Shutdowns: 6
Media and Data Integrity Errors: 2
Error Information Log Entries: 259
Warning Comp. Temperature Time: 0
Critical Comp. Temperature Time: 0
Temperature Sensor 1: 39 Celsius
Temperature Sensor 2: 65 Celsius
有必要立刻迁移数据吗? 感谢🙏
![]() |
1
kokutou 17 天前 via Android
固态不会立刻暴毙,但是这不是服务器吗。。。换硬盘不是供应商的事?
|
![]() |
2
defunct9 17 天前 via iPhone
机械飞升在即,赶紧换吧
|
3
oldboy627 17 天前 ![]() 我不是存储有关的人,但是我把第一块数据扔给了 AI ,它给出的结论是:Critical Warning 值为 0x04 ,表明硬盘处于危险状态。
我又去搜索了 NVME 文档验证了下有关于 Critical Warning 的内容,在 NVM-Express-1_4-2019.06.10-Ratified.pdf 中 122 页的 Critical Warning 的部分,给出了具体 bit 的定义。 Critical Warning 的值 0x04 转换为 2 进制的话,是 00000100 ,其第二位是 1 ,根据文档中的定义,如果设置为 1 ,NVM 子系统的可靠性已经降级(If set to ‘1’, then the NVM subsystem reliability has been degraded due to significant media related errors or any internal error that degrades NVM subsystem reliability)。 Percentage Used: 生产厂商对硬盘预计的寿命时间,这个值可以大于 100%,也不一定表示一定发生故障,当这个值大于 254 的时候会使用 255 来表示。 这个值更新时间是每一小时一次。 国外也有人在 reddit 上问过类似的情况。 我的个人建议是,如果数据重要且是公司的存储,换新硬盘更保险,不要自己承担风险。 相关链接 https://nvmexpress.org/wp-content/uploads/NVM-Express-1_4-2019.06.10-Ratified.pdf https://www.reddit.com/r/unRAID/comments/vlmody/nvme_ssd_failed_in_smart_test_but_is_still_working/ |
![]() |
4
wunonglin 17 天前
现在存储便宜得很,该换换
|
![]() |
5
xclimbing 17 天前 ![]() 存储冗余还完全没有使用,按固态的原理,没啥问题,不过数据重要,不差钱就换了吧。换下来可以继续用。
|
9
julyclyde 17 天前 ![]() 想都别想,赶紧换
SMART 报 OK 不一定真的 OK ,但是报错那一定是有错 |
![]() |
10
Felixchen1062 16 天前
是自己的就立刻备份换掉, 是公司的就打个报告, 给出评估结果, 让别人做决定, 记得工作留痕
|
![]() |
11
WuSiYu 16 天前 ![]() 赶紧备份吧,写入量巨大,寿命已经耗尽了,Media and Data Integrity Errors 和 Error Information Log Entries 有值了,鉴定为寄,能活到现在也不容易
|
12
chnsatan 14 天前
数据没那么重要的话,心大点,无所谓。
我有块 14T 的氦气盘,报错一年了,里面都是些电影电视剧,即便炸了也无所谓 |