希捷 Iron Worlf 4T ,先后在群晖 DS916 、DS918 、DS1821 上面服役,从去年开始就报坏扇区,把重要数据都转移走了,只用于备份和视频监控,之后坏扇区缓慢增加快到 100 ,今天中午报存储池损毁,总共用了 44963 小时(约 5 年)
SMART 信息如下:
=== START OF INFORMATION SECTION ===
Model Family: Seagate IronWolf
Device Model: ST4000VN008-2DR166
Firmware Version: SC60
User Capacity: 4,000,787,030,016 bytes [4.00 TB]
Sector Sizes: 512 bytes logical, 4096 bytes physical
Rotation Rate: 5980 rpm
Form Factor: 3.5 inches
Device is: In smartctl database [for details use: -P show]
ATA Version is: ACS-3 T13/2161-D revision 5
SATA Version is: SATA 3.1, 6.0 Gb/s (current: 6.0 Gb/s)
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE
1 Raw_Read_Error_Rate 0x000f 100 064 044 Pre-fail Always - 191296
3 Spin_Up_Time 0x0003 093 093 000 Pre-fail Always - 0
4 Start_Stop_Count 0x0032 099 099 020 Old_age Always - 1438
5 Reallocated_Sector_Ct 0x0033 100 100 010 Pre-fail Always - 72
7 Seek_Error_Rate 0x000f 090 060 045 Pre-fail Always - 942800017
9 Power_On_Hours 0x0032 049 049 000 Old_age Always - 44967 (166 64 0)
10 Spin_Retry_Count 0x0013 100 100 097 Pre-fail Always - 0
12 Power_Cycle_Count 0x0032 099 099 020 Old_age Always - 1280
184 End-to-End_Error 0x0032 100 100 099 Old_age Always - 0
187 Reported_Uncorrect 0x0032 097 097 000 Old_age Always - 3
188 Command_Timeout 0x0032 100 100 000 Old_age Always - 0
189 High_Fly_Writes 0x003a 100 100 000 Old_age Always - 0
190 Airflow_Temperature_Cel 0x0022 069 058 040 Old_age Always - 31 (Min/Max 31/38)
191 G-Sense_Error_Rate 0x0032 100 100 000 Old_age Always - 0
192 Power-Off_Retract_Count 0x0032 100 100 000 Old_age Always - 94
193 Load_Cycle_Count 0x0032 100 100 000 Old_age Always - 1715
194 Temperature_Celsius 0x0022 031 042 000 Old_age Always - 31 (0 8 0 0 0)
197 Current_Pending_Sector 0x0012 100 099 000 Old_age Always - 24
198 Offline_Uncorrectable 0x0010 100 099 000 Old_age Offline - 24
199 UDMA_CRC_Error_Count 0x003e 200 200 000 Old_age Always - 0
240 Head_Flying_Hours 0x0000 100 253 000 Old_age Offline - 44938h+12m+42.758s
241 Total_LBAs_Written 0x0000 100 253 000 Old_age Offline - 41194810487
242 Total_LBAs_Read 0x0000 100 253 000 Old_age Offline - 734699003862
看了下主要是 Reported_Uncorrect 、Offline_Uncorrectable 有计数,打算先用群晖做一个 Secure Erase 看看能否挽救。
1
yushiro 2023-12-16 16:08:44 +08:00 via iPhone
这个只能听天由命,我提前 wd 红盘,7x24 用了好几年,报 smart 警告,就找商家售后了,5 年内质保。
|
2
Autonomous OP @yushiro 红盘还有 5 年质保,这么香!我这 IronWolf 只有 3 年质保,所以现在选择了银河 Exos
|
3
FlytoSirius 2023-12-16 16:58:48 +08:00
怎么没见什么人用 东芝硬盘 ?
|
4
kneo 2023-12-16 20:29:34 +08:00 via Android
五年就坏了?
|
5
Autonomous OP @kneo 是的,一共 4 块希捷狼盘,同时期买的,坏了 1 块,还有 3 块正常
|
6
YsHaNg 2023-12-16 20:49:28 +08:00 via iPhone
坏扇区开始出现的小时数?
|
7
princeofwales 2023-12-16 20:50:27 +08:00
我的酷狼也是报 8 个坏扇区,数量一直没有增加就没管
那块盘上面都是下载的电影,数据不重要 |
8
asdgsdg98 2023-12-16 20:50:46 +08:00
还是买企业级吧,消费级越做越差了
|
9
northbrunv 2023-12-16 21:06:58 +08:00 via Android
酷狼寿命不到银河一半
|
10
maleclub 2023-12-16 21:21:21 +08:00
|
11
maleclub 2023-12-16 21:23:14 +08:00
有 56000 个小时了
|
12
metrics 2023-12-16 21:43:44 +08:00
羡慕 OP 的 8 盘位!
现在在用 920 ,再换也是准备直接上 8 盘位了。 |
13
JoeoooLAI 2023-12-16 22:41:08 +08:00
五年确实也差不多了,这个真的有点讲运气,两块 4t 酷狼也是 5 年了,0 坏扇区,另外一个买了两年就出现几个坏扇区,目前还没增长,年头买了 hc550 ,看看企业级会不会好点,看看能撑多久。
目前手头上存活最长命的硬盘是两块 3tb 红盘跑 raid1 的 WD30EFRX-68EUZN0, 截至现在 76313 小时,0 bad sector 感觉只要供电稳,关掉自动启停,持续运行基本上 5 年还是问题不大的。 |
14
zealic 2023-12-16 22:56:16 +08:00
我买的酷狼 8T 有 4 个盘同一批次的 3 个盘前两个月一起坏了,还好 RAID10 勉强数据无问题,寿命两年。
JD 报修换了三个新的。 希捷确实故障率是最高的,不管是实际还是数据统计;另一个 NAS 的 WD 3T 红盘 8 年了都没出问题。 楼主没开 RAID 也是真的勇。 |
15
xinmans 2023-12-16 23:26:12 +08:00 via iPhone
配置个 zfs ,随便坏,换就是了,不影响数据
|
17
token10086 2023-12-17 00:41:07 +08:00
我京东买的,3 年坏了给免费换新了。很香
|
18
maleclub 2023-12-17 01:28:56 +08:00 via Android
不管是监控还是 nas ,上 UPS 也是很重要。我另外几块 Wd 4TB 紫色监控盘,16 年下半年在 JD 买的,24 小时不间断跑到现在也没坏....体质好也可能,运气好也有可能,注意断电保护也是嘎嘎重要,施耐德 UPS3-4 年左右自己动手换一次铅酸电池也才 80~110 左右的费用。
|
19
ltkun 2023-12-17 06:19:40 +08:00 via Android 1
@daimaosix 配个 raidz3 可以坏三块不丢数据 我现在系统就这么玩 主要配置灵活 各种高级玩法 不如扩容都不需要停机 毕竟是给服务器用的
|
20
Autonomous OP @YsHaNg 不太记得了,一年多以前就出现坏扇区,回复不好发图,我文字敲一下:
----- 2023 年坏扇区数(累计量): 一月 64 二月 64 三月 64 四月 64 五月 72 六月 72 七月 136 八月 120 九月 136 十月 264 十一月 232 十二月 80 → 硬盘损毁 ----- 感觉比较奇怪,这个数字总体来看是增长的,但是中途几个月还能减少,很神奇。 |
21
Autonomous OP @princeofwales 是的,避免在这块硬盘上存储重要数据
@asdgsdg98 以后都选择企业级,噪音大没关系已经放玄关去了 @northbrunv 听说酷狼就是银河的降级盘(次品) @maleclub 都靠运气 @metrics 8 盘位基本就一步到位了,不折腾,但是插满真的费电 @JoeoooLAI 一直都有 UPS ,我开始 2 年还用自动休眠,后来才关掉 @zealic 有一种说法是,次品容易集中在某个批次一起出场,然后被一并购买,寿命也差不多同时耗尽,所以 RAID5 重建有一定失败率。我这个不开 RAID 是因为一年前就报坏扇区了,重要数据转移走然后踢出 RAID @maleclub 一直都用 APC-BK650 |
22
asyqm 2023-12-17 17:48:49 +08:00
@Autonomous 感觉上即便是次品某个批次,但是如果你是 4/8 个,HDD 同一时间(比如在一个月内)同时损坏的几率还是很少的。另外,HDD 跟 SSD 不一样,你说的寿命耗尽应该是指 SSD 。HDD 很多服役上 10 年的,理论上他没有寿命耗尽这个说法。
|
23
zealic 2023-12-17 19:15:56 +08:00
@Autonomous 是的,但是消费品还是太容易买到同批次,即便非同批次也有概率同时坏,所以一般最好的做法是买相同容量的不同品牌的盘来组 RAID 。
|
25
JoeoooLAI 2023-12-18 01:53:54 +08:00
@Autonomous 同批次寿命耗尽的这个说法只存在于理论上,毕竟我跟过的服务器,硬盘肯定都是一次采购好的,也真的没出现过一块硬盘坏了以后在同一个月就跟着有另外一块盘坏的情况,当然也可能是我样本量不够多,而且都是 OEM 盘,手上管理的也不过百台。
Raid5 有两个风险,一个是 URE 风险,就是重建时其中一块硬盘有坏块不可读导致重建失败,其实 Raid1 也会存在的,除非你是两块以上镜像。第二就是重建时别的盘崩掉,毕竟重建的时候其他盘都是全力工作的。 如果楼主数据很重要且盘位足够,那肯定 raid6 实际,毕竟硬盘越大风险也是越大的。当然有额外一台机器备份那就更好了。 也不太赞同完全不做 Raid ,毕竟能保持服务在线即使是对于个人家庭用户来说还是很舒服的,毕竟不做 raid ,每次出事都要慢慢倒备份,倒备份的时候又炸一次 那是真的心态崩了,Raid 即使有众多缺点到现在还有人用肯定是有道理的。 虽然现在数据中心都开始往单盘闪存超融合去做存储,但人家机器节点规模可不是家里放得下的,所以还是老老实实 Raid + 备份,即使是买个 usb 硬盘盒额外装备份盘也好。 |
28
inorobot 358 天前
之前用的 DS918+,有块盘经常提示重新连接,后来发现清一下灰就好了,感觉可能是接口没有接好,以及 NAS 风道攒灰太大了,现在定期用吸尘器洗一下,换盘的时候把接口也都刷一下,基本后来没遇到提示重新连接数了
|