воскресенье, 6 сентября 2020 г.

Посыпался диск в RAID

Какая-то черная полоса с техникой - сначала накрылась посудомойка, потом регистратор, а сегодня сервер домашней сети решил что весь мир подождет.

Nagios прояснил картину двумя алертами

Заглядываю в dmesg сервера, а там непрерывный поток ошибок, связанный с одним из дисков.

[1670400.363465] ata3.00: exception Emask 0x0 SAct 0x80000c00 SErr 0x0 action 0x0
[1670400.449986] ata3.00: irq_stat 0x40000008
[1670400.499057] ata3.00: failed command: READ FPDMA QUEUED
[1670400.562599] ata3.00: cmd 60/80:50:88:bd:7e/00:00:bb:00:00/40 tag 10 ncq dma 65536 in
                          res 51/40:30:d8:bd:7e/00:00:bb:00:00/40 Emask 0x409 (media error) <F>
[1670400.758250] ata3.00: status: { DRDY ERR }
[1670400.808368] ata3.00: error: { UNC }
[1670400.873536] ata3.00: configured for UDMA/133
[1670400.926758] sd 2:0:0:0: [sda] tag#10 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE cmd_age=7s
[1670401.040311] sd 2:0:0:0: [sda] tag#10 Sense Key : Medium Error [current] 
[1670401.122676] sd 2:0:0:0: [sda] tag#10 Add. Sense: Unrecovered read error - auto reallocate failed
[1670401.229917] sd 2:0:0:0: [sda] tag#10 CDB: Read(16) 88 00 00 00 00 00 bb 7e bd 88 00 00 00 80 00 00
[1670401.339226] blk_update_request: I/O error, dev sda, sector 3145645528 op 0x0:(READ) flags 0x80700 phys_seg 1 prio class 0
[1670401.472476] ata3: EH complete
[1670426.313174] ata3.00: exception Emask 0x0 SAct 0x104 SErr 0x0 action 0x0
[1670426.394513] ata3.00: irq_stat 0x40000008
[1670426.443575] ata3.00: failed command: READ FPDMA QUEUED
[1670426.507225] ata3.00: cmd 60/20:40:80:09:b2/00:00:00:00:00/40 tag 8 ncq dma 16384 in
                          res 51/40:20:80:09:b2/00:00:00:00:00/40 Emask 0x409 (media error) <F>
[1670426.701929] ata3.00: status: { DRDY ERR }
[1670426.752052] ata3.00: error: { UNC }
[1670426.799092] ata3.00: configured for UDMA/133
[1670426.852370] sd 2:0:0:0: [sda] tag#8 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE cmd_age=7s
[1670426.964863] sd 2:0:0:0: [sda] tag#8 Sense Key : Medium Error [current] 
[1670427.046201] sd 2:0:0:0: [sda] tag#8 Add. Sense: Unrecovered read error - auto reallocate failed
[1670427.152496] sd 2:0:0:0: [sda] tag#8 CDB: Read(16) 88 00 00 00 00 00 00 b2 09 80 00 00 00 20 00 00
[1670427.260856] blk_update_request: I/O error, dev sda, sector 11667840 op 0x0:(READ) flags 0x0 phys_seg 4 prio class 0
[1670427.387855] md/raid1:md1: sda3: rescheduling sector 10774912
[1670427.457745] md/raid1:md1: sda3: rescheduling sector 10774920
[1670427.527534] md/raid1:md1: sda3: rescheduling sector 10774928
[1670427.597320] md/raid1:md1: sda3: rescheduling sector 10774936
[1670427.667116] ata3: EH complete
[1670429.070818] md/raid1:md1: redirecting sector 10774912 to other mirror: sdb3
[1670429.229305] md/raid1:md1: redirecting sector 10774920 to other mirror: sdb3
[1670430.301795] md/raid1:md1: redirecting sector 10774928 to other mirror: sdb3
[1670432.945317] md/raid1:md1: redirecting sector 10774936 to other mirror: sdb3

Смотрю подробности в S.M.A.R.T.

smartctl 6.6 2017-11-05 r4594 [x86_64-linux-5.7.0-0.bpo.2-amd64] (local build)
Copyright (C) 2002-17, Bruce Allen, Christian Franke, www.smartmontools.org

=== START OF INFORMATION SECTION ===
Model Family:     Toshiba 3.5" DT01ACA... Desktop HDD
Device Model:     TOSHIBA DT01ACA300
Serial Number:    Z3GHLUVGS
LU WWN Device Id: 5 000039 ff4d52fc5
Firmware Version: MX6OABB0
User Capacity:    3,000,592,982,016 bytes [3.00 TB]
Sector Sizes:     512 bytes logical, 4096 bytes physical
Rotation Rate:    7200 rpm
Form Factor:      3.5 inches
Device is:        In smartctl database [for details use: -P show]
ATA Version is:   ATA8-ACS T13/1699-D revision 4
SATA Version is:  SATA 3.0, 6.0 Gb/s (current: 3.0 Gb/s)
Local Time is:    Sun Sep  6 15:56:18 2020 +03
SMART support is: Available - device has SMART capability.
SMART support is: Enabled

=== START OF READ SMART DATA SECTION ===
SMART Attributes Data Structure revision number: 16
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000b   100   100   016    Pre-fail  Always       -       0
  2 Throughput_Performance  0x0005   139   139   054    Pre-fail  Offline      -       70
  3 Spin_Up_Time            0x0007   155   155   024    Pre-fail  Always       -       322 (Average 416)
  4 Start_Stop_Count        0x0012   100   100   000    Old_age   Always       -       40
  5 Reallocated_Sector_Ct   0x0033   089   089   005    Pre-fail  Always       -       359
  7 Seek_Error_Rate         0x000b   100   100   067    Pre-fail  Always       -       0
  8 Seek_Time_Performance   0x0005   126   126   020    Pre-fail  Offline      -       32
  9 Power_On_Hours          0x0012   092   092   000    Old_age   Always       -       56068
 10 Spin_Retry_Count        0x0013   100   100   060    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   000    Old_age   Always       -       40
192 Power-Off_Retract_Count 0x0032   099   099   000    Old_age   Always       -       1745
193 Load_Cycle_Count        0x0012   099   099   000    Old_age   Always       -       1745
194 Temperature_Celsius     0x0002   139   139   000    Old_age   Always       -       43 (Min/Max 22/52)
196 Reallocated_Event_Count 0x0032   087   087   000    Old_age   Always       -       409
197 Current_Pending_Sector  0x0022   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0008   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x000a   200   200   000    Old_age   Always       -       0

С учетом наработанных часов (56060 или больше 5 лет непрерывной работы) ругать потребительскую железку глупо - для того их и стоит две в зеркале плюс резервные копии сбрасываются на внешний диск, который хранится отдельно.

Но теперь нужно выбрать что-то на замену и оказалось это сделать непросто - если посмотреть что продается сегодня в Минске объемом 3TB или 4TB, скорость вращения шпинделя 7200RPM и стоит гуманных денег (все же для дома беру), то выбор не слишком велик:

Брать диски с 5400RPM или 5900RPM не хочется, т.к. важна latency - у дисков 7200RPM теоретически это 8.3ms, а для 5400RPM и 5900RPM это 11.1ms и 10.2ms соответственно.

Advanced Format уже никого не удивишь - нужно лишь правильно выровнять разделы, а вот Shingled Magnetic Recording (SMR) - относительно новый тренд и может подкинуть проблем если приходится много и часто писать на диск - как раз мой случай.

Некоторые производители скрывают, что диск использует технологию SMR. Toshiba недавно опубликовала информацию о потребительских HDD в которых используется SMR. Еще на хабре нашелся список дисков от разных производителей с SMR.

В итоге заказал самый бюджетный вариант (Toshiba HDWD130UZSVA) - этот диск еще и самый тихий и поддерживает SCT Error Recovery Control что очень важно для дисков в RAID.

Комментариев нет:

Отправить комментарий