Какая-то черная полоса с техникой - сначала накрылась посудомойка, потом регистратор, а сегодня сервер домашней сети решил что весь мир подождет.
Nagios прояснил картину двумя алертами
Заглядываю в dmesg сервера, а там непрерывный поток ошибок, связанный с одним из дисков.
[1670400.363465] ata3.00: exception Emask 0x0 SAct 0x80000c00 SErr 0x0 action 0x0 [1670400.449986] ata3.00: irq_stat 0x40000008 [1670400.499057] ata3.00: failed command: READ FPDMA QUEUED [1670400.562599] ata3.00: cmd 60/80:50:88:bd:7e/00:00:bb:00:00/40 tag 10 ncq dma 65536 in res 51/40:30:d8:bd:7e/00:00:bb:00:00/40 Emask 0x409 (media error) <F> [1670400.758250] ata3.00: status: { DRDY ERR } [1670400.808368] ata3.00: error: { UNC } [1670400.873536] ata3.00: configured for UDMA/133 [1670400.926758] sd 2:0:0:0: [sda] tag#10 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE cmd_age=7s [1670401.040311] sd 2:0:0:0: [sda] tag#10 Sense Key : Medium Error [current] [1670401.122676] sd 2:0:0:0: [sda] tag#10 Add. Sense: Unrecovered read error - auto reallocate failed [1670401.229917] sd 2:0:0:0: [sda] tag#10 CDB: Read(16) 88 00 00 00 00 00 bb 7e bd 88 00 00 00 80 00 00 [1670401.339226] blk_update_request: I/O error, dev sda, sector 3145645528 op 0x0:(READ) flags 0x80700 phys_seg 1 prio class 0 [1670401.472476] ata3: EH complete [1670426.313174] ata3.00: exception Emask 0x0 SAct 0x104 SErr 0x0 action 0x0 [1670426.394513] ata3.00: irq_stat 0x40000008 [1670426.443575] ata3.00: failed command: READ FPDMA QUEUED [1670426.507225] ata3.00: cmd 60/20:40:80:09:b2/00:00:00:00:00/40 tag 8 ncq dma 16384 in res 51/40:20:80:09:b2/00:00:00:00:00/40 Emask 0x409 (media error) <F> [1670426.701929] ata3.00: status: { DRDY ERR } [1670426.752052] ata3.00: error: { UNC } [1670426.799092] ata3.00: configured for UDMA/133 [1670426.852370] sd 2:0:0:0: [sda] tag#8 FAILED Result: hostbyte=DID_OK driverbyte=DRIVER_SENSE cmd_age=7s [1670426.964863] sd 2:0:0:0: [sda] tag#8 Sense Key : Medium Error [current] [1670427.046201] sd 2:0:0:0: [sda] tag#8 Add. Sense: Unrecovered read error - auto reallocate failed [1670427.152496] sd 2:0:0:0: [sda] tag#8 CDB: Read(16) 88 00 00 00 00 00 00 b2 09 80 00 00 00 20 00 00 [1670427.260856] blk_update_request: I/O error, dev sda, sector 11667840 op 0x0:(READ) flags 0x0 phys_seg 4 prio class 0 [1670427.387855] md/raid1:md1: sda3: rescheduling sector 10774912 [1670427.457745] md/raid1:md1: sda3: rescheduling sector 10774920 [1670427.527534] md/raid1:md1: sda3: rescheduling sector 10774928 [1670427.597320] md/raid1:md1: sda3: rescheduling sector 10774936 [1670427.667116] ata3: EH complete [1670429.070818] md/raid1:md1: redirecting sector 10774912 to other mirror: sdb3 [1670429.229305] md/raid1:md1: redirecting sector 10774920 to other mirror: sdb3 [1670430.301795] md/raid1:md1: redirecting sector 10774928 to other mirror: sdb3 [1670432.945317] md/raid1:md1: redirecting sector 10774936 to other mirror: sdb3
Смотрю подробности в S.M.A.R.T.
smartctl 6.6 2017-11-05 r4594 [x86_64-linux-5.7.0-0.bpo.2-amd64] (local build) Copyright (C) 2002-17, Bruce Allen, Christian Franke, www.smartmontools.org === START OF INFORMATION SECTION === Model Family: Toshiba 3.5" DT01ACA... Desktop HDD Device Model: TOSHIBA DT01ACA300 Serial Number: Z3GHLUVGS LU WWN Device Id: 5 000039 ff4d52fc5 Firmware Version: MX6OABB0 User Capacity: 3,000,592,982,016 bytes [3.00 TB] Sector Sizes: 512 bytes logical, 4096 bytes physical Rotation Rate: 7200 rpm Form Factor: 3.5 inches Device is: In smartctl database [for details use: -P show] ATA Version is: ATA8-ACS T13/1699-D revision 4 SATA Version is: SATA 3.0, 6.0 Gb/s (current: 3.0 Gb/s) Local Time is: Sun Sep 6 15:56:18 2020 +03 SMART support is: Available - device has SMART capability. SMART support is: Enabled === START OF READ SMART DATA SECTION === SMART Attributes Data Structure revision number: 16 Vendor Specific SMART Attributes with Thresholds: ID# ATTRIBUTE_NAME FLAG VALUE WORST THRESH TYPE UPDATED WHEN_FAILED RAW_VALUE 1 Raw_Read_Error_Rate 0x000b 100 100 016 Pre-fail Always - 0 2 Throughput_Performance 0x0005 139 139 054 Pre-fail Offline - 70 3 Spin_Up_Time 0x0007 155 155 024 Pre-fail Always - 322 (Average 416) 4 Start_Stop_Count 0x0012 100 100 000 Old_age Always - 40 5 Reallocated_Sector_Ct 0x0033 089 089 005 Pre-fail Always - 359 7 Seek_Error_Rate 0x000b 100 100 067 Pre-fail Always - 0 8 Seek_Time_Performance 0x0005 126 126 020 Pre-fail Offline - 32 9 Power_On_Hours 0x0012 092 092 000 Old_age Always - 56068 10 Spin_Retry_Count 0x0013 100 100 060 Pre-fail Always - 0 12 Power_Cycle_Count 0x0032 100 100 000 Old_age Always - 40 192 Power-Off_Retract_Count 0x0032 099 099 000 Old_age Always - 1745 193 Load_Cycle_Count 0x0012 099 099 000 Old_age Always - 1745 194 Temperature_Celsius 0x0002 139 139 000 Old_age Always - 43 (Min/Max 22/52) 196 Reallocated_Event_Count 0x0032 087 087 000 Old_age Always - 409 197 Current_Pending_Sector 0x0022 100 100 000 Old_age Always - 0 198 Offline_Uncorrectable 0x0008 100 100 000 Old_age Offline - 0 199 UDMA_CRC_Error_Count 0x000a 200 200 000 Old_age Always - 0
С учетом наработанных часов (56060 или больше 5 лет непрерывной работы) ругать потребительскую железку глупо - для того их и стоит две в зеркале плюс резервные копии сбрасываются на внешний диск, который хранится отдельно.
Но теперь нужно выбрать что-то на замену и оказалось это сделать непросто - если посмотреть что продается сегодня в Минске объемом 3TB или 4TB, скорость вращения шпинделя 7200RPM и стоит гуманных денег (все же для дома беру), то выбор не слишком велик:
Брать диски с 5400RPM или 5900RPM не хочется, т.к. важна latency - у дисков 7200RPM теоретически это 8.3ms, а для 5400RPM и 5900RPM это 11.1ms и 10.2ms соответственно.
Advanced Format уже никого не удивишь - нужно лишь правильно выровнять разделы, а вот Shingled Magnetic Recording (SMR) - относительно новый тренд и может подкинуть проблем если приходится много и часто писать на диск - как раз мой случай.
Некоторые производители скрывают, что диск использует технологию SMR. Toshiba недавно опубликовала информацию о потребительских HDD в которых используется SMR. Еще на хабре нашелся список дисков от разных производителей с SMR.
В итоге заказал самый бюджетный вариант (Toshiba HDWD130UZSVA) - этот диск еще и самый тихий и поддерживает SCT Error Recovery Control что очень важно для дисков в RAID.
Комментариев нет:
Отправить комментарий