# dmesg | tail SCSI device sdb: 490350672 512-byte hdwr sectors (251060 MB) sdb: Write Protect is off sdb: Mode Sense: 00 3a 00 00 SCSI device sdb: drive cache: write back ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x2 frozen ata3.00: cmd b0/da:00:00:4f:c2/00:00:00:00:00/00 tag 0 res 40/00:00:5f:00:00/00:00:00:00:00/e0 Emask 0x4 (timeout) ata3.00: status: { DRDY } ata3: soft resetting link ata3: SATA link up 1.5 Gbps (SStatus 113 SControl 310) ata3.00: configured for UDMA/33 ata3: EH complete SCSI device sdb: 490350672 512-byte hdwr sectors (251060 MB) sdb: Write Protect is off sdb: Mode Sense: 00 3a 00 00 SCSI device sdb: drive cache: write back ata3.00: exception Emask 0x0 SAct 0x0 SErr 0x0 action 0x2 frozen ata3.00: cmd b0/da:00:00:4f:c2/00:00:00:00:00/00 tag 0 res 40/00:00:5f:00:00/00:00:00:00:00/e0 Emask 0x4 (timeout) ata3.00: status: { DRDY } ata3: soft resetting link ata3: SATA link up 1.5 Gbps (SStatus 113 SControl 310) ata3.00: configured for UDMA/33 ata3: EH completeВидимо один из 4-х дисков приказал долго жить и его срочно нужно отключить от RAID. Самое интересное, что за полтора часа, пока сервер загибался, сбойный винт не пометило как сбойный.
Чтобы извлечь нужный диск и потом отключить его физически нужно знать его S/N (у нас стоят 4 одинаковых WDC WD2502ABYS - поэтому просто по производителю глянуть не получится).
Пробую найти сбойный диск перебирая все винты на сервере
for hdd in sda sdb sdc sdd; do smartctl -d ata -a /dev/$hdd | grep ^194; doneСкрипт залипает на /dev/sdb, исключаю его из перебора и пробую вновь. На этот раз отрабатывает без ошибок.
Теперь остается выяснить его серийный номер (S/N):
# ls -l /dev/disk/by-id/scsi-SATA_WDC_WD2502ABYS-_WD-WCAT1E8* |grep sdb$ lrwxrwxrwx 1 root root 9 Окт 25 10:39 /dev/disk/by-id/scsi-SATA_WDC_WD2502ABYS-_WD-WCAT1E882772 -> ../../sdbПолучается что его S/N WCAT1E882772. Теперь извлекаем его из raid:
mdadm --manage /dev/md0 --fail /dev/sdb1 --remove /dev/sdb1 mdadm --manage /dev/md1 --fail /dev/sdb2 --remove /dev/sdb2Остается остановить диск, чтобы система не пыталась его переинициализировать:
# ls -ld /sys/class/scsi_device/*/device/block:sdb lrwxrwxrwx 1 root root 0 Янв 21 10:03 /sys/class/scsi_device/2:0:0:0/device/block:sdb -> ../../../../../../block/sdb # echo 1 > /sys/class/scsi_device/2:0:0:0/device/deleteПроверяем, остановлен ли диск
# dmesg |tail SCSI device sdb: 490350672 512-byte hdwr sectors (251060 MB) sdb: Write Protect is off sdb: Mode Sense: 00 3a 00 00 SCSI device sdb: drive cache: write back ata3.00: disabledОсталось вытащить его из сервера и сдать по гарантии =)
Комментариев нет:
Отправить комментарий