|
ru.linux- RU.LINUX --------------------------------------------------------------------- From : Wladimir Mutel 2:5020/400 22 Aug 2007 18:08:49 To : All Subject : SATA, NCQ & HSM violation --------------------------------------------------------------------------------
Привет,
Есть мамка SE7230NH. Есть на ней SATA-контроллер,
работающий в обычном режиме (не RAID) :
00:1f.2 0106: 8086:27c1 SATA controller:
Intel Corporation 82801GR/GH (ICH7 Family)
Serial ATA Storage Controller AHCI (rev 01)
Hа нём висят два SATAшника :
ata1.00: ATA-7: WDC WD3200AAKS-00SBA0, 12.01B01, max UDMA/133
ata1.00: 625142448 sectors, multi 16: LBA48 NCQ (depth 31/32)
ata1.00: configured for UDMA/133
ata2: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
ata2.00: ATA-7: WDC WD3200AAKS-00SBA0, 12.01B01, max UDMA/133
ata2.00: 625142448 sectors, multi 16: LBA48 NCQ (depth 31/32)
ata2.00: configured for UDMA/133
ata3: SATA link down (SStatus 0 SControl 300)
ata4: SATA link down (SStatus 0 SControl 300)
scsi 0:0:0:0: Direct-Access ATA WDC WD3200AAKS-0 12.0
PQ: 0 ANSI: 5
scsi 1:0:0:0: Direct-Access ATA WDC WD3200AAKS-0 12.0
PQ: 0 ANSI: 5
Hа винтах нарезаны разделы типа fd (Linux RAID autodetect),
собранные в 2 массива RAID1. Один используется под /boot,
другой под LVM, где живёт всё остальное, в том числе
постгрессовская база, на которую приходится больше всего
дискового трансфера (средняя скорость чтения и записи с винтов
по iostat за 17 дней - примерно 250 КБ/сек).
Едро - 2.6.22.x из Debian unstable - vanilla .22.1
плюс немножко их патчей
Linux version 2.6.22-1-686 (Debian 2.6.22-3) (waldi@debian.org) (gcc
version 4.1.3 20070718 (prerelease) (Debian 4.1.2-14)) #1
SMP Sun Jul 29 14:37:42 UTC 2007
Linux host1 2.6.22-1-686 #1 SMP Sun Jul 29 14:37:42 UTC 2007 i686 GNU/Linux
CPU0: Intel(R) Pentium(R) 4 CPU 3.00GHz stepping 03
В режиме HT с двумя ядрами
И вот, когда система активно эксплуатируется, несколько раз в день
случается такое (то с одним винтом, то с другим) :
Aug 22 16:28:59 host1 kernel: ata1.00: exception Emask 0x2 SAct 0xc00
SErr 0x0 action 0x2 frozen
Aug 22 16:28:59 host1 kernel: ata1.00: (spurious completions
during NCQ issue=0x0 SAct=0xc00 FIS=004040a1:00000200)
Aug 22 16:28:59 host1 kernel: ata1.00:
cmd 61/02:50:d3:b1:14/00:00:09:00:00/40
tag 10 cdb 0x0 data 1024 out
Aug 22 16:28:59 host1 kernel:
res 40/00:5c:4f:31:21/00:00:09:00:00/40
Emask 0x2 (HSM violation)
Aug 22 16:28:59 host1 kernel: ata1.00:
cmd 61/04:58:4f:31:21/00:00:09:00:00/40
tag 11 cdb 0x0 data 2048 out
Aug 22 16:28:59 host1 kernel:
res 40/00:5c:4f:31:21/00:00:09:00:00/40
Emask 0x2 (HSM violation)
Aug 22 16:29:00 host1 kernel: ata1: soft resetting port
Aug 22 16:29:00 host1 kernel: ata1: SATA link up 3.0 Gbps
(SStatus 123 SControl 300)
Aug 22 16:29:00 host1 kernel: ata1.00: configured for UDMA/133
Aug 22 16:29:00 host1 kernel: ata1: EH complete
Aug 22 16:29:00 host1 kernel: sd 0:0:0:0: [sda]
625142448 512-byte hardware sectors (320073 MB)
Aug 22 16:29:00 host1 kernel: sd 0:0:0:0: [sda] Write Protect is off
Aug 22 16:29:00 host1 kernel: sd 0:0:0:0: [sda] Mode Sense: 00 3a 00 00
Aug 22 16:29:00 host1 kernel: sd 0:0:0:0: [sda] Write cache: enabled,
read cache: enabled, doesn't support DPO or FUA
Aug 22 16:33:18 host1 kernel: sd 0:0:0:0: Attached scsi generic sg0
type 0
Aug 22 16:33:18 host1 kernel: sd 1:0:0:0: Attached scsi generic sg1
type 0
Шо с этим теперь делать ? Hе обращать внимания ?
Hаписать в lkml, что винты занесли в блэклист ?
Подстроить глубину очереди, другие параметры
контроллера и винта ?
Данные пока не терялись. Те же эффекты наблюдались на паре
винтов
ATA-7: ST3808110AS, 2AAA, max UDMA/133
156301488 sectors, multi 16: LBA48 NCQ (depth 31/32)
Direct-Access ATA ST3808110AS 2AAA PQ: 0 ANSI: 5
которые работали там раньше в аналогичной конфигурации.
Потом один винт начал не всегда детектиться,
и поменяли оба тех на два этих. Раньше те же ST380 работали
на 3WARE 8006-2LP, там такого не было, т.к. 3варь
выглядела scsi-контроллером с лог.дисками, соответствующими
RAID-массивам, и юзало ли оно там при обмене с дисками NCQ,
я не знаю. (хотя там ST380 тоже любили отпадать, то один,
то другой: отпал второй, raid1 задегрейдился, при следующем
ребуте отпал первый, а увиделся второй - состема отъехала
в прошлое на несколько недель :> - потому и сняли ту 3варь)
--- ifmail v.2.15dev5.4
* Origin: Demos online service (2:5020/400)
Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор
Архивное /ru.linux/25773c259a9b4.html, оценка из 5, голосов 10
|