Главная страница


ru.linux

 
 - RU.LINUX ---------------------------------------------------------------------
 From : Wladimir Mutel                       2:5020/400     22 Aug 2007  18:08:49
 To : All
 Subject : SATA, NCQ & HSM violation
 -------------------------------------------------------------------------------- 
 
   Привет,
 
   Есть мамка SE7230NH. Есть на ней SATA-контроллер,
   работающий в обычном режиме (не RAID) :
 
 00:1f.2 0106: 8086:27c1 SATA controller:
   Intel Corporation 82801GR/GH (ICH7 Family)
    Serial ATA Storage Controller AHCI (rev 01)
 
   Hа нём висят два SATAшника :
 
 ata1.00: ATA-7: WDC WD3200AAKS-00SBA0, 12.01B01, max UDMA/133
 ata1.00: 625142448 sectors, multi 16: LBA48 NCQ (depth 31/32)
 ata1.00: configured for UDMA/133
 ata2: SATA link up 3.0 Gbps (SStatus 123 SControl 300)
 ata2.00: ATA-7: WDC WD3200AAKS-00SBA0, 12.01B01, max UDMA/133
 ata2.00: 625142448 sectors, multi 16: LBA48 NCQ (depth 31/32)
 ata2.00: configured for UDMA/133
 ata3: SATA link down (SStatus 0 SControl 300)
 ata4: SATA link down (SStatus 0 SControl 300)
 scsi 0:0:0:0: Direct-Access     ATA      WDC WD3200AAKS-0 12.0
   PQ: 0 ANSI: 5
 scsi 1:0:0:0: Direct-Access     ATA      WDC WD3200AAKS-0 12.0
   PQ: 0 ANSI: 5
 
   Hа винтах нарезаны разделы типа fd (Linux RAID autodetect),
   собранные в 2 массива RAID1. Один используется под /boot,
   другой под LVM, где живёт всё остальное, в том числе
   постгрессовская база, на которую приходится больше всего
   дискового трансфера (средняя скорость чтения и записи с винтов
   по iostat за 17 дней - примерно 250 КБ/сек).
 
   Едро - 2.6.22.x из Debian unstable - vanilla .22.1
   плюс немножко их патчей
 
 Linux version 2.6.22-1-686 (Debian 2.6.22-3) (waldi@debian.org) (gcc 
 version 4.1.3 20070718 (prerelease) (Debian 4.1.2-14)) #1
 SMP Sun Jul 29 14:37:42 UTC 2007
 
 Linux host1 2.6.22-1-686 #1 SMP Sun Jul 29 14:37:42 UTC 2007 i686 GNU/Linux
 
   CPU0: Intel(R) Pentium(R) 4 CPU 3.00GHz stepping 03
   В режиме HT с двумя ядрами
 
 И вот, когда система активно эксплуатируется, несколько раз в день 
 случается такое (то с одним винтом, то с другим) :
 
 Aug 22 16:28:59 host1 kernel: ata1.00: exception Emask 0x2 SAct 0xc00
   SErr 0x0 action 0x2 frozen
 Aug 22 16:28:59 host1 kernel: ata1.00: (spurious completions
   during NCQ issue=0x0 SAct=0xc00 FIS=004040a1:00000200)
 Aug 22 16:28:59 host1 kernel: ata1.00:
   cmd 61/02:50:d3:b1:14/00:00:09:00:00/40
   tag 10 cdb 0x0 data 1024 out
 Aug 22 16:28:59 host1 kernel:
   res 40/00:5c:4f:31:21/00:00:09:00:00/40
   Emask 0x2 (HSM violation)
 Aug 22 16:28:59 host1 kernel: ata1.00:
   cmd 61/04:58:4f:31:21/00:00:09:00:00/40
   tag 11 cdb 0x0 data 2048 out
 Aug 22 16:28:59 host1 kernel:
   res 40/00:5c:4f:31:21/00:00:09:00:00/40
   Emask 0x2 (HSM violation)
 Aug 22 16:29:00 host1 kernel: ata1: soft resetting port
 Aug 22 16:29:00 host1 kernel: ata1: SATA link up 3.0 Gbps
   (SStatus 123 SControl 300)
 Aug 22 16:29:00 host1 kernel: ata1.00: configured for UDMA/133
 Aug 22 16:29:00 host1 kernel: ata1: EH complete
 Aug 22 16:29:00 host1 kernel: sd 0:0:0:0: [sda]
   625142448 512-byte hardware sectors (320073 MB)
 Aug 22 16:29:00 host1 kernel: sd 0:0:0:0: [sda] Write Protect is off
 Aug 22 16:29:00 host1 kernel: sd 0:0:0:0: [sda] Mode Sense: 00 3a 00 00
 Aug 22 16:29:00 host1 kernel: sd 0:0:0:0: [sda] Write cache: enabled, 
 read cache: enabled, doesn't support DPO or FUA
 Aug 22 16:33:18 host1 kernel: sd 0:0:0:0: Attached scsi generic sg0
   type 0
 Aug 22 16:33:18 host1 kernel: sd 1:0:0:0: Attached scsi generic sg1
   type 0
 
   Шо с этим теперь делать ? Hе обращать внимания ?
   Hаписать в lkml, что винты занесли в блэклист ?
   Подстроить глубину очереди, другие параметры
   контроллера и винта ?
 
   Данные пока не терялись. Те же эффекты наблюдались на паре
   винтов
 ATA-7: ST3808110AS, 2AAA, max UDMA/133
 156301488 sectors, multi 16: LBA48 NCQ (depth 31/32)
 Direct-Access     ATA      ST3808110AS      2AAA PQ: 0 ANSI: 5
 
   которые работали там раньше в аналогичной конфигурации.
   Потом один винт начал не всегда детектиться,
   и поменяли оба тех на два этих. Раньше те же ST380 работали
   на 3WARE 8006-2LP, там такого не было, т.к. 3варь
   выглядела scsi-контроллером с лог.дисками, соответствующими
   RAID-массивам, и юзало ли оно там при обмене с дисками NCQ,
   я не знаю. (хотя там ST380 тоже любили отпадать, то один,
   то другой: отпал второй, raid1 задегрейдился, при следующем
   ребуте отпал первый, а увиделся второй - состема отъехала
   в прошлое на несколько недель :> - потому и сняли ту 3варь)
 --- ifmail v.2.15dev5.4
  * Origin: Demos online service (2:5020/400)
 
 

Вернуться к списку тем, сортированных по: возрастание даты  уменьшение даты  тема  автор 

 Тема:    Автор:    Дата:  
 SATA, NCQ & HSM violation   Wladimir Mutel   22 Aug 2007 18:08:49 
Архивное /ru.linux/25773c259a9b4.html, оценка 3 из 5, голосов 10
Яндекс.Метрика
Valid HTML 4.01 Transitional