Frozen Fido : RU.LINUX : md/raid1, data-check, soft lockup

ru.linux

 
 - RU.LINUX ---------------------------------------------------------------------
 From : Wladimir Mutel                       2:5020/400     09 Feb 2008  12:20:06
 To : All
 Subject : md/raid1, data-check, soft lockup
 --------------------------------------------------------------------------------

   Привет,
 
   Есть система с HT P4-3000. 2 логических проца. Памяти 1GB.
   SATA - ICH7 (82801GR/GH). 2 винта WD-SATA 320 GB с двумя разделами
   fd (Linux RAID autodetect) на каждом. Hа первой паре разделов собран
   маленький массив md0, на котором создана файлуха /boot. Hа второй паре
   разделов собран большой  массив md2, из которого сделан LVM PV, и там
   в логических томах размещены остальные файловые системы,
   в т.ч. корневая.
 
   Ядро в исполнении Ubuntu такое :
 2.6.24-4-generic (buildd@vernadsky) (gcc version 4.2.3 20080104 (prerelease) 
 (Ubuntu 4.2.2-5ubuntu2)) #1 SMP Mon Jan 14 17:30:39 UTC 2008 (Ubuntu 
 2.6.24-4.7-generic)
   Приходили новые ядра (-5, -7), но система ещё не ребутилась с ними.
 
   Раз в месяц делается проверка целостности зеркал.
   В начале февраля проверка делалась с этим ядром, и в лог ядра сыпалось
   вот что :
 
 [833512.576662] md: data-check of RAID array md0
 [833512.576828] md: minimum _guaranteed_  speed: 1000 KB/sec/disk.
 [833512.576993] md: using maximum available idle IO bandwidth (but not more than
 
 200000 KB/sec) for data-check.
 [833512.577211] md: using 128k window, over a total of 104320 blocks.
 [833512.612713] md: delaying data-check of md2 until md0 has finished (they 
 share one or more physical units)
 [833514.914809] md: md0: data-check done.
 
   Тут понятно, короткий массив проверился за 2 секунды без проблем.
 
 [833514.953249] md: data-check of RAID array md2
 [833514.953283] md: minimum _guaranteed_  speed: 1000 KB/sec/disk.
 [833514.953315] md: using maximum available idle IO bandwidth (but not more than
 
 200000 KB/sec) for data-check.
 [833514.953372] md: using 128k window, over a total of 312464128 blocks.
 [833514.979747] RAID1 conf printout:
 [833514.979783]  --- wd:2 rd:2
 [833514.979811]  disk 0, wo:0, o:1, dev:sdb1
 [833514.979843]  disk 1, wo:0, o:1, dev:sda1
 
   А тут прошло 49 секунд - и
 
 [833563.190674] BUG: soft lockup - CPU#0 stuck for 11s! [md2_raid1:2206]
 [833563.190854]
 [833563.190939] Pid: 2206, comm: md2_raid1 Not tainted (2.6.24-4-generic #1)
 [833563.191056] EIP: 0060:[<f88859b0>] EFLAGS: 00010282 CPU: 0
 [833563.191273] EIP is at raid1d+0x770/0xff0 [raid1]
 [833563.191362] EAX: dcf75000 EBX: c139eea0 ECX: 00000f87 EDX: f75cc480
 [833563.191466] ESI: dcf75079 EDI: d906b079 EBP: e39bf940 ESP: dfb0fe9c
 [833563.191570]  DS: 007b ES: 007b FS: 00d8 GS: 0000 SS: 0068
 [833563.191680] CR0: 8005003b CR2: b7f07000 CR3: 377e0000 CR4: 000006d0
 [833563.191792] DR0: 00000000 DR1: 00000000 DR2: 00000000 DR3: 00000000
 [833563.191892] DR6: ffff0ff0 DR7: 00000400
 [833563.192426]  [jbd:schedule+0x20a/0x650] schedule+0x20a/0x600
 [833563.192904]  [<f889ded0>] md_thread+0x0/0xe0 [md_mod]
 [833563.193147]  [shpchp:schedule_timeout+0x76/0x2d0] schedule_timeout+0x76/0xd0
 [833563.193338]  [apic_timer_interrupt+0x28/0x30] apic_timer_interrupt+0x28/0x30
 [833563.193615]  [<f889ded0>] md_thread+0x0/0xe0 [md_mod]
 [833563.193870]  [ehci_hcd:param_get_uint+0x1b/0x20] param_get_uint+0x1b/0x20
 [833563.194087]  [<f889ded0>] md_thread+0x0/0xe0 [md_mod]
 [833563.194329]  [<f889def3>] md_thread+0x23/0xe0 [md_mod]
 [833563.194573]  [<c0141ac0>] autoremove_wake_function+0x0/0x40
 [833563.194813]  [<f889ded0>] md_thread+0x0/0xe0 [md_mod]
 [833563.195035]  [kthread+0x42/0x70] kthread+0x42/0x70
 [833563.195165]  [kthread+0x0/0x70] kthread+0x0/0x70
 [833563.195357]  [kernel_thread_helper+0x7/0x10] kernel_thread_helper+0x7/0x10
 [833563.195613]  =======================
 
   - и дальше каждые несколько секунд (с переменным интервалом) сыпались
    такие вот софт локапы в raid1d, иногда чуть глубже по стеку -
    в страничных и драйверных функциях, вызванных оттуда.
   Однако, несмотря на это, в конце концов оно отрапортовало,
    что всё проверило нормально :
 
 [839126.087115]  =======================
 [839988.251694] md: md2: data-check done.
 [839988.332757] RAID1 conf printout:
 [839988.332931]  --- wd:2 rd:2
 [839988.333040]  disk 0, wo:0, o:1, dev:sda2
 [839988.333139]  disk 1, wo:0, o:1, dev:sdb2
 
   И вот теперь - кому верить и как это преодолеть ?
 
   Это та же система, о которой я писАл раньше, и на которой были
   HSM violations при работе с SATA. С приходом нового ядра они исчезли,
   а вот это всплыло.
 
   И другая похожая на неё система (аналогичный проц, SATAшка ICH6R/RW
   (82801FR/FRW), столько же памяти, похожие структуры raid1/lvm,
   только винты SEAGATE по 200GB, а не WD, и такое же ядро)
   повела себя аналогично.
 
   Ubuntu уже выложило свои пакеты с ядром, основанным на финальном 2.6.24,
   но проверить их удастся не ранее чем в начале марта.
   А тут уже и 2.6.24.1 вышло со своей кучкой фиксов.
   В общем, к таким вот траблам приводит ускоренный девелопмент :>
 --- ifmail v.2.15dev5.4
  * Origin: Demos online service (2:5020/400)

Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор

Тема:	Автор:	Дата:
md/raid1, data-check, soft lockup	Wladimir Mutel	09 Feb 2008 12:20:06
Re: md/raid1, data-check, soft lockup	Wladimir Mutel	02 Mar 2008 12:17:27
Re: md/raid1, data-check, soft lockup	Alex Korchmar	02 Mar 2008 18:52:43
Re: md/raid1, data-check, soft lockup	Wladimir Mutel	02 Mar 2008 19:48:33
Re: md/raid1, data-check, soft lockup	Alex Korchmar	02 Mar 2008 23:24:09
Re: md/raid1, data-check, soft lockup	Wladimir Mutel	03 Mar 2008 11:01:12
Re: md/raid1, data-check, soft lockup	Wladimir Mutel	03 Mar 2008 11:01:13
md/raid1, data-check, soft lockup	Ivan A. Ufimtsev	03 Mar 2008 01:42:14
Re: md/raid1, data-check, soft lockup	Wladimir Mutel	03 Mar 2008 10:56:40

Архивное /ru.linux/25761822e5ea9.html, оценка 3 из 5, голосов 10