|
|
ru.linux- RU.LINUX --------------------------------------------------------------------- From : Wladimir Mutel 2:5020/400 09 Feb 2008 12:20:06 To : All Subject : md/raid1, data-check, soft lockup -------------------------------------------------------------------------------- Привет, Есть система с HT P4-3000. 2 логических проца. Памяти 1GB. SATA - ICH7 (82801GR/GH). 2 винта WD-SATA 320 GB с двумя разделами fd (Linux RAID autodetect) на каждом. Hа первой паре разделов собран маленький массив md0, на котором создана файлуха /boot. Hа второй паре разделов собран большой массив md2, из которого сделан LVM PV, и там в логических томах размещены остальные файловые системы, в т.ч. корневая. Ядро в исполнении Ubuntu такое : 2.6.24-4-generic (buildd@vernadsky) (gcc version 4.2.3 20080104 (prerelease) (Ubuntu 4.2.2-5ubuntu2)) #1 SMP Mon Jan 14 17:30:39 UTC 2008 (Ubuntu 2.6.24-4.7-generic) Приходили новые ядра (-5, -7), но система ещё не ребутилась с ними. Раз в месяц делается проверка целостности зеркал. В начале февраля проверка делалась с этим ядром, и в лог ядра сыпалось вот что : [833512.576662] md: data-check of RAID array md0 [833512.576828] md: minimum _guaranteed_ speed: 1000 KB/sec/disk. [833512.576993] md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for data-check. [833512.577211] md: using 128k window, over a total of 104320 blocks. [833512.612713] md: delaying data-check of md2 until md0 has finished (they share one or more physical units) [833514.914809] md: md0: data-check done. Тут понятно, короткий массив проверился за 2 секунды без проблем. [833514.953249] md: data-check of RAID array md2 [833514.953283] md: minimum _guaranteed_ speed: 1000 KB/sec/disk. [833514.953315] md: using maximum available idle IO bandwidth (but not more than 200000 KB/sec) for data-check. [833514.953372] md: using 128k window, over a total of 312464128 blocks. [833514.979747] RAID1 conf printout: [833514.979783] --- wd:2 rd:2 [833514.979811] disk 0, wo:0, o:1, dev:sdb1 [833514.979843] disk 1, wo:0, o:1, dev:sda1 А тут прошло 49 секунд - и [833563.190674] BUG: soft lockup - CPU#0 stuck for 11s! [md2_raid1:2206] [833563.190854] [833563.190939] Pid: 2206, comm: md2_raid1 Not tainted (2.6.24-4-generic #1) [833563.191056] EIP: 0060:[<f88859b0>] EFLAGS: 00010282 CPU: 0 [833563.191273] EIP is at raid1d+0x770/0xff0 [raid1] [833563.191362] EAX: dcf75000 EBX: c139eea0 ECX: 00000f87 EDX: f75cc480 [833563.191466] ESI: dcf75079 EDI: d906b079 EBP: e39bf940 ESP: dfb0fe9c [833563.191570] DS: 007b ES: 007b FS: 00d8 GS: 0000 SS: 0068 [833563.191680] CR0: 8005003b CR2: b7f07000 CR3: 377e0000 CR4: 000006d0 [833563.191792] DR0: 00000000 DR1: 00000000 DR2: 00000000 DR3: 00000000 [833563.191892] DR6: ffff0ff0 DR7: 00000400 [833563.192426] [jbd:schedule+0x20a/0x650] schedule+0x20a/0x600 [833563.192904] [<f889ded0>] md_thread+0x0/0xe0 [md_mod] [833563.193147] [shpchp:schedule_timeout+0x76/0x2d0] schedule_timeout+0x76/0xd0 [833563.193338] [apic_timer_interrupt+0x28/0x30] apic_timer_interrupt+0x28/0x30 [833563.193615] [<f889ded0>] md_thread+0x0/0xe0 [md_mod] [833563.193870] [ehci_hcd:param_get_uint+0x1b/0x20] param_get_uint+0x1b/0x20 [833563.194087] [<f889ded0>] md_thread+0x0/0xe0 [md_mod] [833563.194329] [<f889def3>] md_thread+0x23/0xe0 [md_mod] [833563.194573] [<c0141ac0>] autoremove_wake_function+0x0/0x40 [833563.194813] [<f889ded0>] md_thread+0x0/0xe0 [md_mod] [833563.195035] [kthread+0x42/0x70] kthread+0x42/0x70 [833563.195165] [kthread+0x0/0x70] kthread+0x0/0x70 [833563.195357] [kernel_thread_helper+0x7/0x10] kernel_thread_helper+0x7/0x10 [833563.195613] ======================= - и дальше каждые несколько секунд (с переменным интервалом) сыпались такие вот софт локапы в raid1d, иногда чуть глубже по стеку - в страничных и драйверных функциях, вызванных оттуда. Однако, несмотря на это, в конце концов оно отрапортовало, что всё проверило нормально : [839126.087115] ======================= [839988.251694] md: md2: data-check done. [839988.332757] RAID1 conf printout: [839988.332931] --- wd:2 rd:2 [839988.333040] disk 0, wo:0, o:1, dev:sda2 [839988.333139] disk 1, wo:0, o:1, dev:sdb2 И вот теперь - кому верить и как это преодолеть ? Это та же система, о которой я писАл раньше, и на которой были HSM violations при работе с SATA. С приходом нового ядра они исчезли, а вот это всплыло. И другая похожая на неё система (аналогичный проц, SATAшка ICH6R/RW (82801FR/FRW), столько же памяти, похожие структуры raid1/lvm, только винты SEAGATE по 200GB, а не WD, и такое же ядро) повела себя аналогично. Ubuntu уже выложило свои пакеты с ядром, основанным на финальном 2.6.24, но проверить их удастся не ранее чем в начале марта. А тут уже и 2.6.24.1 вышло со своей кучкой фиксов. В общем, к таким вот траблам приводит ускоренный девелопмент :> --- ifmail v.2.15dev5.4 * Origin: Demos online service (2:5020/400) Вернуться к списку тем, сортированных по: возрастание даты уменьшение даты тема автор
Архивное /ru.linux/25761822e5ea9.html, оценка из 5, голосов 10
|