Восстановление RAID5
ИМХО нужно сделать полный бэкап, проверить диски поотдельности и заново всё сделать...
пока что именно на этом и сошлись - сегодня ночью буду творить:( Просто эта машина нужна 24*7, так что пришлось выбирать время, когда она всё же менее нужна:)
Слили бэкап на отдельно стоящий массив.
Взяли абсолютно новый, абсолютно идентичный DL380, начали заливать обратно (имидж делался при помощи загрузочного диска Acronis). Размер образа - ~70Гб
Заливка образа на новый массив идет уже восемь часов (уже, правда, заканчивается). Магистраль между массивами - Gigabit Ethernet. Почему так долго? В винде образ такого объема пишется на порядок быстрее
Когда, как и кем они выявляются? Ты не мог бы привести точную цитату, это было бы более информативно, чем пересказ.
Слили бэкап на отдельно стоящий массив.Каким именно образом сделали бэкап и каким именно образом он теперь заливается? Пожалуйста, процитируй команды. Это поможет ответить на твои вопросы.
Взяли абсолютно новый, абсолютно идентичный DL380, начали заливать обратно (имидж делался при помощи загрузочного диска Acronis). Размер образа - ~70Гб
Заливка образа на новый массив идет уже восемь часов (уже, правда, заканчивается). Магистраль между массивами - Gigabit Ethernet. Почему так долго? В винде образ такого объема пишется на порядок быстрее
После нескольких перезагрузок сделали fsck -y на /usr, на котором эти ББ и показывались. Машина заработала нормально (в ее обычном функционировании).
Это то, что я сам видел, на кнопки сам не нажимал .
там виндовый интерфейс... При помощи мастера (кнопок "Далее" )
Тогда претензии предъявляй к этой программе.
да я претензий не предъявляю, собственно. Хочется узнать, связано ли это с особенностями ФС FreeBSD. Нагрузки на серверы - минимальны, при этом винтами скрипят, как первокурсник мозгами на экзамене
Что ты называешь bad block? Хотя бы примерно скажи как выглядели сообщения? Может быть ты сможешь их найти в /var/log/console.log?
Какой у тебя там RAID контроллер? Массив видится как SCSI device или как IDE?
Ты б сразу сказал...
DL380
Feb 16 11:07:18 www kernel: da0 at ciss0 bus 0 target 0 lun 0
Feb 16 11:07:18 www kernel: da0: <COMPAQ RAID 5 VOLUME OK> Fixed Direct Access SCSI-0 device
Feb 16 11:07:18 www kernel: da0: 135.168MB/s transfers
Feb 16 11:07:18 www kernel: da0: 277835MB (569006235 512 byte sectors: 255H 63S/T 35419C)
Feb 16 11:07:18 www kernel: pid 32: corrected slot count (0->1)
Feb 16 11:07:18 www kernel: Mounting root from ufs:/dev/da0s1a
Feb 16 11:08:04 www login: ROOT LOGIN (root) ON ttyv0
Feb 16 11:08:16 www nmbd[632]: [2006/02/16 11:08:16, 0] nmbd/nmbd.c:terminate(59)
Feb 16 11:08:16 www nmbd[632]: Got SIGTERM: going down...
Feb 16 11:08:23 www fsck: /dev/da0s1e: UNREF FILE I=46 OWNER=root MODE=100600
Feb 16 11:08:23 www fsck: /dev/da0s1e: SIZE=0 MTIME=Feb 16 10:53 2006 (CLEARED)
Feb 16 11:08:23 www fsck: /dev/da0s1e: UNREF FILE I=47 OWNER=root MODE=100600
Feb 16 11:08:23 www fsck: /dev/da0s1e: SIZE=0 MTIME=Feb 16 10:53 2006 (CLEARED)
Feb 16 11:08:23 www fsck: /dev/da0s1e: UNREF FILE I=48 OWNER=root MODE=100600
Feb 16 11:08:23 www fsck: /dev/da0s1e: SIZE=0 MTIME=Feb 16 10:53 2006 (CLEARED)
Feb 16 11:08:23 www fsck: /dev/da0s1e: UNREF FILE I=49 OWNER=www MODE=100600
Feb 16 11:08:23 www fsck: /dev/da0s1e: SIZE=0 MTIME=Feb 16 10:53 2006 (CLEARED)
Feb 16 11:08:23 www fsck: /dev/da0s1e: UNREF FILE I=57 OWNER=www MODE=100600
Feb 16 11:08:23 www fsck: /dev/da0s1e: SIZE=0 MTIME=Feb 16 10:53 2006 (CLEARED)
Feb 16 11:08:23 www fsck: /dev/da0s1e: UNREF FILE I=58 OWNER=www MODE=100600
Feb 16 11:08:23 www fsck: /dev/da0s1e: SIZE=0 MTIME=Feb 16 10:53 2006 (CLEARED)
Feb 16 11:08:23 www fsck: /dev/da0s1e: UNREF FILE I=82 OWNER=root MODE=100600
Feb 16 11:08:23 www fsck: /dev/da0s1e: SIZE=0 MTIME=Feb 16 10:53 2006 (CLEARED)
Feb 16 11:08:23 www fsck: /dev/da0s1e: UNREF FILE I=83 OWNER=root MODE=100600
Feb 16 11:08:23 www fsck: /dev/da0s1e: SIZE=0 MTIME=Feb 16 10:53 2006 (CLEARED)
Feb 16 11:08:23 www fsck: /dev/da0s1e: UNREF FILE I=84 OWNER=root MODE=100600
Feb 16 11:08:23 www fsck: /dev/da0s1e: SIZE=0 MTIME=Feb 16 10:53 2006 (CLEARED)
Feb 16 11:08:23 www fsck: /dev/da0s1e: Reclaimed: 0 directories, -17 files, -3375 fragments
Feb 16 11:08:23 www fsck: /dev/da0s1e: 37 files, 42 used, 130172 free (44 frags, 16266 blocks, 0.0% fragmentation)
это чем-то поможет?
да я претензий не предъявляю, собственно. Хочется узнать, связано ли это с особенностями ФС FreeBSD. Нагрузки на серверы - минимальны, при этом винтами скрипят, как первокурсник мозгами на экзаменеМожет ли зависеть скорость восстановления от файловой системы? Не знаю как работает твоя программа.
Ты упоминал слово "образ", это наводит на мысль, что твоя программа вообще не знает ничего о файловой систем и тупо пишет образ от начала винта до конца. Ясен пень, что от файловой системы тут ничего не зависит. Зависит от скорости винта и сети.
Если же программа работает с файловой системой, то конечно файловая система привносит вклад, если на ней много файлов и каталогов. Сколько их у тебя? Покажи 'df -i'. Кстати, если программа является лишь фронтендом к программе restore(8 то можно ожидать больших тормозов при наличии большого количества каталогов.
Скрип винчестера не зависит от файловой системы. Например у меня дома два винчестера скрипят, а два бесшумны. Нагруженность I/O в FreeBSD ты можешь мониторить при помощи следующих утилит: iostat(8 gstat(8 systat(8). Кстати, это можно было и самому узнать просто сказав apropos 'I/O statistics'.
Такие сообщения от fsck - норма, если ты перегрузился резетом.
У него именно побайтовое копирование. Как при этом у сервера может быть доступность 24*7?
%df -iнемного тут каталогов...
Filesystem 1K-blocks Used Avail Capacity iused ifree %iused Mounted on
/dev/da0s1a 253678 72476 160908 31% 1946 31076 6% /
devfs 1 1 0 100% 0 0 100% /dev
procfs 4 4 0 100% 1 0 100% /proc
/dev/da0s1e 253678 86 233298 0% 46 32976 0% /tmp
/dev/da0s1f 270750886 15577270 233513546 6% 798898 34199372 2% /usr
/dev/da0s1d 253678 179822 53562 77% 2183 30839 7% /var
%
Винты все родные, HP SCSI U320 72.8GB 10K, контроллер - цитата:
Контроллер Ultra320 Smart Array 6i (встроенный в системную плату) с 128 Mб с автономным кэш-буфером записи (BBWC) и дуплексной объединительной панелью в стандартной комплектации (комплект конфигурации SCSI)
Я вот только одного не пойму: всегда думал, что RAID-5 - это 3 диска, а не 5? Неужеле там алгоритм различный для различного числа дисков?
это _минимум_ три диска. На самом деле - сколько хочешь, суммарный объем равен (N-1)*емкость каждого, четность размазывается по всему массиву
Да, iused у тебя совсем небольшой для сервера, даже меньше, чем у меня на ноутбуке. А он у меня restore(8)ится за вечер, несмотря на свою древность.
не думаешь, что дело может быть в сети? Смотрели циску по мониторингу - обе машины висят на 1Gb full duplex. Но, может, всё же из-за этого? Ты-то ресторишь ноут наверняка с локального образа?
И тогда я б сначала попробовал на другом контроллере всё запустить (НР-шном тоже - он бы информацию о рэйде с дисков считал и нормально б было) - если б траблы остались, значит виновата ОС, если нет, то контроллер...
То, что виноваты диски, очень маловероятно, т.к. НР меняет им прошивку с целью оптимизации работы и, что главное для тебя, с целью лучшего слежения за ошибками - при превышении некоего порога ошибок смарта диска контроллер зажигает индикацию, что диск неисправен - так называемая Prefailure Garanty... Физические бэды проверяются и влиюят на этот порог...
Красной лампочки ни одной не горит, так что данного предела еще не достигнуто.
Да и странно всё равно - НР, вроде, железо тестит как хз что, а серваку еще года нет... Правда, он на пределе в обычном режиме работает
не думаешь, что дело может быть в сети? Смотрели циску по мониторингу - обе машины висят на 1Gb full duplex.Вроде как в гигабите не существует понятия half-duplex, поэтому предположение о разном дуплексе отметаем. Надо посмотреть есть ли ошибки на интерфейсах свитча, и на интерфейсах обоих машин.
Ты-то ресторишь ноут наверняка с локального образа?Нет, по fast ethernet.
Бывают партии с глючным чипом каким-нить...
Да и странно всё равно - НР, вроде, железо тестит как хз что, а серваку еще года нет...
Пока ты не показал никаких бэдов, только ошибки файловой системы, которые являются нормой после резета.
за 4 часа ошибок в пакетах - 0, при общем числе пакетов порядка 40 млн
ну да... не показал... не вижу я их в логах. Может, у нас админ неправильный?
суммарный объем равен (N-1)*емкость каждого
вот блин, не знал. Но в итоге получаем массив из офигенного количества винтов и вероятность одовременного выхода 2-х хардов из строя в случае перебоя с питанием увеличивается ==> надежность системы меньше. Я прав?
Поэтому такие конфигурации обычно используют при количестве дисков до 14, а так же добавляют online spare-диски...
Ещё бывают такие весчи, как RAID1+5
Возможно ты можешь получить доступ к физическим винтам (если это позволит контроллер сказав hw.ciss.expose_hidden_physical=1 в loader.conf и перегрузившись. Если контроллер покажет тебе винты, то они будут видны как /dev/passX, и ты сможешь прочитать о них информацию с помощью camcontrol. Но только ни в коем случае не пиши туда ничего.
Или можно загрузить винду и запустить smartstart CD и посмотреть информацию о физических дисках.
Наличие винды в данном случае совсем не нужно...
Или можно загрузить винду и запустить smartstart CD и посмотреть информацию о физических дисках.
SmartStart уже готовая оболочка для таких вещей...
Но в итоге получаем массив из офигенного количества винтов и вероятность одовременного выхода 2-х хардов из строя в случае перебоя с питанием увеличивается ==> надежность системы меньше.Если дисков много, можно RAID-6 сделать.
RAID ADG зовётся...
Если дисков много, можно RAID-6 сделать.
Я не силён в деревенских диалектах. Все нормальные люди называют это RAID-6.
Все "нормальные" люди просто продолжили линейку - правильное название RAID ADG...
да ты жертва маркетологов, походу
Оглавление в доке для подготовки к сертификационным экзаменам НР...
Drive Array Technologies
RAID Technology Overview
RAID Implementation
RAID 0—Disk Striping
RAID 1—Disk Mirroring
RAID 1+0—Striped Mirror Sets
RAID 2—Data Sector Striping with ECC
RAID 3—Parity Check
RAID 4—Data Guarding
RAID 5—Distributed Data Guarding
RAID ADG—Advanced Data Guarding
RAID Level Performance Comparison
Или ты считаешь, что инженеры сервис-центров НР тоже жертвы маркетологов?
ADG - HPшное название технологии RAID6 и решений на её основе. Кроме них это название никто не использует.
скажешь raid-6 - хепешники поймут
а вот скажешь "транк" - так цискохеды не понимают
блин, пока добирался до дома - еще написали:) Всем респегд за объяснения и разъяснения:)
switchport mode trunk. а как еще его называть ?
Я не апологет Cisco, ты знаешь. Но использую это слово чтобы обозначить tagged interface. Если посмотреть в словарь, то оно скорее подходит к интерфейсу, через который ходит много независимых сетей, чем к логическому объединению физических интерфейсов.
то результат будет зависеть от словаря
например, при поиске определения в гугле первое, что имеет отношение к коммуникации - это http://en.wikipedia.org/wiki/Trunk_%28telecommunications%29
проблема ещё и в том, что если назвать транк эзерченнелом, то не поймут остальные
А приведённая тобой ссылка является аргументом такой же силы, как ссылка на определение trunk на cisco.com.
Оставить комментарий
uncle17
Дано: 5 винтов в RAID5, FreeBSDвыявляются ошибки в FS, которые самим контроллером не исправляются, но исправляются при помощи fsck -y (неизвестно, полностью ли, но система загружается и работает нормально)
Значит ли это, что бэды есть минимум на 2-х винтах и восстановим ли массив в этом случае теоретически?