Добро пожаловать в форум, Guest  >>   Войти | Регистрация | Поиск | Правила | В избранное | Подписаться
Все форумы / Microsoft SQL Server Новый топик    Ответить
 Сбой RAID  [new]
Acce_Ekb
Member

Откуда: Екатеринбург
Сообщений: 87
Добрый день!

Прошу помочь советами тех, кто хорошо знаком с дисковыми массивами HP, или просто сталкивался с подобной ситуацией.
Сразу уточню: я - разработчик SQL, не админ. Но нужно разобраться, хотя бы примерно, что произошло (и кто виноват :) ).

Что имеется:
1. журнал из HP Proliant Integrated Management Log Viewer (см. приложенную картинку).
2. лог Windows:
Тип события:	Ошибка
Источник события:	Cissesrv
Категория события:	Отсутствует
Код события:	24595
Дата:		21.10.2011
Время:		20:06:53
Пользователь:		Н/Д
Компьютер:	ХХХ
Описание:
A drive failure notification has been received for the SAS physical drive located in bay 3.  
This drive can be found in box 1 which is connected to port 2I of the array controller P400 located in server slot 1. 
The failure reason received from the HP Smart Array firmware is: NOT_READY.

3. Одна из таблиц БД при проверке DBCC CHECKTABLE начала выдавать ошибки:
CHECKTABLE обнаружил 0 ошибок размещения и 14 ошибок согласованности в таблице "..." (идентификатор объекта 2114106572).
Вставки в таблицу не проходят.
Восстановление with repair_allow_data_loss проходит, но теряется примерно 1 тыс записей таблицы.

4. Данные восстановить из бэкапа могу, могу перезалить из внешних источников. Вопрос не в этом.

Вопрос:
По идее, сам выход диска из строя не должен был привести к потере данных (на то и RAID).
Что такого случилось, что таблица сломалась?
Прошу, подскажите куда копать, что почитать. Может у кого-то были подобные случаи?
2 ноя 11, 07:22    [11536650]     Ответить | Цитировать Сообщить модератору
 Re: Сбой RAID  [new]
Acce_Ekb
Member

Откуда: Екатеринбург
Сообщений: 87
картинка с логом

К сообщению приложен файл. Размер - 48Kb
2 ноя 11, 07:24    [11536651]     Ответить | Цитировать Сообщить модератору
 Re: Сбой RAID  [new]
aleks2
Guest
Acce_Ekb
Вопрос:
По идее, сам выход диска из строя не должен был привести к потере данных (на то и RAID).
Что такого случилось, что таблица сломалась?
Прошу, подскажите куда копать, что почитать. Может у кого-то были подобные случаи?


1. Чтож, идеи нам близки: первым - лучшие куски.

2. Вы бы хоть тип RAID озвучили. Мож у вас RAID 0 - дык впору свечку ставить за чудесное спасение.

3. Сбой RAID - он сам по себе случается редко. Могет у вас електричество мыргнуло или помирая диск коротнул питание аль шину данных другого/других. Вопчем, нафантазировать можно многое.

4. Для этого бэкапы и придумали.
2 ноя 11, 07:43    [11536662]     Ответить | Цитировать Сообщить модератору
 Re: Сбой RAID  [new]
Acce_Ekb
Member

Откуда: Екатеринбург
Сообщений: 87
aleks2
2. Вы бы хоть тип RAID озвучили. Мож у вас RAID 0 - дык впору свечку ставить за чудесное спасение.

RAID 5.
Про RAID 0 это вы конечно загнули.
А что изменится от того, какой тип (RAID 5 или 10)? Если ваш ответ будет настолько узко-специальным, что коснется еще и особенностей конкретного RAID, то я с нетерпением жду ответа.

aleks2
3. ... Вопчем, нафантазировать можно многое.

Есть ли надежда на что-то кроме фантазий?

aleks2
4. Для этого бэкапы и придумали.

Но сейчас не об этом.
2 ноя 11, 09:20    [11536865]     Ответить | Цитировать Сообщить модератору
 Re: Сбой RAID  [new]
SanyL
Member

Откуда: Москва
Сообщений: 4540
Acce_Ekb,

можете описать что делалось последовательно?

ps похоже на ситуацию (правда в журнале нет ничего) когда вылетевшему диску сказали вместо ребилда - онлайн
2 ноя 11, 09:42    [11536959]     Ответить | Цитировать Сообщить модератору
 Re: Сбой RAID  [new]
aleks2
Guest
Acce_Ekb
Есть ли надежда на что-то кроме фантазий?

1. Нет. Если диск умер мирно - фсе должно быть хорошо.

2. "После этого" не означает "вследствие этого". Каковы аргументы за наличие причинно-следственной связи между разрушением рэйда и повреждением таблицы?

3. У вас там (в журнале) многа фсяких нехороших событий написано...
2 ноя 11, 10:04    [11537098]     Ответить | Цитировать Сообщить модератору
 Re: Сбой RAID  [new]
Acce_Ekb
Member

Откуда: Екатеринбург
Сообщений: 87
SanyL
можете описать что делалось последовательно?

ps похоже на ситуацию (правда в журнале нет ничего) когда вылетевшему диску сказали вместо ребилда - онлайн


Не могу:(
Я разработчик, а админы у заказчика - что делали, неведомо (тут есть конечно организационный косяк в отношениях между нами и ними, но это уже второй вопрос).
Но хочется причину найти, чтоб не повторилось, чтоб не чинить нам каждый раз таблицы..
2 ноя 11, 10:06    [11537117]     Ответить | Цитировать Сообщить модератору
 Re: Сбой RAID  [new]
Acce_Ekb
Member

Откуда: Екатеринбург
Сообщений: 87
aleks2
2. "После этого" не означает "вследствие этого". Каковы аргументы за наличие причинно-следственной связи между разрушением рэйда и повреждением таблицы?

Не означает конечно.
По времени совпало: таблица перестала работать, ну глянули в журнал - рэйд-то того, этого..
Других аргументов нет.
Да я и не настаиваю категорично, что это только рэйд виноват. Разобраться хочу в конкретном случае, могло ли это повлиять на таблицу.

aleks2
3. У вас там (в журнале) многа фсяких нехороших событий написано...

Ага. Я неспроста им сижу любуюсь.
Вы бы не могли поподробней - запись такая-то в журнале означает то-то, могла вызвать потерю данных там-то и т.д. ?[/quot]
2 ноя 11, 10:11    [11537154]     Ответить | Цитировать Сообщить модератору
 Re: Сбой RAID  [new]
aleks2
Guest
[quot Acce_Ekb]
aleks2
По времени совпало: таблица перестала работать, ну глянули в журнал - рэйд-то того, этого..

1. Ну дык, у вас получается: кривая таблица обрушила рэйд.
2. Не мучайтесь. Ничо вы не откопаете, если оно не видно сразу.
2 ноя 11, 10:27    [11537284]     Ответить | Цитировать Сообщить модератору
 Re: Сбой RAID  [new]
SanyL
Member

Откуда: Москва
Сообщений: 4540
Acce_Ekb
SanyL
можете описать что делалось последовательно?

ps похоже на ситуацию (правда в журнале нет ничего) когда вылетевшему диску сказали вместо ребилда - онлайн


Не могу:(
Я разработчик, а админы у заказчика - что делали, неведомо (тут есть конечно организационный косяк в отношениях между нами и ними, но это уже второй вопрос).
Но хочется причину найти, чтоб не повторилось, чтоб не чинить нам каждый раз таблицы..


стоит потрясти админов... позвоните ненавязчиво им чтоли, поинтересуйтесь как дела как здоровье и между делом спросите про диск :) если ктото из них сказал вылетевшему диску онлайн = это причина проблемы.
2 ноя 11, 10:31    [11537317]     Ответить | Цитировать Сообщить модератору
 Re: Сбой RAID  [new]
На новенького
Guest
Acce_Ekb
Разобраться хочу в конкретном случае, могло ли это повлиять на таблицу.

Отделите зерна от плевел.
Поднимите бекап предшествующий падению рейда. Если в нем ошибки есть, то констатируем факт - падение рейда и проблемы с таблицей несвязаны.
2 ноя 11, 11:06    [11537554]     Ответить | Цитировать Сообщить модератору
 Re: Сбой RAID  [new]
rahzer
Member

Откуда:
Сообщений: 2308
сли еще идет процесс ребилда, то вполне возможны - ошибки в этот момент, т.к. оставшиеся винты массива сейчас по своим алгоритмам высчитывают инфу "умершего" винта и восстанавливают ее для себя, если на нем инфы хранилось прилично, то естественно, что не все восстановится мгновенно. Но СУБд об этом не знает и пытается найти данные, которые еще не отребилдились. Подождите окончания ребилда.
2 ноя 11, 12:20    [11538144]     Ответить | Цитировать Сообщить модератору
 Re: Сбой RAID  [new]
rahzer
Member

Откуда:
Сообщений: 2308
Если винт умер, то на корзине должно показываться индикатором, который умер, можете допом сравнить с логом - отсек 3, корзина 1. Кто виноват? Shit happens..Надо вам уточнять регламент на тот предмет, кто проверяет логи событий железа, отправляются ли они админу по почте, читает ли он это? Когда зафиксирована ошибка логами и кто это обнаружил и когда, что было предпринято? Ну и т.п.
З.Ы Так как в процессе ребилда массив в состоянии дегрэйд, то работает медленно, может в вашей таблице или где там еще, есть тайм аут, по истечении которого, если данные не получены, то ошибка..А массив не может быстро обработать этот запрос, ибо занят другим делом.
2 ноя 11, 12:25    [11538189]     Ответить | Цитировать Сообщить модератору
 Re: Сбой RAID  [new]
SanyL
Member

Откуда: Москва
Сообщений: 4540
rahzer
сли еще идет процесс ребилда, то вполне возможны - ошибки в этот момент, т.к. оставшиеся винты массива сейчас по своим алгоритмам высчитывают инфу "умершего" винта и восстанавливают ее для себя, если на нем инфы хранилось прилично, то естественно, что не все восстановится мгновенно. Но СУБд об этом не знает и пытается найти данные, которые еще не отребилдились. Подождите окончания ребилда.


Учите мат часть :)
То что написано полный бред!
2 ноя 11, 13:18    [11538752]     Ответить | Цитировать Сообщить модератору
 Re: Сбой RAID  [new]
SanyL
Member

Откуда: Москва
Сообщений: 4540
rahzer
Если винт умер, то на корзине должно показываться индикатором, который умер, можете допом сравнить с логом - отсек 3, корзина 1. Кто виноват? Shit happens..Надо вам уточнять регламент на тот предмет, кто проверяет логи событий железа, отправляются ли они админу по почте, читает ли он это? Когда зафиксирована ошибка логами и кто это обнаружил и когда, что было предпринято? Ну и т.п.
З.Ы Так как в процессе ребилда массив в состоянии дегрэйд, то работает медленно, может в вашей таблице или где там еще, есть тайм аут, по истечении которого, если данные не получены, то ошибка..А массив не может быстро обработать этот запрос, ибо занят другим делом.


у него в результате проверки ошибка согласованности данных. Это ни каким образом не связано с таймаутами... а доп нагрузка во время ребилда из-за того что высчитывается контрольная сумма для R5 (этот раид пользует автор), чтобы ее высчитать надо считать с оставшихся дисков инфу понять что должно быть на вылетевшем (контр сумма) и записать результат на новый (ребилдящийся)
2 ноя 11, 13:23    [11538799]     Ответить | Цитировать Сообщить модератору
 Re: Сбой RAID  [new]
HoBTID
Member

Откуда:
Сообщений: 929
У вас 1-й сбой массива произошел 15 октября
POST Error: 1787-Drive Array Operating in Interim Recovery Mode 15.10.2011 13:50

И с тех пор массив не восстановили, а он целую неделю работал в режиме восстановления.
Вероятно не было исправного диска, поэтому так и работал.

Failue, которое 21 октября, это произошли ошибки на втором диске, а от этого RAID 5 не спасает.

Т.е. первый диск не работал целую неделю, поэтому кстати,
весь RAID 5 работал с сильно повышенной нагрузкой, а потом произошли 2 ошибки чтения на 2-м диске,
И все, данные потерялись.

Вывод: админам нужно получать уведомления о выходе из строя диска, и восстанавливать массив как можно скорее.

Кроме того, RAID 5 - плохой выбор для БД, гораздо лучше RAID 10.
2 ноя 11, 14:08    [11539362]     Ответить | Цитировать Сообщить модератору
 Re: Сбой RAID  [new]
HoBTID
Member

Откуда:
Сообщений: 929
У вас массив до сих пор работает без одного диска.
Так что ждите следующих ошибок :-)))
2 ноя 11, 14:17    [11539454]     Ответить | Цитировать Сообщить модератору
 Re: Сбой RAID  [new]
SanyL
Member

Откуда: Москва
Сообщений: 4540
HoBTID
У вас массив до сих пор работает без одного диска.
Так что ждите следующих ошибок :-)))


а значит и оживили переведя все хозяйство в онлайн = на дисках информация разная, в итоге и получили битую базу.

Acce_Ekb
Похоже совместными усилиями ответ на Ваш вопрос найден! Почему не следите за системой и зачем сделали онлайн? :)
2 ноя 11, 15:53    [11540575]     Ответить | Цитировать Сообщить модератору
 Re: Сбой RAID  [new]
Gerros
Member

Откуда: Харьков
Сообщений: 516
А чем сервер занимался с 30 сентября по 15 октября?
3 ноя 11, 01:37    [11543632]     Ответить | Цитировать Сообщить модератору
Все форумы / Microsoft SQL Server Ответить