?

Log in

 
 
05 November 2012 @ 11:11 pm
Коллапс  
В прошедший вторник приказал долго жить почтовый сервер на базе SBS 2008, по совместительству выполняющий роль основного контроллера домена, ДНС сервера, DHCP, sharepoint сервера и файловой помойки (когда пишу это, сам просто в афигиваю, как можно было все это свалить на один сервер). В итоге процесс восстановления функционирования предприятия затянулся на четыре дня.
День первый.
В восемь часов утра сервер просто завис, при этом не успел записать логи Exchange, в итоге после перезагрузки все кроме почты поднялось. В процессе ее отлаживания сервер начал зависать. В итоге провозившись с ним до вечера, ни к чему не пришли. Вечером решили попробовать перенести рэйд-контроллер с жесткими дисками на другой сервер, и попробовать завести все на нем. Завели, протестили час и оставив проверяться логи и базу данных Exchange поехали домой (Время было уже 10 часов вечера).
Добравшись до дома в 12, я уже не смог удаленно подключиться к серверу. Ну хоть выяснили в чем причина - рэйд контроллер. В два часа ночи  уже был на работе, перенес винты на старый сервер и продолжил попытки реанимации БД. До утра он у меня ни разу не завис, ох как я был рад. Но как только с утра начали подключаться клиенты - ситуация повторилась.
День второй.
С утра начали подымать пустую машину (Server 2008 R2), чтобы перенести на нее почту, а так же на резервном контроллере домена подняли DHCP и DNS сервера параллельно пытаясь восстановить работоспособность старого сервера. В итоге за этим восстановлением конкретно повредили рэйд (рэйд контроллер теперь вообще не определял какой на этих жестких дисках тип рэйд). У нас остался только винчестестер с резервной копией сервера. На пустую машину залили Exchange 2010, копию базы данных, и начали проверять. Этим я занимался впервые, и поэтому после часа работы проверку прервал, т.к. подумал что она зависла. При попытке подключить пользователей к базе данных, сервер мне сообщил, что БД может работать только на той версии сервера, на которой была создана (2007). Домой опять поехали в 10.
День третий.
За ночь скачал Exchange 2007, к восьми часам утра поставил. При подключении базы данных выяснилось, что зря я не дождался окончания проверки днем ранее - база не подключалась. На проверку базы ушло еще 5 часов. После этого выяснилось что нужно обновить Exchange, ну и параллельно узнал что 2008 R2 полноценно поддерживает Exchange только с SP3.
Часам к восьми вечера база была подключена и хоть как-то начала работать.
У семнадцати счастливчиков уже при отправке им писем - возвращалась ошибка. По ним было решено - заархивировать почту, сохранившуюся на компьютере и заново создать ящики.
День четвертый.
У 80% пользователей почта восстановлена. Не знаю уж где Exchange хранит коннекторы отправки и получения, настройки owa, но на новом сервере можно было увидеть настройки старого, поэтому почти все настройки были восстановлены.
Так же была восстановлена файловая помойка.
Итог.
Ну в итоге, кроме того что я сказочный долбоеб, можно написать следующее:
1. Делать бэкапы больше и чаще.
2. Периодически проводить учения по восстановлению бэкапов.
3. Составить план действий при экстренных ситуациях с каждым из серверов (восстановить можно было бы гораздо быстрее, если бы сразу начали подымать чистый сервер для почты).
4. Почта, файловая помойка и контроллер домена (так же DNS, DHCP) должны находиться на разных серверах.
 
 
У меня играет:: maka yini
 
 
 
Vick Vegavickvega on November 7th, 2012 12:37 am (UTC)
Феерический пиздец уважаемый.
Вы уж простите, но тут не только сдохшее железо, вам надо-бы еще как минимум научится переводить систему на новое железо.
jarinatjarinat on November 7th, 2012 03:42 pm (UTC)
При проблеме с рэйд-контроллером и отсутствии такого же, разве можно перенести систему на другое железо?
Vick Vegavickvega on November 7th, 2012 05:12 pm (UTC)
Да, безусловно.
Обязательно должен быть в наличие system state backup системы которую переносим (обозначим как server1) и так-же full backup всего сервера, засим:
1. На новом железе ставим ту же самую систему (Windows 2003, SBS и т.д.) и все апдейты. (обозначим как server2), разбивка на разделы C:\, D:\ и т.д. как на оригинальном сервере.
2. Делаем restore full backup с server1 на server2. Не перезагружаемся.
3. Делаем restore system state с server1 на server2. Перезагружаемся.
4. Во время как сервер поднимается, он запросит драйва которые надо ему подсунуть, и будет ставить драйвера железа и т.д.
5. Перезагружаемся несколько раз.

Более развернуто здесь:
http://serverfault.com/questions/17624/what-is-a-system-state-backup-for/247908#247908


Edited at 2012-11-07 05:15 pm (UTC)
jarinat: pic#117090541jarinat on November 7th, 2012 05:41 pm (UTC)
Спасибо, попробую сделать.
пустошь мохаве: freebsdjrmm on November 7th, 2012 05:24 am (UTC)
DNS и DHCP должны находиться на разных серверах?
jarinatjarinat on November 7th, 2012 03:44 pm (UTC)
Я неправильно выразился. Dns DHCP AD должны на одном быть.
Vick Vegavickvega on November 7th, 2012 05:14 pm (UTC)
Не обязательно.