Новый дизайн хранилищ Exchange Server 2007 в Microsoft – III

Очень интересен именно этот факт, в том, что CCR на DAS предоставляет вдвое больше отказоустойчивости на уровне баз Exchange, при меньшей замысловатости и технической сложности для отдельного узла кластера, по сравнению с SCC на SAN (Single Copy Cluster, кластер единой копии). Как выяснили инженеры Microsoft IT, две простых системы хранения лучше, чем одна сложная. В конфигурации на SAN, каждый узел кластера должен иметь два адаптера шины, подключенных к отдельным оптоволоконным каналам, пару коммутаторов и контроллеров, а также двухпортовые Fiber Channel диски. В тоже время в CCR на DAS, Microsoft IT использует SAS диски с одним портом и одним RAID контроллером в каждом кластерном узле, на единицу хранения.

На уровне баз данных Exchange, в общем дизайне Exchange серверов – RAID контроллеры обеспечены отказоустойчивостью, но на уровне отдельного кластерного узла, это может быть потенциальной точкой отказа. Устранение такой возможной точки отказа требует использования CCR на SAN, с двумя адаптерами шины в каждом узле кластера, подключенными к отдельному массиву хранения SAN. Microsoft IT и использовал такую конфигурацию в самых ранних версиях дизайна Exchange 2007 серверов, но затем полностью перешел на CCR на DAS во всех последующих инсталляциях в производственной среде, из соображений стоимости. В такой конфигурации отказоустойчивости, CCR на DAS не может перехватывать сбой контроллера на кластерном узле без останова сервиса.

Однако, учитывая низкий процент отказов уровня RAID контроллеров и его малую значимость для конечной доступности почтовых служб, Microsoft IT посчитал прерывание сервисов в отказе, на менее чем две минуты достаточно приемлемым, поскольку из 90 SAS RAID контроллеров, примененных Microsoft IT, за 12 месяцев не вышло из строя ни одного. Microsoft IT счел стоимость развертывания CCR на SAN слишком большой ценой для устранения потенциальных двух минут простоя в маловероятном отказе RAID контроллера. SCC на SAN не может быть альтернативой, поскольку не восстанавливается после сбоя хранилища, и требует чтобы Microsoft IT восстанавливал архивные копии, тогда как CCR на DAS выдерживает сбой хранилища, поскольку имеет доступную, готовую к работе копию данных на втором узле.

Примечание: Microsoft IT проводил подавляющее большинство сбоев вручную, используя Move-ClusteredMailboxServer командлет во время запланированных и незапланированных периодов обслуживания, таких как инсталляция обязательного обновления безопасности или обновления драйверов на узле кластера. CCR на SAN не имеет преимуществ перед CCR на DAS в таких ситуациях, поскольку преодоление отказа неизбежно, а длительность прерывания сервисов вполне сопоставима.

Операции архивации на лету в рабочее время

MaximumExchange.ru - about How Microsoft IT Implements New Storage Designs for Exchange Server 2007

CCR технология, однако, не исключает автоматически необходимость архивации. Возникает недостаточная отказоустойчивость, когда выходит из строя подсистема хранения основного узла кластерного Mailbox сервера, поскольку данные остаются только на одном узле, пока Microsoft IT не починит его и не пересадит базу данных на восстановленный узел. Резервная архивация как раз предоставляет требуемый дополнительный уровень протекции, и рекомендованным решением является VSS-архивация пассивного узла, как это изображено выше.

Microsoft IT перешел от потоковой архивации (streaming backup) на активных узлах, к программной VSS-архивации на пассивных кластерных узлах с выпуском Data Protection Manager 2007. Таким образом, минимизировав влияние архивации на производительность активного узла, Microsoft IT смог расположить больше пользовательских ящиков в расчете на Mailbox сервер, в то же время проводя операции резервного копирования с большей частотой. Microsoft IT настроил сервер Data Protection Manager на прием журналов транзакций каждые 15 минут. Сервер ежедневно выполняет полную экспресс архивацию, для поддержания полного и целостного образа данных в Data Protection Manager. Полный экспресс архив полагается на синхронизацию блочного уровня в совокупности с Exchange VSS Writer для определения и репликации только тех блоков данных, которые изменились в рабочей среде со времени последней полной экспресс архивации.

В качестве хранилища архивации серверов Data Protection Manager, Microsoft IT также использует DAS технологию, в частности RAID 10 SATA дисков емкостью в 500GB и более. В сравнении с аппаратной VSS архивацией, используемой Microsoft IT ранее в Mailbox серверах на SAN, это решение основано на Data Protection Manager 2007 и DAS, что позволило Microsoft IT снизить сложность инфраструктуры резервного копирования, удалить зависимости от сторонних вендоров, и достичь еще более низкой стоимости хранения, одновременно поддерживая высокие темпы восстановлений.

Снижение необходимости восстановления из архивов

Data Protection Manager 2007 позволяет Microsoft IT восстанавливать данные почтового ящика на любой 15ти-минутный отрезок времени в оригинальный или альтернативный сервер. Однако, практически нет необходимости проводить восстановления на оригинальный сервер в результате аварийных сбоев или любых других случаев, как показывает практика использования CCR в Microsoft IT, в течение вот уже более 18 месяцев. Для Microsoft IT, восстановление файлов из архива – это инструмент тестирования программного обеспечения и плана аварийного восстановления. Microsoft IT проводит подобные восстановления на альтернативный сервер, во избежание влияния на Mailbox сервера в корпоративной почтовой инфраструктуре.

Технология CCR глобально изменила подход Microsoft IT к быстрому восстановлению. Прежние методы Mailbox серверов на SAN полагались на VSS-клоны. В полночь, Microsoft IT клонировал LUN Mailbox сервера в новый набор клонов LUN. И хотя такое решение предоставляло возможность быстрого восстановления больших объемов данных из архива в течение нескольких минут, оно требовало два дополнительных LUN для каждого LUN Mailbox сервера, вдобавок к высокой стоимости SAN и высококвалифицированных инженеров СХД для процедур восстановления в технологиях SAN. Переведя Exchange Server 2007 на CCR для возможности быстрого восстановления, Microsoft IT избавился от этих затрат и зависимостей. Восстановление из архива больше не является основным механизмом восстановления. Быстрое восстановление в Mailbox серверах на CCR – это прямой перехват отказа в обслуживании (failover) на пассивный узел.

Причина, по которой CCR смог эффективно исключить необходимость в восстановлениях из архива на оригинальные Mailbox сервера заключается в том, что кластерные узлы в серверах Mailbox на CCR находятся в состоянии горячего резерва. Активные и пассивные узлы могут меняться ролями в любое время. CCR автоматически разворачивает направление репликации для содержания почтовых баз синхронизированными путем доставки журналов транзакций (log shipping) и повторной отработки (replay) на пассивном узле. Это подразумевает, что любой узел при выходе из строя может быть восстановлен с использованием почтовых баз данных, которые продолжают быть доступны на другом узле. Кластерные узлы не имеют общих аппаратных компонентов. Так что малореально чтобы повреждение накопителей на одном узле могло сказаться на экземплярах баз данных другого узла. Неповрежденные почтовые базы данных, монтированные и доступные в работе на другом узле, являются основой для сценариев восстановления без архивных копий.

Типичный сценарий восстановлений CCR включает в себя следующие четыре фазы:

Нормальное функционирование. Кластерный Mailbox сервер доступен, и все новые транзакции, например, в результате доставки сообщений Узловым транспортным сервером Exchange 2007 (Hub Transport), генерируют новые файлы журналов транзакций на активном узле. Вследствие оповещений файловой системы служба репликации Microsoft Exchange (Microsoft Exchange Replication Service) на пассивном узле узнает о том, что новые журналы транзакций ожидают репликации. Эти оповещения генерируются файловой системой NTFS на активном узле, когда ESE закрывает и переименовывает текущий файл журнала транзакции номером последовательности, чтобы освободить место следующему журналу транзакций.

Перехват отказа и восстановление. В самом плохом стечении обстоятельств, когда активный узел отказывает сразу после того как Узловой транспортный сервер доставил сообщения, и перед тем как CCR мог реплицировать текущие транзакции – происходит перехват отказа обслуживания и пассивный узел становится активным без части самых последних сообщений. Тогда, чтобы получить недостающие сообщения, Mailbox сервер делает запрос на повторную доставку со всех серверов Узловых маршрутизаторов в локальном сайте Active Directory, в качестве процедуры восстановления после сбоя с потерями данных.

Восстановление узла. В этой стадии Mailbox сервер обновлен и работает на втором узле кластера пока Microsoft IT проводит на отказавшем узле операции по восстановлению, такие как замена публичного сетевого интерфейса или обновление сбоившего драйвера. Ключевым вопросом здесь является то – затронул ли сбой саму базу данных на отказавшем узле.

Нормальное функционирование. Mailbox сервер возобновляет нормальное функционирование, и любые поврежденные базы данных «посеяны» («receeding») заново. На восстановленном узле, Exchange Server 2007 автоматически распознает роли и работает далее в режиме пассивного узла, CCR разворачивает репликацию, чтобы обновить пассивный узел транзакциями, произошедшими на активном узле. В принципе, нет необходимости перенастраивать систему. CCR просто продолжает реплицировать почтовые данные с активного узла на пассивный.

Продолжение следует…

I | II | Часть III | IV | V

Leave a Reply

Your email address will not be published.