Пример построения кластера надежности и его тестирование

В качестве примера построим кластер, состоящий из двух узлов и одного внешнего массива данных с интерфесом Fiber Channel. Подключим к нему несколько рабочих станций и проведем тестирование возможных точек отказа кластера.

Используемое оборудование:

Узлы кластера - два сервера Team Server серии 1500A в составе:
1. Intel Server Board S5000PAL;
2. Intel Xeon 5130 Processor;
3. 2Gb Fully Buffered ECC SDRAM DDR2-667;
4. HBA QLogic QLE2462;
Дисковый массив Dot Hill R/Evolution 2730 в составе:
1. Два Raid контроллера (двухпортовых);
2. Два блока питания;
3. 12 жестких дисков объемом 146Gb каждый;

Система хранения данных в нашем случае представляет собой полностью продублированную систему в одном общем корпусе. Все узлы дискового массива (контроллеры, блоки питания, жесткие диски) постоянно находятся в активном состоянии и подменяют друг друга в случае отказа незаметно для кластерной службы. Эти компоненты допускают "горячую" замену, т.е. замену без выключения массива.

На каждый узел кластера установлена операционная система Windows Server 2003 R2 Enterprise.

Схема кластера

Настройка сетевых параметров

При построении кластера необходимо, чтобы все узлы находились в одной подсети. Внутренняя (Private Network) сеть не должна иметь соединений с общей (Public Network) сетью независимо от того, сколько узлов применяется в кластере.

IP адреса, примененные нами, показаны на схеме кластера.

После настройки сети необходимо сделать каждый узел контроллером домена и убедиться в том, что они видны в сети как друг для друга, так и для клиентских компьютеров. Перед началом конфигурирования внешнего массива и установкой службы кластеров Microsoft требуется выключить все узлы кроме первого.

Настройка дискового массива данных

В нашем примере система хранения данных представляет собой устройство SAN, его конфигурирование происходит с помощью веб интерфейса. Каждый узел кластера подключается с помощью двухпортового HBA (Host Bus Adapter) контроллера к обоим контроллерам массива.

После того, как подключение и настройка массива и FC HBA контроллеров выполнена, необходимо убедиться в том, что все созданные через веб интерфейс диски видны в Windows, после чего создать на них один или несколько логических дисков и отформатировать в NTFS.

Один из логических дисков будет использоваться для кластерного кворума. Объем его, как правило, небольшой (минимум 50MB). На нем будет храниться конфигурационная информация и служебные данные для функционирования службы кластеров.

После настройки первого узла его необходимо выключить, после чего включить второй узел, чтобы убедиться, что все созданные и отформатированные разделы корректно отображаются и на нем. В случае большего количества узлов такую операцию придется проделать с каждым узлом, включая его отдельно от остальных. По окончании проверки всех узлов они должны быть в выключенном состоянии, чтобы можно было приступить к установке самой службы кластеров на первом узле.

Установка службы кластеров

Служба кластеров устанавливается по умолчанию при установке Windows Server, найти ее можно в Administrative Tools/Cluster Administrator (Администрирование/Администратор кластеров).

Процесс установки кластерной службы не представляет собой сложной задачи и подробно описан в инструкции по Windows Server на сайте Microsoft. После его окончания необходимо включить следующий узел и добавить его в кластер с помощью консоли Cluster Administrator (Администратор кластеров).

Создание кластерного ресурса для тестирования

Теперь имея функционирующий кластер, можно создать на нем кластерный ресурс для доступа к файлам на логическом диске массива. Сделать это можно, выбрав нужную группу в панели управления Cluster Administrator (Администратор кластеров) и затем через меню Файл-Создать-Ресурс выбрать нужный тип ресурса. Он отображается как ресурс с заданным именем и типом File Share. Теперь к нему можно обратиться по сети с клиентских компьютеров как к общей папке.

Тестирование отказоустойчивости кластера

Проверим доступность кластерного сервиса на примере копирования большого объема информации компьютерами клиентами как на кластер, так и с него.

Возможные точки отказа кластера:

Обрыв (отключение) одного из кабелей связи дискового массива с активным узлом.
На графике представлена сетевая активность одного из клиентских компьютеров при копировании файлов. На практике это выразилось в остановке копирования на время перевода связи узла с одного Fiber Channel порта на другой. После чего копирование продолжилось.
Обрыв (отключение) сети Private Cluster Network (Heartbeat).
Потеря внутрикластерной связи никак не сказывается на клиентских компьютерах. Но, если при установке службы кластера для внешней клиентской сети было указано, что ее нельзя использовать для внутренней связи узлов кластера между собой, то пассивный узел кластера будет недоступен и, в случае выхода из строя активного узла, ресурсы не смогут быть перезапущены для обеспечения доступности.
Обрыв (отключение) клиентской сети от активного узла.
График ниже также представляет сетевую активность одного из клиентских компьютеров. Здесь можно заметить, что время недоступности сервиса по сравнению с первым случаем увеличилось примерно в два раза и составило 52 секунды.
Отказ активного узла или отключение его от сети электропитания.
Отключение электропитания от активного в данный момент узла или его отказ приводит к результатам, аналогичным предыдущему пункту потери связи с активным узлом. Т.е. копирование файлов приостановится на время перевода ресурсов с первого узла на второй.