О надежности серверов "Team"

Введение

Далеко не каждый Российский производитель современных серверных решений станет поднимать тему надежности и отказов собственного оборудования, да еще и публиковать статистику по этому вопросу на своем сайте.

Действительно, зачем IT-менеджеру какой-либо компании, принимающему решение о покупке сервера, знакомиться с подобного рода данными? Не отпугнет ли его такая информация в самый ответственный момент при покупке сервера у его производителя? Да и вообще, зачем думать о негативном сценарии развития событий (поломки сервера в процессе эксплуатации), приобретая новое современное оборудование?

Настоящая статья призвана дать ответ на важный, с нашей точки зрения, вопрос: "Как купить надежный сервер?". Изложенные ниже результаты анализа количества и причин возникновения отказов серверов, а также качества предоставляемых услуг по оперативному восстановлению работоспособности серверов, призваны не отпугнуть, а наоборот, помочь потенциальному покупателю сделать правильный и оптимальный конкретно для его нужд выбор и, в конечном счете, приобрести надежный сервер "Team".

Отказы, гарантия и их влияние на бизнес

Производителям любой техники известно, что в процессе ее эксплуатации могут возникнуть поломки, т. е. отказы. Причины отказов могут быть различными, начиная от проявления скрытых дефектов компонентов до нарушения режимов и условий эксплуатации. Ввиду этого на производителя техники накладываются определенные гарантийные обязательства по устранению поломок, возникших в процессе эксплуатационного периода, определенного договором с покупателем.

Если производитель серверов не приводит статистику отказов своего оборудования в открытом виде, то он это делает косвенно, указывая покупателю на продолжительность гарантийного периода, в течение которого он берет на себя обязательства по устранению неисправностей, возникших в процессе его эксплуатации. Таким образом, и потенциальный покупатель, и производитель сервера до совершения сделки купли-продажи исходят из предположения, что при его эксплуатации возможны поломки, т. е. отказы. Однако далеко не каждый покупатель сервера отдает себе отчет в том, что это такое: "Гарантия на сервер". Как ни странно, но наш многолетний опыт показывает, что некоторые покупатели все еще считают, что это гарантия безотказной работы сервера в течение установленного периода. На самом деле гарантия на сервер — это обязательство производителя перед покупателем, которое заключается в том, что в течение указанного гарантийного периода (для всех серверов "Team" он составляет 36 месяцев с момента покупки) производитель устранит за свой счет любую поломку (отказ) сервера, вызвавшую его неисправную работу, а также его частичный или полный выход из строя.

Да, безусловно, наличие трехлетней гарантии на приобретаемый сервер — это хороший аргумент, который внушает определенную долю уверенности в его надежности. Но данная гарантия как раз и подразумевает возможность возникновения отказа сервера в процессе его эксплуатации. Разумеется, что при этом у покупателя возникает следующий резонный вопрос. А каким, собственно, образом определить вероятность того, что покупаемый им сервер откажет (выйдет из строя) в процессе его эксплуатационного периода, определенного гарантийным сроком в 36 месяцев? Гарантия оперативного устранения неисправности сервера на месте его эксплуатации за счет производителя это, безусловно, плюс (см. раздел "Гарантийное обслуживание" нашего сайта). Но также необходимо учитывать, что отказ сервера может привести к прерыванию ключевых бизнес-процессов компании и, как следствие, к большим убыткам. Ведь не секрет, что серверы покупают именно компании (организации) для того, чтобы оптимизировать IT-инфраструктуру своего бизнеса. Ввиду этого, перед покупкой сервера крайне важно оценить риски возникновения самой возможности его отказа, а также учесть все возможные решения и рекомендации специалистов производителя с целью минимизации потерь в случае возникновения отказа.

Насколько надежны серверы "Team"?

Следует отметить, что компания "Тим. Компьютерные системы" производит серверы и обслуживает их по гарантии уже более 10 лет. Однако, с нашей точки зрения, для потенциального покупателя наибольший интерес представляют данные по гарантийному обслуживанию серверов за последнее время. Для того чтобы оценить надежность серверов "Team" мы провели аналитический расчет по статистике продаж и отказов серверов за период последних четырех лет (с 2009 года по 2012 год). При этом данные по продажам серверов были взяты из соответствующих отчетов отдела продаж, а данные по отказам серверов были взяты по результатам отчетов работы сервисного центра компании "Тим. Компьютерные системы" за указанный выше период времени. По результатам аналитического расчета, были получены относительные величины отказов серверов (в процентах) за период их гарантийного срока эксплуатации (36 месяцев). Результаты расчета представлены на рис. 1.

Рис. 1. Динамика отказов серверов "Team" за конкретный год эксплуатации.

Приведенные на рис. 1 цифры показывают процентное соотношение общего числа отказов серверов, возникших за конкретный год, к общему числу серверов, стоящих на гарантийном обслуживании производителя в течение этого года. Например, цифра 3,7% на гистограмме соотносит общее количество отказов серверов за 2012 год с общим количеством серверов, произведенных и проданных за период 2010-2012 годов и находившихся на трехлетней гарантии производителя в 2012 году.

При этом под отказом сервера здесь понимается любая неисправность какого-либо компонента (составляющего сервер), возникшая в процессе эксплуатации. Также необходимо подчеркнуть, что возникновение неисправности серверного компонента далеко не всегда приводит к полному выходу из строя самого сервера и прерыванию активности работы бизнес-приложений компании, что в дальнейшем будет изложено более подробно.

Анализируя данные рис. 1 можно сделать следующие выводы:

Средняя величина отказов серверов "Team" за год эксплуатации не превышает 5,7% за рассматриваемый период последних четырех лет. Другими словами, средняя величина отказов серверов "Team", в течение гарантийного срока (36 месяцев) не превышает 17,1% за рассматриваемый период последних четырех лет. То есть, за три года эксплуатации серверов "Team" в среднем отказывает лишь 1/6 часть от всего количества произведенных серверов "Team", что свидетельствует о достаточно высокой их надежности;
Тенденция ежегодного снижения динамики отказов (в среднем в 1,5 раза за год), за период с 2010 по 2012 годы, свидетельствует об эффективности внедрения комплекса инженерных мероприятий, направленных на повышение отказоустойчивости и рост качества серверов "Team".

Поясним второй вывод немного подробнее на двух примерах, ответив тем самым на вопрос о причинах всплеска отказов серверов в 2010 году и их существенному снижению к 2012 году.

По большей части, пик отказов серверов "Team" (8,5%) был вызван значительным количеством отказов литий-ионных батарей BBU (Backup Battery Unit) для RAID-контроллеров, предназначенных для сохранности данных кэша в случае отключения питания сервера. Данные батареи в основном применялись для установки на RAID-контроллеры Adaptec серии 5 с непосредственным креплением на плате контроллера. Штатный способ крепления вызывал нагрев батареи до 90°С и приводил к значительному снижению ее срока службы до 1-1,5 лет. Ввиду этого, при производстве серверов "Team" стали использоваться BBU с креплением не к самому RAID-контроллеру, а с выносом в специальную хорошо вентилируемую зону серверного шасси и подключением к RAID-контроллеру соответствующим кабелем. Наряду с этим, при производстве серверов стали использоваться RAID-контроллеры Adaptec серий 5Z и 6, имеющие технологию "Zero-Maintenance Cache Protection", устраняющую необходимость в использовании литий-ионных батарей. Данная технология обеспечивает защиту данных в кэше на всем протяжении жизненного цикла сервера за счет применения NAND flash-памяти объемом 4ГБ.

Посредством внедрения вышеуказанных инженерных мероприятий удалось уменьшить процент отказов BBU в 5 раз за период с 2010 по 2012 годы.

Наряду с этим, на 2010 год пришелся также и пик отказов серверных жестких дисков Seagate серии NS с интерфейсом SATA. Несмотря на то, что данные жесткие диски принадлежат к корпоративному классу использования и рассчитаны на эксплуатацию в серверах, показали они себя не самым лучшим образом, вызывая сбои в работе системы хранения данных. Ввиду этого, уже в 2010 году производство серверов "Team" было переведено на использование жестких дисков Western Digital серий RE3 и RE4 с интерфейсом SATA, принадлежащих к тому же корпоративному классу применения, но имеющих лучшее качество изготовления магнитных пластин, а также ряд интегрированных технологий, повышающих их отказоустойчивость, таких как:

TLER (Time-Limited Error Recovery) — технология ограничения времени на коррекцию ошибок в RAID-массиве;
RAFF (Rotary Acceleration Feed Forward) — усовершенствованная технология адаптивной компенсации вибраций.

В результате смены производителя жестких дисков удалось уменьшить процент их отказов в 3 раза за период с 2010 по 2012 годы.

Как быстро можно устранить отказ сервера "Team"?

При возникновении частичного или полного отказа сервера "Team" нашим клиентам не приходится долго ждать восстановления его работоспособности. Приобретая сервер в компании "Тим. Компьютерные системы", Вы можете рассчитывать на оперативное устранение отказов серверных компонентов. Для корпоративных клиентов (организаций) гарантийное обслуживание серверов "Team" выполняется по месту их эксплуатации (On-Site). Данная услуга является бесплатной, но имеет ограничения по территориальному охвату, с границами которого Вы можете ознакомиться здесь. Выезд инженера сервисной службы для выполнения гарантийных работ по диагностике и ремонту вышедшего из строя серверного оборудования осуществляется либо в день обращения, либо на следующий рабочий день. Другими словами, скорость реакции на возникшую проблему с сервером "Team" составляет 24 часа с момента обращения клиента. Сервисная служба компании "Тим. Компьютерные системы" с пониманием относится к проблеме приостановки тех или иных бизнес-процессов своих корпоративных заказчиков и старается придерживаться установленного временного стандарта оперативности при диагностике и ремонте серверов "Team".

Необходимо также отметить, что не во всех случаях есть возможность быстрого выявления и устранения отказов тех или иных компонентов на месте эксплуатации сервера. Такие случаи имеют место, но крайне редко. Это бывает, например, при скрытых (неочевидных) неисправностях серверных компонентов, которые проявляются эпизодически и нерегулярно. В таких случаях специалистам сервисной службы компании "Тим. Компьютерные системы" требуется забрать неисправный сервер у клиента на небольшой срок. Это необходимо для проведения его более детальной диагностики и выявления неисправности в условиях сервисного центра. При этом компания "Тим. Компьютерные системы" обеспечивает транспортировку неисправного сервера в сервисный центр и обратно на место его эксплуатации за свой счет. Срок выявления и устранения неисправности такого сервера обычно не превышает пяти рабочих дней с момента приема неисправного оборудования в ремонт. По предварительному согласованию с клиентом на время ремонта сервера в сервисном центре компании "Тим. Компьютерные системы" ему может быть предоставлен другой сервер (близкой по функционалу конфигурации) для минимизации простоя бизнес-процессов компании.

Для остальных клиентов (физических лиц и иногородних организаций) гарантийное обслуживание серверов выполняется в сервисном центре компании "Тим. Компьютерные системы". Срок устранения неисправности сервера обычно также не превышает пяти рабочих дней с момента приема неисправного оборудования в ремонт.

Для оценки качества работы услуги "On-Site" мы провели статистический анализ скорости отработки обращений (заявок на гарантийное обслуживание серверов "Team"), поступивших от наших корпоративных заказчиков, по отказам серверного оборудования за рассматриваемый период последних четырех лет (с 2009 по 2012 годы). Все эти обращения были успешно отработаны специалистами сервисной службы компании "Тим. Компьютерные системы" и возникшие отказы были полностью устранены. Результаты данного анализа представлены в виде круговых диаграмм на рис. 2.

2009 год	2010 год	2011 год	2012 год

Рис. 2. Доли значений временных интервалов устранения отказов (в процентах от общего количества) серверов "Team" за последние четыре года.

Анализируя данные рис. 2 можно сделать следующие выводы:

В среднем 33% отказов серверов "Team" устраняются по услуге "On-Site" непосредственно в день обращения клиента;
В среднем 42,5% отказов серверов "Team" устраняются по услуге "On-Site" на следующий рабочий день после обращения клиента;
В среднем 11,5% отказов серверов "Team" устраняются по услуге "On-Site" через день после обращения клиента;
В среднем 13% отказов серверов "Team" устраняются по услуге "On-Site" на третий день с момента обращения клиента или требуют для устранения большего времени при необходимости вывоза неисправного оборудования для проведения расширенного тестирования и ремонта в условиях сервисного центра.

Таким образом, видно, что в 75,5% случаях сервисная служба компании "Тим. Компьютерные системы" отрабатывает установленный временной интервал (в течение 24 часов) по скорости устранения отказов серверов "Team", которые эксплуатируются на территории клиентов.

Также видно, что 11,5% отказов серверов "Team" устраняются через день после обращения клиента. По большей части такая задержка происходит из-за временного отсутствия на складе производителя необходимых для ремонта серверных компонентов.

Можно также заключить, что 87% всех отказов сервисная служба компании "Тим. Компьютерные системы" устраняет на месте эксплуатации серверов "Team" в течение коротких промежутков времени. И только 13% отказов устраняется после проведения расширенного тестирования неисправного оборудования в условиях сервисного центра, что требует вывоза неисправного сервера "Team" с территории его эксплуатации.

Анализ причин возникновения отказов серверов

Теперь более подробно рассмотрим причины возникновения отказов серверов "Team" за рассматриваемый период последних четырех лет. Для этого, общее количество отказов серверов мы разделили на следующие типы отказов основных серверных компонентов:

Отказы центрального процессора — CPU (Central Processor Unit);
Отказы материнской платы — MB (Motherboard);
Отказы блока питания — PSU (Power Supply Unit);
Отказы оперативной памяти — RAM (Random Access Memory);
Отказы жесткого диска с интерфейсом SCSI — SCSI (Small Computer System Interface) HDD (Hard Disk Drive);
Отказы жесткого диска с интерфейсом SATA — SATA HDD;
Отказы жесткого диска с интерфейсом SAS — SAS (Serial Attached SCSI) HDD;
Отказы твердотельного накопителя с интерфейсом SATA — SATA SSD (Solid-State Drive);
Отказы RAID-контроллера;
Отказы батареи RAID-контроллера (BBU);
Отказы элементов серверного шасси (Backplane, Expander, Distribution Board, Fan, и т. п.) — Chassis;
Отказы программной части серверных компонентов (Firmware, BIOS, Drivers) — Software.

На рис. 3 представлена диаграмма, иллюстрирующая процентное соотношение общего числа отказов основных серверных компонентов, возникших за конкретный год эксплуатации, к общему числу серверных компонентов в составе серверов, стоящих на гарантийном обслуживании производителя в течение этого года. Например, значение в 1,95%, представленное в виде гистограммы оранжевого цвета, соотносит общее количество отказов серверных жестких дисков с интерфейсом SATA за 2010 год с общим количеством серверных жестких дисков с интерфейсом SATA, установленных в серверы, которые были проданы за период 2008-2010 годов и находились на трехлетней гарантии производителя в 2010 году.

Рис. 3. Динамика типов отказов основных серверных компонентов (в процентах от общего количества) за конкретный год эксплуатации.

Анализируя полученные данные по отказам основных серверных компонентов за конкретный год эксплуатации можно заключить, что:

Наибольшие значения (в среднем 4,5%) отказов за период 2009-2010 годов были вызваны неисправностью SCSI HDD. За 2011-2012 годы отказы SCSI HDD прекратились ввиду их полного замещения более современными жесткими дисками с прогрессивным интерфейсом SAS;
Вторыми по величине (в среднем 2,2%) оказались отказы BBU, пик которых (5,51%) пришелся на 2010 год;
Третьими по величине (в среднем 1,3%) явились отказы SATA HDD, пик которых (1,95%) также пришелся на 2010 год;
Четвертую величину отказов (в среднем 0,6-0,7%) делят MB, SATA SSD и RAID-контроллер;
Пятую величину отказов (в среднем 0,2-0,3%) делят Chassis, Software, PSU и SAS HDD;
Наименьшие значения отказов (в среднем 0,1%) вызвали CPU и RAM.

Отдельно можно выделить группу отказов программной части сервера, которые не относятся к отказам его "железных" компонентов. Такие отказы возникают, как правило, вследствие несовместимости каких-либо компонентов сервера между собой на уровне работы собственных микропрограмм или некорректной работы драйверов с различными версиями операционных систем сервера.

Следует также упомянуть о том, что существует ряд серверных компонентов, которые либо вообще не имели ни одного отказа, либо имели ничтожно малую часть отказов в течение гарантийного срока эксплуатации (36 месяцев) за рассматриваемый период 2009-2012 годов. К таким компонентам относятся:

LAN (Local Area Network)-Adapter или дискретный сетевой адаптер (сетевая карта);
LCP (Local Control Panel) или контрольная панель серверного шасси;
RMM (Remote Management Module) или модуль удаленного управления сервера;
RAID Activation Key или ключ активации дополнительных функций RAID-контроллеров, интегрированных в материнскую плату сервера;
PCI Express (Peripheral Component Interconnect Express)-Riser или расширитель, предназначенный для установки дискретных адаптеров в серверное шасси;
PCI Express Video-Adapter или дискретный видеоадаптер (видеокарта, применяемая в графических рабочих станциях серверного типа);
ODD (Optical Disc Drive) или оптический привод.

Для того чтобы оценить процент отказа основных серверных компонентов сервера "Team" в течение гарантийного срока (36 месяцев) мы усреднили полученные значения их отказов по конкретным годам по всему рассматриваемому периоду (2009-2012 годы) и умножили на три года эксплуатации. Результатом данных преобразований послужила диаграмма, представленная на рис. 4.

Рис. 4. Средние (за 2009-2012 годы) значения процентов отказа основных серверных компонентов
за гарантийный период эксплуатации сервера (36 месяцев).

Также мы отдельно выделили проценты отказов различных типов носителей данных, используемых в серверах "Team" в течение гарантийного срока эксплуатации (36 месяцев). Для этого мы усреднили полученные значения их отказов за конкретный год по трем рассматриваемым периодам: 2009-2010 годы, 2011-2012 годы, 2009-2012 годы и умножили на три года эксплуатации. Результаты этих расчетов сведены в три диаграммы, представленные на рис. 5.

Рис.5. Средние значения процентов отказов различных типов носителей данных,
используемых в серверах "Team" за гарантийный срок эксплуатации (36 месяцев)

Необходимость деления на три периода (рис. 5) была продиктована следующими обстоятельствами:

Период 2009-2010 годов характеризовался продажей и гарантийным обслуживанием трех типов носителей дисковой подсистемы серверов "Team" (SCSI HDD, SATA HDD и SAS HDD). Носители SATA SSD в этот период еще не продавались в составе серверов "Team" ввиду их относительно недавней новизны и более позднего внедрения в серверный сегмент (с 2011 года стали применяться при производстве серверов "Team");
Период 2011-2012 годов характеризовался продажей и гарантийным обслуживанием трех типов носителей дисковой подсистемы серверов "Team" (SATA HDD, SAS HDD и SATA SSD). Носители SCSI HDD в этот период уже не использовались при производстве серверов "Team" ввиду их полного эволюционного замещения более прогрессивными жесткими дисками с интерфейсом SAS;
Период 2009-2012 годов характеризовался продажей и гарантийным обслуживанием двух типов носителей дисковой подсистемы серверов "Team" (SATA HDD и SAS HDD), которые непрерывно использовались (как самые массовые типы) при производстве серверов "Team" на протяжении всего этого периода.

Итак, по итогам проведенного анализа причин возникновения отказов серверов "Team" можно сделать следующие выводы:

Средние значения отказов основных компонентов сервера за гарантийный период эксплуатации (36 месяцев) имеют невысокие значения. Эти значения колеблются в пределах от 0,3% до 13,5%. Учитывая обстоятельство, что значение 13,5% соответствует отказам жестких дисков SCSI, которые не применяются при производстве серверов "Team" с начала 2010 года, максимальным значением становится 6,6%, что соответствует отказам BBU. Кроме того за последнее время (2011-2012 годы) среднее значение отказов BBU за гарантийный период эксплуатации (36 месяцев) снизилось до 3,6% и продолжает падать ввиду вышеупомянутого постепенного перевода технологии изготовления BBU с литий-ионных батарей на модули NAND flash;
Существует ряд интегрированных в серверные платформы, а также дискретных серверных компонентов, которые не выявили ни одного отказа или практически не выявили отказов за рассматриваемый период последних четырех лет (с 2009 по 2012 годы);
Если отбросить проценты отказов SCSI HDD (в силу вышеупомянутой причины), то наибольший процент отказов основных компонентов сервера за гарантийный период эксплуатации (36 месяцев) будет соответствовать BBU (6,6%) и SATA HDD (3,9%), что является основанием для акцентирования особого внимания на этих компонентах при выборе той или иной модели сервера "Team". Наименьший процент — CPU (0,3%) и RAM (0,3%), что характеризует высокую надежность этих серверных компонентов;
За период с 2009-2010 годы наибольший процент отказов носителей данных дисковой подсистемы серверов "Team" за гарантийный период эксплуатации (36 месяцев) соответствует жестким дискам с интерфейсом SCSI (13,5%), а наименьший — SAS (0,9%), что характеризует менее высокую надежность первых в сравнении с носителями других интерфейсов;
За период с 2010-2011 годы наибольший процент отказов носителей данных дисковой подсистемы серверов "Team" за гарантийный период эксплуатации (36 месяцев) соответствует жестким дискам с интерфейсом SATA (2,3%), а наименьший — SAS (1,1%), что характеризует менее высокую надежность первых в сравнении с носителями интерфейса SAS. Наряду с этим мы также видим незначительный процент отказов твердотельных накопителей с интерфейсом SATA (1,7%), что свидетельствует о внедрении первого поколения (Intel X25-E Extreme) принципиально новых носителей данных в серверную среду;
Наибольший процент отказов носителей данных дисковой подсистемы серверов "Team" за гарантийный период эксплуатации (36 месяцев) соответствует жестким дискам с интерфейсом SATA (3,9%), а наименьший — SAS (0,9%) за рассматриваемый период последних четырех лет (с 2009 по 2012 годы), что характеризует более высокую надежность последних. Также необходимо отметить полное отсутствие отказов SATA SSD на протяжении всего 2012 года при почти двукратном увеличении их продаж в сравнении с 2011 годом, что свидетельствует о повышении надежности второго поколения (Intel 710 Series) твердотельных накопителей, пришедших на смену первому в 2011 году.

Слагаемые надежной работы сервера

Необходимо помнить, что самое главное отличие сервера от персонального компьютера заключается именно в повышенной надежности его работы. А надежность работы сервера определяется его отказоустойчивостью, которая, в свою очередь, достигается благодаря использованию более устойчивых к эксплуатационным нагрузкам компонентов, а также их избыточностью. Другими словами, надежная отказоустойчивая работа сервера определяется двумя основными критериями:

высоким качеством используемых серверных компонентов;
резервированием основных серверных компонентов.

Что определяет высокое качество компонентов, используемых для производства серверов "Team"?

Начать следует с того, что весь модельный ряд серверов "Team" построен на базе платформы "Intel". На сегодняшний день это одна из самых надежных и гибко масштабируемых серверных платформ в мире. Центральные процессоры, материнские платы, RAID-контроллеры, дискретные сетевые адаптеры, твердотельные накопители и серверные шасси от мирового лидера в полупроводниковой индустрии — уже само по себе характеризует высокую степень надежности и совместимости различных компонентов сервера при их совместной интеграции. Гарантия производителя сроком от трех до пяти лет на различные компоненты сервера, указанные выше, свидетельствует об их высоком качестве и надежности. Следует также отметить, что с 2003 года компания "Тим. Компьютерные системы" обладает наивысшим партнерским статусом (сейчас — Intel Technology Provider Platinum 2013), что позволяет осуществлять ускоренную гарантийную замену любых серверных компонентов Intel в случае возникновения их отказов.

Наряду с этим, во всех моделях серверов "Team" используется оперативная память фирмы "Kingston" — ведущего мирового производителя надежной оперативной памяти для серверных решений. Данные модули оперативной памяти поддерживают так называемую технологию контроля четности ECC (Error Correction Code), которая позволяет корректировать без нарушений в работе все однобитовые ошибки памяти, что составляет 99.988% от общего числа ошибок. Пожизненная гарантия производителя на модули оперативной памяти Kingston уже сама по себе свидетельствует об очень высоком качестве их изготовления, а также надежности при длительном сроке их эксплуатации. Совместимость модулей оперативной памяти Kingston с серверной платформой Intel подтверждена многолетним сотрудничеством этих всемирно известных компаний. Следует также отметить, что с 2011 года компания "Тим. Компьютерные системы" обладает официальным партнерским статусом (сейчас — Official Kingston Partner 2012), что говорит о возможности осуществления быстрой замены модулей оперативной памяти Kingston в случае возникновения их отказов.

В основе системы хранения данных серверов "Team" лежит использование жестких дисков ведущих мировых производителей, таких как "Western Digital" и "Seagate". Необходимо отметить, что во всем модельном ряде серверов "Team" используются жесткие диски только корпоративного класса, имеющие повышенный эксплуатационный ресурс при работе в режиме 24/7 (круглые сутки / семь дней в неделю), встроенные технологии уменьшения влияния вибраций от других компонентов сервера, а также пятилетнюю гарантию, предоставляемую указанными выше производителями. Другими словами, при гарантийном сроке сервера "Team" в 3 года, жесткие диски его системы хранения данных обеспечены гарантией производителя сроком до 5 лет, что является весомым фактором повышения ее отказоустойчивости, особенно в послегарантийный период эксплуатации сервера. Совместимость жестких дисков Western Digital и Seagate с серверной платформой Intel, а также RAID-контроллерами Adaptec подтверждена многолетним сотрудничеством этих всемирно известных компаний. Наряду с этим, с 2011 года компания "Тим. Компьютерные системы" обладает официальным партнерским статусом (сейчас — Western Digital Authorized Partner 2012) и уже более пяти лет компания "Тим. Компьютерные системы" обладает официальным партнерским статусом "Seagate Partner Program Member". Наличие таких партнерских статусов позволяет осуществлять оперативную замену жестких дисков соответствующих производителей в случае возникновения их отказов.

Как упомянуто выше, наряду с использованием RAID-контроллеров Intel в серверных решениях "Team" также находят свое применение RAID-контроллеры всемирно известного производителя "Adaptec by PMC". Данные RAID-контроллеры имеют некоторые преимущества по сравнению с RAID-контроллерами Intel. В частности, во всех моделях серий 5Z, 6 и 7 используется технология "Zero-Maintenance Cache Protection", обеспечивающая защиту данных в кэше на всем протяжении жизненного цикла сервера, что позитивным образом сказывается на отказоустойчивости системы хранения данных сервера в целом. Данные RAID-контроллеры обеспечены гарантией производителя сроком в 3 года, что свидетельствует об их высоком качестве и надежности. Следует также отметить, что уже более трех лет компания "Тим. Компьютерные системы" обладает высоким партнерским статусом "Adaptec PartnerPlus Gold Member", что говорит о возможности осуществления быстрой замены RAID-контроллеров в случае возникновения их отказов.

Теперь посмотрим, что именно подразумевает резервирование основных компонентов, используемых для производства серверов "Team"?

Под резервированием основных компонентов сервера подразумевается дублирование его функциональных блоков. Такое решение может оказать влияние на увеличение общей производительности сервера, а может и не повлиять существенным образом на нее. Кроме того, резервирование основных компонентов сервера может значительно повысить его отказоустойчивость путем минимизации вероятности его полного выхода из строя. Многолетний опыт производства серверов "Team" показывает, что резервирование основных компонентов сервера, таких как центральный процессор, оперативная память, блок питания, жесткий диск, твердотельный накопитель, блок вентиляторов, а также вычислительный модуль, приводит к минимизации вероятности его полного выхода из строя при отказе одного из компонентов. При этом необходимо пояснить, что под резервированием вычислительного модуля сервера подразумевается возможность установки в одно серверное шасси нескольких отдельных независимых блоков, объединяющих в своем составе материнскую плату, центральный процессор и оперативную память. Такие решения присутствуют среди High-End моделей серверов "Team" и обеспечивают сочетание наивысшей степени производительности и надежности работы сервера в смысле его отказоустойчивости.

Необходимо также подчеркнуть, что не все модели серверов "Team" обладают возможностью резервирования его основных компонентов. Ввиду этого необходимо акцентировать особое внимание на наличии или отсутствии функции резервирования какого-либо компонента сервера "Team" при его конфигурировании с целью решения критически-важных для бизнеса задач.

Отказ отказу рознь!

Проанализировав полученные данные, попытаемся теперь ответить на следующий вопрос: во всех ли случаях возникновение отказа какого-либо компонента сервера приводит к полному выходу последнего из строя, тем самым вызывая приостановку выполнения того или иного бизнес-процесса компании?

Опираясь на наш многолетний опыт работы, мы отвечаем — нет, далеко не во всех случаях. И, чтобы подтвердить это, давайте разберемся, поломки каких именно компонентов приводят к полной потере работоспособности сервера, а какие — только к частичной его потере, не влияющей существенным образом на выполнение его основных функций. Начнем разбираться с этим по порядку в соответствии с установленным нами приоритетом отказов серверных компонентов, т. е. с устройств BBU, жестких дисков и так далее до центральных процессоров и оперативной памяти.

Отказ BBU. Отказы батарей RAID-контроллеров не могут привести к полному выходу сервера из строя. Известно, что RAID-контроллеры могут осуществлять операции записи данных в соответствии с тремя политиками. Политика "Write through" позволяет осуществлять запись данных непосредственно на жесткие диски. Политика "Write back" — в кэш-память RAID-контроллера, где данные могут временно храниться перед тем, как они будут записаны на жесткие диски. Политика "Write back with BBU" — тоже что и "Write back", но с использованием батареи, подключенной к кэш-памяти RAID-контроллера. С точки зрения сохранности данных, первая политика является более надежной, а вторая и третья — менее надежны. При возникновении штатного отказа BBU система автоматически меняет политику работы дисковой подсистемы сервера с "Write back with BBU" на "Write through" и высылает администратору соответствующее уведомление о необходимости замены неисправного BBU на новое.

Отказ HDD & SSD. Современные серверные решения содержат минимально два жестких диска, а в среднем четыре на сервер. Такое количество жестких дисков обусловлено необходимостью построения RAID-массивов, повышающих скорость обработки данных и/или обеспечивающих их более надежную сохранность. Таким образом, при правильной организации RAID-массива, отказ одного жесткого диска сервера не приводит к его полному выходу из строя и потере важной информации. Чем больше избыточных дисков используется в сервере для организации RAID-массивов, тем более надежной становится его система хранения данных. Отказы же твердотельных накопителей встречаются крайне редко, ввиду их повышенной надежности в сравнении с традиционными жесткими дисками (в их конструкции полностью отсутствуют движущиеся части). Отказы твердотельных накопителей, как и традиционных жестких дисков, не могут привести к полному выходу из строя сервера и потери информации в случае грамотной организации RAID-массивов.

Отказ RAID-контроллера. Отказы RAID-контроллеров могут привести к нарушению работы RAID-массивов и вызвать некорректную работу системы хранения данных сервера. Как правило, подобные отказы не приводят к потере информации, хранящейся на жестких дисках, а также к полному выходу из строя самого сервера. Однако, в крайне редких случаях, такие отказы могут повлиять на полный выход из строя сервера, если они затронут массивы данных, с которых происходит загрузка операционной системы сервера.

Отказ MB. При отказе материнской платы сервера может произойти его полный выход из строя лишь в том случае, если проблема связана с нарушением питания ее основных компонентов, например модулем управления питанием VRM (Voltage Regulator Module). Однако наш опыт показывает, что таких отказов практически не случается. Как правило, отказ материнской платы сервера приводит к его нестабильной работе или к частичному нарушению функционала, например, к самопроизвольным перезагрузкам операционной системы сервера в течение какого-либо промежутка времени или сбойной работе интегрированных устройств (например, сетевого адаптера).

Отказ PSU. Отказ единственного блока питания в сервере может повлечь за собой его полный выход из строя. Однако в современных серверах, предусматривающих резервирование по питанию, блоков питания минимум два, да еще и с возможностью их горячей замены (Hot Swap). Преимущество подобных решений заключается в том, что отказ одного из блоков питания не влечет за собой полный выход сервера из строя. При таком сценарии отказа сервер продолжит свою работу на исправном блоке питания. Неисправный же блок питания можно оперативно заменить аналогичным новым, не выключая сервер.

Отказ Chassis. Отказы элементов серверного шасси могут повлиять на полный выход сервера из строя в случае, если проблема связана с компонентами системы распределения питания, например с Distribution Board. Наряду с этим, при отказах компонентов системы охлаждения сервера (вентиляторы серверного шасси) может произойти только снижение производительности сервера за счет автоматического снижения вычислительной мощности (тактовой частоты) центральных процессоров. В некоторых пьедестальных моделях однопроцессорных серверов "Team", где система охлаждения центральных процессоров размещена непосредственно над их радиаторами, подобный сценарий отказа может вызвать его практически полный выход из строя. Однако в стоечных моделях многопроцессорных серверов "Team" система охлаждения центральных процессоров, оперативной памяти и других устройств устроена иным образом. Она содержит целый ряд блоков вентиляторов с возможностью независимой горячей замены (Hot Swap) каждого из них в случае выхода из строя. Отказ такого одиночного вентилятора не влияет существенным образом на производительность сервера за счет дублирования его функции другими вентиляторами ряда. Отказы же других коммутационных устройств серверного шасси (Midplane, Backplane, Expander) могут привести к полному выходу из строя сервера, но лишь в том случае, если они повлияют на систему хранения данных и загрузку операционной системы сервера.

Отказ Software. Отказы программной части сервера не могут повлиять на полный выход его из строя, а лишь могут вызвать некорректную совместную работу его отдельных функциональных компонентов. Такие отказы могут быть оперативно устранены администратором сервера при помощи новейших версий прошивок компонентов (Firmware) и установки соответствующих обновлений программного обеспечения (BIOS & Drivers) как самостоятельно, так и с помощью специалистов службы технической поддержки производителя сервера.

Отказ RAM. В современные модели серверов "Team" в среднем устанавливается по 6-8 модулей оперативной памяти (по 3-4 модуля на каждый центральный процессор). Отказ одного из нескольких модулей оперативной памяти сервера, как правило, не приводит к его полному выходу из строя. При таком сценарии события сервер может продолжать свою работу, сигнализируя администратору об ошибках, которые могут быть не исправлены при помощи встроенной технологии контроля четности (ECC). Отказ одного модуля оперативной памяти может повлечь за собой полный выход сервера из строя лишь в том случае, если он является единственным, установленным в нем.

Отказ CPU. Отказы центральных процессоров серверов "Team" встречаются крайне редко ввиду высокого качества их изготовления и надежности. И, наверное, без преувеличения можно сказать, что центральные процессоры являются самыми надежными из основных компонентов серверов "Team". Однако необходимо отметить, что сценарий полного выхода из строя сервера возможен только в однопроцессорных решениях. Как правило, в двухпроцессорных решениях при отказе одного из центральных процессоров работа сервера продолжается, при условии корректного отключения неисправного центрального процессора.

Отказы дискретных устройств. Подчеркнем также, что отказы опциональных дискретных устройств сервера (оптического привода, сетевого адаптера, видеоадаптера (при условии, если он не является единственным в системе) и т. п.) не могут вызвать его полный выход из строя ввиду ограниченной специфики их применения.

Итак, какой можно сделать вывод, оценивая вероятность возникновения какого-либо отказа компонента сервера, влекущего за собой его полный выход из строя?

Вывод можно сделать такой, что вероятность возникновения такого события достаточно мала, к тому же ее можно свести к минимуму при грамотном подходе к процессу оптимального, с точки зрения надежности, конфигурирования компонентов сервера "Team".

Так как же выбрать надежный отказоустойчивый сервер?

Обобщая материал статьи, с учетом нашего многолетнего опыта работы по производству и гарантийному обслуживанию серверов, мы можем дать потенциальному покупателю следующие советы по конфигурации отказоустойчивых серверных решений "Team":

При выборе устройств обеспечения сохранности данных кэш-памяти RAID-контроллеров (BBU) отдавайте предпочтение наиболее прогрессивным из них, т. е. устройствам без использования литий-ионных батарей, а выполненных на основе NAND Flash-памяти. Например, это могут быть модули Zero-Maintenance Cache Protection от компании "Adaptec by PMC" или модули NAND Flash Backup Unit от компании "Intel". Использование таких модулей позволит обеспечить гораздо более высокую степень надежности их работы в сравнении с уже морально-устаревающими батареями;
Старайтесь делать выбор в пользу использования жестких дисков с интерфейсом SAS, обеспечивающих более высокую производительность и отказоустойчивость системы хранения данных сервера в целом. Жесткие диски с интерфейсом SATA мы рекомендуем использовать только для построения RAID-массивов уровней 1 и 10, что позволит сохранить данные и безопасно перестроить RAID-массив в случае отказа одного из дисков и его замены новым. Настоятельно не рекомендуем использовать жесткие диски с интерфейсом SATA большого объема (более 500ГБ) для построения RAID-массивов уровня 5. Важно понимать, что такое решение системы хранения данных многократно увеличивает риск полной потери информации при перестроении RAID-массива в случае отказа одного из дисков в этот момент;
Не используйте твердотельные накопители с интерфейсом SATA в качестве одиночных загрузочных устройств. Несмотря на их более высокую надежность в сравнении с жесткими дисками, вероятность отказа все же есть. Поэтому рекомендуется использовать их для построения RAID-массивов уровней 1 и 10, что позволит сохранить данные и безопасно перестроить RAID-массив в случае отказа одного из дисков и его замены новым;
Обратите особое внимание на наиболее передовые решения применения твердотельных накопителей в серверных решениях "Team". Во-первых, используйте SSD-накопители для создания гибридных RAID-массивов (Hybrid RAID) уровня 10, схема работа которых включает выполнение операций чтения с более быстрых SSD-накопителей, а также операции записи, как на жесткие диски, так и на твердотельные накопители. Во-вторых, используйте SSD-накопители в качестве кэш-памяти дисковой подсистемы сервера. Более подробно с данной технологией можно ознакомиться здесь. Применение таких решений позволит Вам обеспечить наивысшую степень производительности и надежности системы хранения данных сервера в целом;
Конфигурируя систему хранения данных сервера, выбирайте оптимальную схему построения RAID-массивов. Старайтесь отделить массивы для операционных систем от массивов хранения данных. Для сохранности критически важных данных вашего бизнеса используйте RAID-массивы уровней 1 и 10, обеспечивающие сохранность информации путем ее дублирования на один или несколько жестких дисков, входящих в состав массива. Важно помнить, что RAID-массив уровня 0 не сможет защитить Ваши данные при отказе даже одного жесткого диска, входящего в массив;
Настойчиво рекомендуем обращать особое внимание на модели серверов "Team", предусматривающие установку двух блоков питания с функцией горячей замены (Hot Swap). Такое решение сможет не только повысить отказоустойчивость приобретенного сервера, но также и увеличить его срок службы. Опыт показывает, что в большинстве случаев, сервер приобретают на эксплуатационный период более трех лет. Как правило, по истечении гарантийного периода сервера (36 месяцев) его компоненты становятся труднодоступными у производителя для осуществления послегарантийного ремонта, что, в конечном счете, приводит к необходимости покупки нового сервера. Ввиду этого важно помнить, что при работе сервера его блоки питания не используют всю свою номинальную мощность и при выходе из строя одного из них, сервер без проблем сможет продолжить свою дальнейшую работу на оставшемся другом;
Отдавайте предпочтение серверным решениям с возможностью горячей замены (Hot Swap) жестких дисков. Выбирая такое решение, Вы сможете существенно снизить временные потери при замене неисправных дисков на новые, а также добавлении новых дисков в сервер при необходимости расширения функционала его системы хранения данных в будущем. При использовании горячей замены дисков немаловажным преимуществом также является отсутствие необходимости в отключении сервера для выполнения вышеуказанных процедур;
Наряду с этим, старайтесь выбирать серверные решения, предусматривающие функцию горячей замены (Hot Swap) вентиляторных блоков системы охлаждения серверного шасси. Такие решения позволят предотвратить снижение производительности сервера при выходе из строя одного из блоков вентиляторов, а также позволят Вам обойтись без отключения сервера при замене отказавшего вентиляторного блока новым;
Старайтесь использовать такое количество модулей оперативной памяти, которое было бы кратно числу каналов ее контроллера, интегрированного в центральный процессор. Такое решение позволит обеспечить высокий уровень производительности и отказоустойчивости подсистемы памяти, а также сервера в целом. Не допускайте серверных решений с одним модулем оперативной памяти на один центральный процессор;
Отдавайте предпочтение двухпроцессорным серверным решениям не только из соображения их более высокой производительности, но также из соображений их отказоустойчивости. Выбор такого решения может продлить срок службы приобретаемого сервера в послегарантийный период его эксплуатации;
Для обеспечения наивысшей степени отказоустойчивости используйте High-End серверы "Team", содержащие в своем составе несколько независимых вычислительных модулей (или лезвий). Учитывайте также то, что такие решения являются одними из лучших вариантов для развертывания и использования на них современных средств виртуализации, построенных на базе Hyper-V от компании "Microsoft" или vSphere от компании "VMware", с последним из которых Вы можете более подробно ознакомиться здесь. Такое сочетание аппаратных и программных функций сервера сможет обеспечить наивысшую степень отказоустойчивости работы бизнес-приложений компании;
Не пренебрегайте вопросом приобретения сразу нескольких серверов с целью разделения выполняемых на них задач. Такое решение поможет наиболее оптимальным образом построить надежную отказоустойчивую IT-инфраструктуру компании на базе серверов "Team" как с использованием современных средств виртуализации, так и с использованием традиционного подхода "один сервер — одно приложение".

Заключение

Надеемся, что приведенные в статье данные, полученные в результате анализа отказов серверов "Team" и их основных компонентов за период последних четырех лет оказались для Вас полезными. Представленная информация свидетельствует о достаточно высоком уровне надежности серверных решений "Team", а также многолетнем опыте специалистов компании "Тим. Компьютерные системы", направленным на повышение их отказоустойчивости. Мы считаем, что смогли помочь Вам разобраться с таким непростым вопросом, как отказоустойчивость сервера и дали ответ на главный вопрос, поставленный в начале статьи. Мы уверены, что приведенная здесь информация поможет потенциальному покупателю более осознанно сориентироваться в выборе конкретной модели сервера "Team". Принимая для себя окончательное решение о покупке той или иной модели сервера, IT-менеджер должен не забыть о важности такого параметра, как его отказоустойчивость при выполнении тех или иных критически важных задач, от которых зависят, в конечном счете, бизнес-процессы его компании. Мы хотим, чтобы потенциальный покупатель заострил свое внимание на вопросе качества и резервирования основных компонентов сервера, которые подвержены возникновению отказов. При этом необходимо понимать, что далеко не всегда бюджетное серверное решение представляет собой оптимальный выбор, и доказательства тому были нами представлены.

Предоставив Вам в помощь результаты выполненных аналитических расчетов и выводов по ним, а также дав оценку качеству работы по оперативному устранению отказов, мы хотим, чтобы покупка сервера "Team" принесла ожидаемое удовлетворение от его длительной работы и благотворным образом отразилась на Вашем бизнесе. Важно понимать, что своевременный акцент на отказоустойчивости при конфигурировании приобретаемого Вами сервера, как и на построении надежной IT-инфраструктуры Вашей компании, поможет снизить или вовсе исключить вероятность приостановки критически важных бизнес-приложений, а значит сможет предотвратить возможные убытки, которые могут оказаться несоизмеримыми со стоимостью приобретаемого Вами серверного оборудования.

Другими словами, приобретая надежное серверное решение сегодня — Вы защищаете свои инвестиции в бизнес завтра!

Автор статьи: к.т.н. Пахомов В.А.
20.02.2012