Рынок российских центров обработки данных (ЦОД) находится в точке стремительного роста потребностей заказчиков: по заявлениям премьера Михаила Мишустина, коммерческие мощности ЦОД в РФ за последние пять лет выросли более чем вдвое, а уровень загрузки часто превышает 90%. При этом проблемы с электропитанием, сетевые сбои и человеческий фактор остаются основными причинами инцидентов, оказывающих серьезное влияние на репутацию и финансовые ресурсы компаний и государственных структур.
По данным исследований Uptime Institute, около 30-40 % отказов приходится на питание, до 45 % — на сбои в сетевой инфраструктуре, а человеческие ошибки встречаются в 60-80 % случаев. Эти цифры подтверждаются практикой эксплуатации инженерных систем, где даже незначительные на первый взгляд недочеты приводят к высокозатратным восстановительным работам. Вместе с руководителем группы сервисных проектов ДАТАРК Сергеем Смертиным мы разберем три наиболее распространенные ошибки.
Ошибка №1. Эксплуатация при низкой нагрузке
Многие операторы запускают модульные ЦОДы с большим резервом мощности. Может показаться, что подобный запас полезен, но на практике это приводит к целому ряду рисков. Как правило, одной из первых под удар попадает система охлаждения — при минимальных нагрузках оборудование работает в режиме коротких циклов, которые уменьшают ресурс компонентов кондиционеров и ИБП.
«Конструкция фреонового кондиционера предусматривает, что при запуске компрессора часть масла вместе с газом уходит в систему и, пройдя весь контур, возвращается обратно. При недостаточной тепловой нагрузке кондиционер достигает температуры уставки за короткое время и выключает компрессор. Масло не успевает вернуться и остается в контуре, где оседает в ресиверах и конденсаторах. При частых коротких циклах со временем большая часть масла уходит из компрессора и он выходит из строя», — описывает проблему эксперт.
Так как у большинства прецизионных кондиционеров предустановлена временная задержка между запусками, за это время температура воздуха в МЦОД успевает превысить верхнюю границу уставки и появляется риск перегрева IT-оборудования. Кроме того, при коротких циклах работы кондиционеры не осушают воздух, что особенно заметно летом в регионах с высокой влажностью. Выпадение конденсата на поверхностях и внутри оборудования вызывает окисление контактов и риск короткого замыкания.
Ошибка №2. Некорректное распределение питания в стойках
Правильное подключение блоков питания серверов к распределительным устройствам (PDU) — вопрос не просто удобства, а отказоустойчивости. Среди частых ошибок — оборудование с одним блоком питания подключают к PDU без автоматических переключателей нагрузки (ATS), либо при подключении не учитывается симметрия подключения или баланс фаз. При выходе из строя одного луча питания нагрузка переходит на второй, и, если суммарная нагрузка превышает номинальную для PDU, срабатывает защита от перегрузки на второй PDU — вся стойка отключается.
«Иногда эксплуатирующий персонал подсоединяет один блок питания к PDU в одной стойке, а второй — к PDU подключенной к тому же лучу питания в соседней. Причины разные: от нехватки длины кабеля или некачественного кабель-менеджмента, до низкой квалификации персонала и так далее. В результате при отключении линии питания этого луча сервер будет обесточен. Кроме того, из-за хаотичного подключения IT-оборудования, при отключении одного PDU может произойти каскадное отключение нескольких стоек,», — подчеркивает эксперт.
Также в практике сервисных специалистов ДАТАРК встречались случаи, когда стойки наполнялись без учета резервирования по питанию и оба PDU, были нагружены на 100% от паспортных значений. При том, что для обеспечения резервирования PDU должны быть нагружены не более 50% в одной стойке. По словам Сергея Смертина, это необходимо, чтобы резервная система могла принять на себя всю нагрузку, иначе отказ одного элемента может обернуться аварией: «В этом же примере, обесточивание одного луча привело к перегрузке второй PDU и дальнейшему отключению питания стойки».
Каждый элемент проходит входной контроль качества и соответствия проектным требованиям. После этого специалисты компании перед отправкой заказчику проводят испытания, в ходе которых тестируется работа МЦОД при полной проектной нагрузке в различных режимах. Такой комплексный подход исключает риски для заказчика и гарантирует соответствие готового решения заявленным характеристикам.
Ошибка №3. Отсутствие тестирования аккумуляторных батарей
Батареи в составе ИБП — расходный, но жизненно важный элемент. Без регулярных циклов заряда-разряда и плановых проверок внутреннего сопротивления они теряют емкость гораздо быстрее. Производители АКБ дают четкие рекомендации о периодических разрядных испытаниях и регламентной диагностике — это единственный способ выявить деградацию до момента отказа. По статистике Uptime Institute, примерно 10-15% простоев центров обработки данных по-прежнему часто связаны с ИБП и батареями.
В модульных центрах обработки данных чаще всего применяются свинцово-кислотные батареи. Они особенно подвержены сульфатации — образованию плотных кристаллов на пластинах при длительном пребывании в режиме постоянного заряда. Внешне АКБ выглядят исправно, но утрачивают способность отдавать ток. Нивелировать эту проблему помогают регулярные разрядные тесты. Однако, по словам Сергея Смертина, не все эксплуатанты ЦОД проводят их.
«Многие заказчики отказываются от тестов, боясь отключения питания нагрузки при переходе на АКБ. Однако во время проведения ТО специалисты ДАТАРК следят за показателями и, при необходимости, переключают режим питания с ИБП на основное. Также при контролируемом разряде можно выявить «слабые» модули и своевременно заменить их — эти меры помогают предотвратить критические ситуации во время отсутствия персонала, например во внерабочее время», — подчеркивает Сергей Смертин.
ДАТАРК предоставляет своим заказчикам различные варианты обслуживания: от классического сертификата на ТО, где специалисты укажут на существующие проблемы и заменят расходные материалы, до расширенной гарантии с заменой комплектующих и запасных частей.
Большинство сбоев в ЦОДах не случаются внезапно. Им предшествуют эксплуатационные нюансы, которым не придают значения. Уделяя должное внимание описанным аспектам, соблюдая регламенты и своевременно проверяя оборудование в рамках техобслуживания, можно существенно сократить затраты на восстановительный ремонт, которые в аварийных сценариях всегда обходятся в разы дороже.