Искусственный интеллект постепенно становится неотъемлемой частью бизнеса. Компании из самых разных отраслей используют его, чтобы улучшать процессы и создавать инновационные продукты и услуги. Но для того, чтобы этот инструмент эффективно работал, необходимо обеспечить надежную IT-инфраструктуру.
Компания ДАТАРК одной из первых начала реализовывать модульные проекты под задачи AI. С какими вызовами специалистам пришлось столкнуться и какие инженерные решения они используют? Об этом рассказал руководитель группы пресейла компании ДАТАРК Игорь Панкрашкин.
Как меняются требования к охлаждению

Если в классических модульных центрах обработки данных нагрузка на стойку сегодня составляет 8-15 кВт, то в высокоплотных решениях нормативными считаются 30-50 кВт, а в некоторых конфигурациях под задачи искусственного интеллекта — свыше 100 кВт.
Такие МЦОДы генерируют большое количество тепла, и главным вызовом для инженеров при их проектировании становится эффективное охлаждение оборудования. Традиционные воздушные системы больше не справляются. Для решения подобных задач инженеры ДАТАРК внедряют гибридные схемы, дополняя классическое воздушное охлаждение жидкостным.
Последнее, по словам Игоря Панкрашкина, обычно реализуется в двух вариантах. Первый и самый распространенный — Direct-to-Chip (Прямое подключение к чипу — англ.). Это метод отвода тепла от серверных компонентов (CPU, GPU и т.д.) через прямой контакт с охлаждающей жидкостью.
«Это работает следующим образом. В системе реализован замкнутый контур: охлаждающая жидкость циркулирует через металлические холодные пластины на центральных и графических процессорах, забирая тепло напрямую от этих компонентов», — объясняет эксперт ДАТАРК.
Второй вариант жидкостного охлаждения — иммерсионный. Он пока не так часто применяется на практике, но считается очень перспективным — именно поэтому ДАТАРК уже работает с производителями такого оборудования.
Иммерсионное охлаждение предполагает погружение процессоров непосредственно в жидкость — диэлектрик. Она не проводит электричество, поэтому абсолютно безопасна для дорогостоящего оборудования. При этом эффективно отводит тепло: в тысячу раз лучше воздуха.
Новые стандарты электропитания

Увеличение плотности вычислений напрямую влияет и на электропитание объектов. По словам Игоря Панкрашкина, при нагрузке свыше 100 кВт на стойку стандартные инженерные подходы перестают работать. Для безопасной передачи высоких мощностей к стойке вместо традиционных гибких кабелей используются жесткие шинные системы в металлических корпусах.
Вместе с организацией оптимального электропитания перед инженерами встает вопрос и об обеспечении энергосбережения. Дело в том, что высокоплотные объекты потребляют большое количество энергии, и заказчики все больше обращают внимание на показатель PUE (Power Usage Effectiveness), отвечающий за энергоэффективность.
Для того, чтобы снизить его до минимальных значений, специалисты ДАТАРК применяют в своих проектах технологию фрикулинга. Она уменьшает потребность в системах кондиционирования, потребляющих электроэнергию, и таким образом помогает снижать PUE.
«Фрикулинг позволяет использовать для охлаждения температуру внешнего воздуха. Учитывая климатические особенности России, такие решения могут применяться примерно в 90% проектов и существенно снижать энергопотребление», — отметил Игорь Панкрашкин.
Дополнительно повысить энергоэффективность позволяют современные ИБП. Они способны работать в режиме «умного байпаса» с КПД до 99%, переходя на полное преобразование только при нестабильности в сети, — таким образом снижаются потери энергии. Кроме того, на показатель PUE влияет грамотная организация воздушных потоков: изоляция горячих и холодных коридоров и возможность работы на повышенных температурных уставках помогают уменьшить нагрузку на системы охлаждения и, соответственно, снизить энергопотребление.
Какие риски возникают в Al-инфраструктуре и как ими управлять

По словам эксперта, в решениях для искусственного интеллекта с использованием жидкостных технологий возникают дополнительные риски — протечек. Чтобы их минимизировать, инженеры устанавливают в МЦОДах многочисленные датчики.
«Они есть буквально везде: и внутри стоек, и под фальш-полом. Чем выше уровень контроля, тем ниже вероятность критических инцидентов. Кроме того, мы проектируем трассы с жидкостью таким образом, чтобы они не проходили непосредственно над стойками», — объясняет Игорь Панкрашкин.
В высокоплотной инфраструктуре безопасности уделяется особое внимание. Дело в том, что решения для искусственного интеллекта — это дорогостоящие системы, где цена ошибки очень высока. Вычисления могут длиться часами, и любой сбой в работе оборудования означает потерю времени и финансовых ресурсов.
Именно поэтому важно не вовремя устранять аварии, а не допускать их. Например, ДАТАРК внедряет в свои проекты системы мониторинга с предиктивной аналитикой DATCHECK. Собственная разработка компании предупреждает о потенциальных авариях за 6-10 дней до их возможного возникновения и таким образом позволяет предотвращать инциденты.
Почему модульные дата-центры — оптимальный выбор для ИИ?
Сегодня высокопроизводительные вычисления перестают быть экспериментом и все больше становятся критичной инфраструктурой для компаний из самых разных сегментов — финансового, промышленного, e-commerce, IT. При этом скорость внедрения ИИ и технологий машинного обучения постоянно растет. Бизнес хочет в короткие сроки получать необходимую IT-инфраструктуру под решение своих задач.
В отличие от классических дата-центров, которые обычно проектируются и возводитятся в течение 2-3 лет, модульные решения можно реализовать всего за 6-8 месяцев. Это делает их оптимальной платформой для запуска ИИ-проектов.
Не менее важным становится и вопрос масштабируемости. По словам Игоря Панкрашкина, если раньше скорость роста нагрузки на стойку была прогнозируемой, то сейчас требования заказчиков к IT-инфраструктуре могут меняться буквально в течение двух месяцев. Некоторые из клиентов вносят корректировки и увеличивают мощность решений под новые задачи уже в процессе проектирования. В этом плане модульные решения гибко и в короткие сроки позволяют сформировать новую IT-инфраструктуру под меняющиеся задачи бизнеса.
Именно адаптивность с каждым годом привлекает к МЦОДам все большее внимание заказчиков, становясь не просто оптимальным решением, а важным стратегическим инструментом для управления критической инфраструктурой бизнеса и обеспечения его роста.



