Новости индустрии / Новости / Авария в дмитровском ЦОДе «Мегафон»: разбор полета

Авария в дмитровском ЦОДе «Мегафон»: разбор полета

19 января 2017 г. | Категория: Аварии в ЦОДах, Охлаждение ЦОД

Под конец новогодних праздников после перепадов температуры от +2 до +10 °С москвичей ждал еще более неожиданный сюрприз: в области температура за окном понизилась до -35 °С. Такие морозы стали настоящим испытанием не только для жителей столицы, но и для дата-центров. Несмотря на то, что в Московском регионе ЦОДы должны проектироваться с учетом бесперебойной работы и при -40 °С, такие резкие температурные перепады могут негативно отразиться на работе систем охлаждения. В прошедшие праздники это и произошло с дата-центром компании «Мегафон» в Дмитрове: по утверждению абонентов, некоторые сервисы оператора связи были недоступны в течение двух дней.

С 7 января клиенты оператора начали жаловаться на перебои в работе нескольких сервисов «Мегафона», в том числе «Мегафон ТВ» и «Мультифон», также наблюдались проблемы с доступом в личные кабинеты на сайте оператора связи. Кроме того, не работали карты «Мегафон.Банка». Как заявляют в пресс-службе компании, из-за аномальных холодов в столичном регионе вышла из строя система охлаждения дата-центра.

Такое объяснение выглядит вполне логичным и даже немного успокаивающим, но подобная формулировка не объясняет главного: что же конкретно вышло из строя в системе холодоснабжения. Пресс-служба компании «Мегафон» наши запросы оставила без внимания. Однако, по одной из версий, которая активно обсуждается в социальных сетях, в связи с понижением температур до -30 °С и ниже в системе охлаждения замерз хладагент, что привело к повреждению труб и утечке этиленгликоля. Из-за длительных новогодних праздников сотрудникам дата-центра не удалось оперативно получить около 30 тонн хладоносителя, чтобы заправить систему. Служба эксплуатации организовала импровизированный фрикулинг, и в процессе была обесточена часть серверных стоек

Во время подготовки материала мы обратились к специалистам в области холодоснабжения и попросили их высказать свое мнение касательно произошедшей аварии и того, как «разгребать» ее последствия.

Вентмашины в ЦОДе Мегафон, Дмитров

Как это вообще могло произойти?

Этот вопрос напрашивается сразу же. Несмотря на то, что климат в столице относительно непостоянен, нельзя исключать одну переменную — зиму, тем более что в последние годы она длится в столице почти полгода. В связи с этим российские ЦОДы заранее проектируются с учетом аномальных температур зимой и летом (в зависимости от региона). В целом в любой точке нашей страны каждый год можно ожидать ту или иную аномалию: будь то жара и как ее следствие — смог (как в Москве в 2010 году) или -50 °С в Сибири.

Самой распространенной причиной возникновения подобного сбоя в работе оборудования является недостаточная концентрация этиленгликоля. В общей сложности температура -33 °С для Москвы — это не предел. Считается, что концентрация хладагента и количество воды в нем должны быть рассчитаны таким образом, чтобы выдержать температуру ниже -40 °С, при этом за среднюю величину обычно берут -42 °С. Кроме того, на работу системы может повлиять некачественная сварка: из-за плохо сваренного шва в трубах может концентрироваться вода; в какой-то момент ее концентрация превысит норму, и охлаждающая жидкость при замерзании буквально разорвет трубы.

К сожалению, у этой причины есть один важный фактор: экономия. Действительно, многие неоднократно сталкивались с тем, что заказчик готов пренебречь дополнительной проверкой или заложил малый бюджет на проектирование. В результате появляются мелкие просчеты, которые могут буквально вылиться вместе с этиленгликолем в немалые суммы выплат за простой дата-центра.

Трубы в системе охлаждения ЦОД Мегафон, Дмитров

Андрей Перекрест, руководитель московского ЦОД Linxdatacenter: «Предположу, что причиной подобной аварии могло стать повышение концентрации воды в растворе этиленгликоля: данный теплоноситель часто применяется в системах охлаждения средних и крупных ЦОДов. Предупреждение подобных ситуаций предполагает совокупность мер, которые можно обобщенно разделить на плановую и технически грамотную эксплуатацию систем дата-центра в течение всего года, а также комплексную проверку внутренних и внешних контуров системы охлаждения в преддверии зимы. Корректный состав водных растворов гликолей не позволяет смеси замерзать при низких температурах».

Сергей Белик, независимый эксперт: «Экономия, как правило, связана не с сокращением абсолютной стоимости строительства, а с большим количеством промежуточных звеньев в цепочке реализации. До конкретных исполнителей, которые реально выполняют работы, доходит малая часть бюджета, к тому же у них не всегда есть достаточная квалификация и опыт. Особенно экономия бюджета сказывается на результатах проектирования. Системные интеграторы в дикой борьбе за заказы предлагают выполнить проектирование практически бесплатно. Да, при формировании ценового предложения в конкурсе они считают, что затраты на проектирование будут компенсированы на поставках и работах. Но на практике никто не отменял бюрократию и политику соблюдения бюджетной дисциплины. Когда дело доходит до оплаты работ по проектированию совсем другие люди, отвечающие за экономию бюджета, ищут и находят проектировщиков, которые не обязательно должны иметь нужную компетенцию — они должны выполнить работы за смешные деньги.

Далее все это накладывается на фактор невозможности «растянуть время». Проекты выполняются в сжатые сроки, проверка на непротиворечивость и согласованность работы систем часто вообще не выполняется, расчеты делаются «копипастом», проверки монтажа объекта, как правило, выполняются фрагментарно, а уж о нагрузочных проверках, да еще и в разных условиях наружных температур говорить не приходится».

Какое временное решение можно было бы внедрить для охлаждения дата-центра в такой ситуации?

Андрей Перекрест, руководитель московского ЦОД Linxdatacenter: «Если говорить об оперативном реагировании на подобные ситуации, большую роль играет компетентность команды дежурных инженеров, которые могут: во-первых, своевременно обнаружить проблему в функционировании систем охлаждения ЦОД; во-вторых, быстро принять необходимые меры по переключению на резервный контур охлаждения и (в случае обеспеченности необходимым инструментарием и материалами) приступить к ликвидации аварии».

Александра Эрлих, генеральный директор CABERO Wärmetauscher Osteuropa GmbH: «Возможно, следующий мой ответ не поймут, но это немецкая практика: в Мюнхене -30 °С тоже не редкость. Пока устраняются повреждения системы и ожидается новый хладагент, систему запускают при прямом охлаждении проточной водой. Невероятно дорого, поскольку требуется большое количество воды, просто уходящей в землю (на охлаждение ЦОДа 500 кВт требуется около 5 м3/ч.), но спасает в такой ситуации. Конечно, при условии, если есть источник воды».

Александр Овчинников, руководитель проекта ООО «АДМ Партнершип»: «С учетом того, что ЦОД — объект сложный и серьезно насыщенный инженерной инфраструктурой, очень тяжело внедрять какие-то временные решения. В общем случае требуется удалить нагретый воздух из горячих межстоячных коридоров. Думаю, это можно сделать с помощью временных вентиляторов и гибкой подводки. Но это если требуется решить проблему очень срочно, потому что необходимый объем воздуха вряд ли получится удалить — скорее всего, потребуется уменьшение потребления на каждую стойку. Каждый ЦОД индивидуален, и временные решения определяются исходя из текущей ситуации. Если работоспособность ЦОД жизненно важна, то, как правило, компании стараются использовать технологию разнесенных взаиморезервируемых ЦОДов. В случае выхода из строя системы одного ЦОДа обработка информации осуществляется на резервном дата-центре».

Что еще могло произойти с системой охлаждения?

Сергей Белик, независимый эксперт: «Непосредственных причин сбоя в работе системы охлаждения может быть множество, но реальных причин всегда две, и они не имеют отношения к технике. Во-первых, экономия бюджета при создании ЦОДа; во-вторых, святая уверенность некоторых людей, что время можно замедлить или купить.

Что может стать технической причиной сбоя в работе системы охлаждения в таких условиях, предугадать невозможно. Это может быть и «разморозка» задвижек на трубопроводах чиллерной системы, которые расположены на улице, а в системе управления кондиционированием не был реализован алгоритм постоянной циркуляции холодоносителя при низких наружных температурах. Или аварийная остановка фреоновых машин по низкому давлению в магистрали, поскольку для расчетов взяли не самые низкие возможные температуры в конкретной локации ЦОД, а средние значения для климатической зоны по СНИП. Или отсутствие подогрева на управляемых задвижках, да и просто некачественный сварной шов, который держал давление при номинальных давлениях и температуре, но при резких температурных перепадах его прочность стала ниже. Таких причин могут быть сотни...»

Евгений Колесник, директор центра поддержки клиентов Stack Group: «Возможной причиной замерзания хладагента может быть недостаточная концентрация этиленгликоля. Это вопрос выбора компании-поставщика и качества хладагента. В наших реалиях необходима концентрация, обеспечивающая работу при температурах ниже -40 °С».

Борис Грановский, директор по развитию ООО «АМД Проект»: «Обычно для небольших ЦОДов применяются фреоновые системы охлаждения, а там, как правило, конденсат отводится на улицу или в систему канализации. Если не стоит зимний комплект подогрева слива, то он (слив) мог попросту замерзнуть — бачок с конденсатом переполнился, и кондиционеры встали… Вторая типичная причина остановки фреоновых кондиционеров в мороз — это замерзание смазки в фреоне.

Для водяных систем причины могут быть аналогичные: замерзание слива и замерзание охлаждающей жидкости.

Жаловаться на погоду — значит показать свой непрофессионализм. В любом руководстве по проектированию сказано, что надо учитывать климатический фактор: для большинства регионов России значение зимней температуры — это -40 °С. 

Считаю, что виноваты люди:

- во-первых, работники, которые проектировали и строили, — в том, что не предусмотрели защиту от «дураков»;

- во-вторых, те, кто отвечает за эксплуатацию, так как они не провели надлежащей подготовки и не работали в «боевом режиме» с наступлением холодов».

Александра Эрлих, генеральный директор CABERO Wärmetauscher Osteuropa GmbH:

«Принципиально возможны следующие причины:

• изначально неверно рассчитанная концентрация гликоля;

• с целью повышения энергоэффективности и/или получения необходимых параметров на неверно рассчитанном и подобранном оборудовании систему в теплое время года пускали на воде/слабоконцентрированном гликоле и забыли дозаправить гликолем перед морозами;

• плохо изготовленная смесь, со временем расслоившаяся на воду и гликоль;

• маловероятный, но также возможный и знакомый из практики случай: из-за разницы температур на градирне снег подтаивал, и при этом температура не была достаточно высокой, чтобы растопить его полностью. Драйкулер постепенно замерз, как замерзают испарители, и образовалось так называемое ледяное гнездо, которое и порвало аппарат. Если кто-то видел повреждения от «ледяных гнезд», понимает, о чем я говорю: аппарат выглядит так, словно внутри него взорвали мощную петарду».

Приходилось ли вам сталкиваться с подобными случаями?

Борис Грановский, директор по развитию ООО «АМД Проект»: «Ошибок не бывает только у тех, кто ничего не делает, поэтому надо честно признать, что ошибки мы допускали, зачастую идя на поводу у уважаемых заказчиков. В большинстве случаев это попытки сэкономить бюджет.

  Один из примеров — когда в фреоновой системе охлаждения замерз слив (причем система подогрева имелась), но заказчик, уйдя на зимние каникулы, либо «забыл» его включить, либо решил «сэкономить» на электричестве. Восстановление системы заняло неделю работы в мороз. Пришлось все разбирать и собирать заново…

  Вторая типичная ошибка — это проблемы с ДГУ. Мало кто меняет летнюю солярку на зимнюю, при этом забывают долить зимние присадки в топливный бак. А даже если и доливают, то мало кто прогоняет систему, поэтому и замерзают топлипроводы. Такой случай был и в моей практике. Поставили уважаемому заказчику несколько ДГУ в контейнерах. Систему отопления контейнеров предусмотрели, но не сделали отдельного отопления баков и топливопроводов. Продув ДГУ был организован продольно — по оси контейнера, поэтому после запуска ДГУ при -30 °С температура в контейнере упала за 5 минут, а солярка начала замерзать через 15 минут, так как солярка была летней, а дополнительный запас никто не сделал. Спасались ручным управлением воздушными жалюзи. Потом нам с заказчиком пришлось переделывать все контейнеры, утеплять баки и ставить обогрев бака и топливопроводов, а перед зимой во все баки начали добавлять незамерзающие присадки».

Александра Эрлих, генеральный директор CABERO Wärmetauscher Osteuropa GmbH: «Типичная на самом деле ситуация: в Германии из-за неверной эксплуатации «размораживается» от семи до десяти драйкулеров в год (данные по всем немецким производителям. — Прим. ред.). Выручают в этом случае две вещи: при наличии запасов хладагента арендуется временный аппарат, который подключается через садовые шланги до тех пор, пока не будут устранены повреждения в основной системе. Либо (при отсутствии запасов хладагента) используется прямое водяное охлаждение проточной водой».

Александр Овчинников, руководитель проекта ООО «АДМ Партнершип»: «Компания-подрядчик во время проведения пусконаладочних работ при проверке герметичности заполнила систему водой. Согласно плану-графику, данные работы должны были проводиться в августе, но строительство шло с отставанием, и заполнение системы произвели в конце сентября. Системы проверили на давление — собирались уже сливать воду, но ушли на выходные, и как раз в эти дни ударили морозы до -8 °С. В итоге лопнули трубки теплообменников во внешних охладительных градирнях. Их починка уже была невозможна — пришлось менять оборудование. Хорошо, что это произошло еще до момента запуска ЦОДа в эксплуатацию, и последовали затраты только на новое оборудование».

Защита ЦОДа от мороза

Как же защитить дата-центр от подобных случаев? О этом неоднократно рассказывали специалисты со страниц журнала «ЦОДы.РФ». Например, в выпуске №12 (август 2015 года) приведены реальные примеры работы системы кондиционирования дата-центров, расположенных в регионах нашей страны с резко континентальным климатом. Приведем некоторые из них.

ЦОД «Сибирь», г. Северск: рассчитан суммарно на 1500 серверных стоек в шести машинных залах площадью от 200 до 450 м2. Базовая расчетная электрическая нагрузка составляет 3 кВт на стойку. Максимальная средняя нагрузка на стойку — 9 кВт.

Алексей Волынцев, директор дата-центра «Сибирь»: «В машинных залах теплообмен происходит посредством капиллярных панелей, закрепленных на потолке на высоте 7,1 м и в верхней части стен машзалов. В системе охлаждения использовались компрессоры зарубежного производства и отечественные конденсаторы. Установка усилена фанкойлами. Система при расходе 1 кВт энергии вырабатывает 4,6 кВт холода. Отобранное тепло через тепловые насосы подается в распределенную отопительную систему здания. А в летнее время (2-3 теплых месяца в году) избытки тепла отводятся за пределы эксплуатируемых помещений. Таким образом отсутствуют затраты на обогрев здания, что позволяет сэкономить около 900 тысяч рублей в год. Несмотря на то что система модульная, во избежание выхода из строя дополнительно предусмотрена система естественного охлаждения: три приточные установки мощностью по 72 000 м3/ч. по схеме резервирования 2N+1».

ЦОД «Мегафон», Новосибирск: общая площадь составляет 2000 м2, количество стоек — 300, мощность объекта — 2,4 МВт.

Александр Салтанов, директор по инфраструктуре Сибирского филиала ПАО «Мегафон»: «В основе климатической системы ЦОДа лежит водяное охлаждение с использованием пяти чиллерных установок: два по 400 кВт и три по 450 кВт. Такой подход потребовал дополнительной модификации пола, который теперь имеет небольшой уклон, чтобы отводить жидкость в случае непредвиденной протечки. Начиная с октября, чиллерные установки переходят на работу с использованием фрикулинга. Систему можно использовать уже при температуре наружного воздуха ниже нуля, однако на стопроцентную мощность чиллерная установка выходит только при внешней температуре -8 °С и ниже. Соответственно, фрикулинг работает только до апреля и позволяет ежемесячно экономить около 400 кВт/ч. Для чиллеров используется схема резервирования N+1, где N — четыре чиллерных установки, еще одна — всегда резервная в системе постоянной ротации. В каждой установке предусмотрены два фреоновых контура, что повышает общую надежность работы системы».

ЦОД «Оптизон», Красноярк: общая мощность машзала составляет 80 кВт, максимальная мощность на стойку — 5 кВт. Дата-центр рассчитан на 15 стоек и строился в основном для нужд операторов связи и операторов доставки контента (CDN). На данный момент ЦОД генерирует 50 % трафика в пиринговую сеть SIBIR-IX.

Дмитрий Гущин, генеральный директор ДЦ «Оптизон»: «В дата-центре установлено 11 сплит-систем DaikinCT60 (девять рабочих и резервные) мощностью по 6 кВт. Схема резервирования — N+2, штатный температурный диапазон составляет примерно -10—15 °С, а низкотемпературный комплект позволяет использовать кондиционер при температуре -40 °С. Зимние комплекты рассчитаны на круглогодичную работу. В пиковые низкотемпературные дни были случаи, когда они не спасали: начиналось обмерзание внутреннего блока теплообменника, и система останавливалась. Благодаря резервированию удалось избежать полной остановки системы. На основе собственного опыта могу сказать, что в дата-центре, серверное помещение которого вмещает до 10 стоек, покупка прецизионных кондиционеров неоправданна: она просто нерентабельна, однако окупается при больших объемах.

Какие дополнительные меры можно принять для защиты зимой?

Во-первых, стоит отметить, что при правильном и грамотном проектировании объекта особенные дополнительные меры не понадобятся. В большинстве случаев в зимнее время года служба эксплуатации ЦОДа пристальнее следит за средствами мониторинга систем и чаще проверяет оборудование. В целом этого достаточно, чтобы быть всегда наготове, если в связи с понижением температур что-то выйдет из строя.

Однако все же есть ряд мер, которые можно иметь в виду. Например, если на объекте установлена система фрикулинга, то в первую очередь необходимо проверить и закрыть внешние подходы к кондиционерам — для этих решений морозы намного опаснее жары. При отрицательных температурах — главное, чтобы не застыл хладагент в трубах, вследствие чего он перестанет циркулировать. Как утверждают эксперты, к сожалению, служба эксплуатации ЦОДа зачастую просто увеличивает концентрацию хладагента, что может лишь усугубить проблему. В этом случае прежде всего спасет добавление антифриза. Помимо этого, трубы оснащены системой отопления, которую необходимо постоянно проверять, когда температура опускается ниже нуля и тем более экстремально ниже нуля.

Одно дело, кондиционеры и трубы, другое — сам машинный зал. Все мы знаем, что холодный воздух намного суше, поэтому в зимнее время года и особенно при резком понижении температуры за окном необходимо проверять уровень влажности — он может значительно снизиться. Для его увеличения до оптимального показателя советуют использовать портативные увлажнители.

Защита дата-центра в минусовые температуры зависит не только от контроля системы охлаждения: нельзя забывать и о ДГУ, которые стоят на улице. Как и любой аккумулятор, аккумулятор дизель-генератора при холодных температурах теряет свою емкость, то есть при морозе от -30 °С он не сможет резко отдать ту энергию, какую мог бы отдать, будучи теплым. Чтобы в случае экстренных ситуаций не потерять время на подключение ДГУ, эксперты советуют устраивать своего рода «тренировки» дизелю, включая его на 20-процентную нагрузку на 10-15 сек. После этого можно запускать генератор на непродолжительное время стартером. К сожалению, не все современные ДГУ дают возможность проводить подобные «учения», поэтому инженерам дата-центра приходится искать и другие способы прогревания аккумуляторов, например, устанавливать подзаряжающие устройства. В любом случае одна из главных задач в данном случае — следить за уровнем электролита: если его плотность сильно падает, то вода превратится в лед, а банка аккумулятора раздуется и может треснуть.

Так или иначе, контроль систем охлаждения зависит от слаженности работы службы эксплуатации дата-центра: это не только своевременные проверки оборудования, но и связи между инженерами на случай экстренных ситуаций. Будем надеяться, что такие морозы уже больше не вернутся в Москву, а если и вернутся, то дата-центры будут готовы их встретить.

Теги: Мегафон, Дмитров, Linxdatacenter, CABERO, АДМ Партнершип, Stack Group, АМД Проект, Оптизон, Андрей Перекрест, Сергей Белик, Александра Эрлих, Александр Овчинников, Евгений Колесник, Борис Грановский, Алексей Волынцев, Александр Салтанов, Дмитрий Гущин

Регистрация
Каталог ЦОД | Инженерия ЦОД | Клиентам ЦОД | Новости рынка ЦОД | Вендоры | Контакты | О проекте | Реклама
©2013-2024 гг. «AllDC.ru - Новости рынка ЦОД, материала по инженерным системам дата-центра(ЦОД), каталог ЦОД России, услуги collocation, dedicated, VPS»
Политика обработки данных | Пользовательское соглашение