Аварии в ЦОД могут коснуться всех – будь то контент-провайдер или корпорация: Google, Facebook, Wells Fargo
12 августа 2019 г. | Категория: Аварии в ЦОДах, Охлаждение ЦОД, Пожаротушение, Человеческий фактор, Электроснабжение ЦОД
Согласно недавнему отчету Information Technology Intelligence Consulting, в 2018 году час простоя ЦОД обходился их операторам в среднем в 260 000 долларов США. Вот краткий обзор самых резонансных аварий ЦОД, которые случились за последние шесть месяцев, и основные уроки, которые следует извлечь из этих инцидентов операторам центра обработки данных.
Google уходил в офлайн дважды в течение четырех месяцев
В марте текущего года инженеры и клиенты Google столкнулись с глобальным даунтаймом, который длился 4,5 часа и нарушил работу сервисов Gmail и Google Drive. За день до этого трехчасовой перерыв в работе облачной платформы Google затронул такие критически важные корпоративные приложения как Google App Engine, веб-инфраструктура и платформа облачных вычислений для разработки и размещения веб-приложений в центрах обработки данных, управляемых Google. Пресс-служба Google не предоставила информацию о причинах инцидентов.
В ноябре прошлого года клиентский трафик Google был ошибочно перенаправлен в Китай, а затем в Россию, что, учитывая нынешний геополитический климат, вызвало спекуляции на тему спонсируемых государствами усилиях по сбору данных. Клиенты отметили проблемы с подключением к G Suite, Google Search и Google Analytics.
На следующий день MainOne (небольшой интернет-провайдер в Нигерии, который обменивается трафиком с Google через систему IXPN в Лагосе) опубликовал твит о том, что основной причиной проблемы была ошибка конфигурации. Компании MainOne потребовалось 75 минут для обнаружения проблемы и ее устранения, а также около 45 минут для восстановления всех сервисов.
Facebook сталкивается с самым серьезным инцидентом в своей истории
В марте 2019 года интернет-корпорация Facebook пережила один из самых длительных даунтаймов с 2008 года. 14-часовой инцидент затронул миллионы пользователей и рекламодателей по всему миру. Социальная сеть Facebook работала с перебоями. Приложения для обмена сообщениями Messenger и WhatsApp, сервисы Instagram и Facebook Workplace также утратили стабильность.
Команда Facebook сейчас ведет расследование общего влияния перебоев, включая возможность возмещения ущерба рекламодателям. Согласно оценкам за 2019 год, ежедневный доход Facebook от рекламы составляет 250 миллионов долларов США, из-за чего любой даунтайм становится серьезным ударом по прибыли.
Принимая во внимание тот факт, что пользовательская база Facebook составляет 2,3 миллиарда человек и продолжает расти, перебои, по мнению экспертов, были вызваны проблемами с пропускной способностью и / или ошибкой маршрутизации трафика. Позже команда Facebook объяснил эту проблему изменением конфигурации сервера.
Мобильный и интернет-банкинг Wells Fargo уходит в офлайн
В феврале клиенты Wells Fargo были лишены доступа к сервисам мобильного и интернет-банкинга из-за отключения центра обработки данных Wells Fargo в Миннесоте (США). Клиенты банка также сообщали о проблемах с использованием своих кредитных и дебетовых карт, выпущенных Wells Fargo. Через два дня после сбоя четвертый по величине банк США восстановил работоспособность критически важных систем, мобильных приложений, веб-сайтов и банкоматов по всей территории Штатов.
Представители Wells Fargo утверждают, что даунтайм был вызван автоматическим отключением электропитания в одном из основных центров обработки данных банка. Этот инцидент, в свою очередь, был вызван задымлением, возникшим во время плановых работ по техническому обслуживанию в здании.
British Airways подает в суд на CBRE за перебои в работе аэропорта в 2017 году
Авиаперевозчик British Airways нанял юридическую фирму Linklaters, чтобы та инициировала судебную тяжбу против компании CBRE, занимающейся менеджментом недвижимости. Последняя якобы несет ответственность за повреждение дата-центра British Airways, находившегося под ее управлением в 2017 году.
Трехдневное отключение ЦОД привело к тому, что многие клиенты British Airways не смогли вылететь из аэропортов Гатвик и Хитроу, а также приземлиться в этих воздушных гаванях. Авиакомпания была вынуждена отменить 672 рейса, в результате чего 75 тыс. пассажиров оказались в затруднительном положении. Ориентировочный размер ущерба составил 75 миллионов долларов. Генеральный директор British Airways Алекс Круз в интервью СМИ сообщил, что авиакомпания инвестировала средства в новые центры обработки данных, чтобы избежать повторения подобных инцидентов.
Выводы, которые можно сделать после изучения недавних даунтаймов
Случившиеся за последние месяцы аварии ЦОД подтверждают результаты исследования, проведенного организации Uptime Institute, авторами которого были определены три основных причины подобных инцидентов: перебои в подаче электроэнергии, сбои в работе телекоммуникационной сети, а также ошибки в работе IT-систем или программного обеспечения.
80% опрошенных операторов центров обработки данных признали, что недавние аварии в их ЦОД могли быть предотвращены. Это указывает на то, что стабильные инвестиции в усовершенствование технологических процессов, вероятно, будут давать позитивные результаты.
По словам представителей компании SSH Communications Security, операторам центров обработки данных важно обеспечить готовность к инцидентам, при этом избыточность инфраструктуры по-прежнему является ключевым условием минимизации риска даунтаймов или их последствий.
Идеальным способом решить проблему является создание вторичного ЦОД, дублирующего основной. При этом между двумя центрами обработки данных необходимо обеспечить физическую изоляцию, а также добиться того, чтобы они не полагались на один и тот же источник электроэнергии. Согласно данным организации Uptime Institute, в центрах обработки данных с полным резервированием и отзеркаливанием систем было на треть меньше сбоев. Теги: British Airways, CBRE, Wells Fargo, Facebook, Google, ITIC
|