Экспертные оценки

Как минимизировать человеческий фактор и предотвратить простой дата-центра. Часть 1.

20 октября 2014 г. | Бостон Дэвид | Категория: Обсуждаем статью

За последние пятнадцать лет большинство операторов дата-центров пришло к выводу, что именно человек является причиной прерываний обслуживания критических операций. Человеческий фактор, год за годом, называют главной причиной от 60 до 80% простоев дата-центра.

Отказы в работе систем инфраструктуры дата-центра и их компонентов все еще представляет риск, но сегодняшний уровень разработки, сборки и сдачи в эксплуатацию, как правило, позволяет рассчитывать на бесперебойную работу оборудования в течение как минимум десяти лет. При условии, что ваш объект оборудован отказоустойчивыми системами и имеет запас по резервированию и ресурсам, стоит сфокусироваться на организации качественных процессов эксплуатации с тем, чтобы свести к минимуму влияние   человеческого фактора.

Большинство владельцев площадок не в состоянии разработать и внедрить эффективную операционную стратегию. Это тревожный факт, учитывая, что рынок считает человека самым рискованным элементом системы. Человек – это ключевой компонент успешного функционирования дата-центра: он обеспечивает регулярное техобслуживание, выполнение запросов пользователей, реагирует на неожиданные сбои системы. И задачей руководителя объекта является обеспечение сотрудника необходимыми для успешной работы инструментами.

По мере того, как руководитель объекта начинает внедрять (или усиливать) стратегию эффективной эксплуатации, первым его шагом должно быть четкое распределение обязанностей между отделами. Следующий шаг – разработка правил внутреннего распорядка, индивидуальных для данного объекта, и обеспечение требуемого уровня их исполнения. Надлежащее   выполнения задач и процессов может быть достигнуто лишь тогда, когда количество персонала и его структура соответствует целям эксплуатации и годовому плану, а зоны ответственности четко закреплены.  Лишь с назначением ответственных за каждый участок и установлением сроков, а также с помощью тренинговых программ многомесячные проекты могут достичь своих целей. Одновременно с введением распорядка и организацией тренингов могут быть разработаны программы поощрения персонала.

Ниже приведены примеры того, как руководители дата-центров  могут внедрить каждый из этих компонентов в свою стратегию эксплуатации объекта.

1. Четкая постановка задачи и назначение ответственных. В большинстве дата-центров в процесс оказания услуг конечным пользователям вовлечены сразу несколько отделов. Те, кто устанавливает и эксплуатирует оборудование, те, кто администрирует сеть, те, кто обеспечивает безопасность, а также группа технической поддержки – все они присутствуют в типовом дата-центре. Эти группы часто занимают обособленные помещения, в которых и занимаются своим делом. Если эти площади территориально обособлены и закрыты, обычно можно легко понять, какой отдел отвечает за функции в таком помещении, и создание письменного распорядка уже не столь необходимо.

Письменный распорядок становится более важным, если он затрагивает эксплуатацию зон, к которым имеет доступ персонал из разных департаментов. В случае с дата-центром, наиболее важным является серверный зал. Задачи, в нем исполняемые, представляют наибольший риск сбоя, поскольку там работают представители многих департаментов, и, следовательно, на площадке фиксируется высокая степень человеческой активности.

Чтобы снизить вероятность ошибки в случае, когда на  одной площадке работает многочисленная группа специалистов, необходимо разработать письменные инструкции в отношении распределения работы между отделами. Некоторые организации называют их правилами внутреннего распорядка. Документ может составлять не более страницы, но должен быть утвержден главами всех департаментов и неуклонно исполняться (см. «Образец Правил Внутреннего Распорядка», справа).

В документе о разграничении ответственности за ключевые функции - такие, как  распределение электропитания и основное планирование (расположение оборудования  для создания оптимального режима производительности и эффективной системы охлаждения) - необходимо учесть значительное количество деталей. Без этого сбои в работе могут стать постоянными. Сбои зачастую происходят в тех случаях, когда кто-то, не имеющий знания и опыта и необученный выполнению конкретной процедуры, пытается установить или демонтировать то или иное устройство.

 С продолжением затронутой в данной статье темы можно ознакомиться по ссылке: http://alldc.ru/admin/experts/update/2182/

 

 

Правила внутреннего распорядка

Обязанности в области эксплуатации оборудования

- ответственность за электрическую разводку до подключений к внешнему распределительному щиту (распределительному шкафу) лежит исключительно на трех сотрудниках, назначенных на эту работу

- ответственность за основное планирование серверного зала специально назначенный сотрудник отдела эксплуатации разделяет с одним ИТ-специалистом

- Приглашенные специалисты могут передвигаться по зданию и производить работы исключительно в сопровождении ответственного сотрудника

- Ежемесячные отчеты о соотношении имеющейся мощности и фактической загрузки системы

- Распределение расходов и планирование бюджета капитальных затрат

- проведение планового техобслуживания, которое может привести к снижению отказоустойчивости, на основании предварительно одобренной и отрепетированной процедуры

- отчеты об инцидентах должны предоставляться ИТ-специалистам по утвержденной форме в течение четырех часов с момента появления угрозы инцидента или простоя (дополнительный отчет предоставляется после обнаружения причины)

- в случае возникновения непредвиденной ситуации на объекте, отчет обновляется каждые 30 минут

Обязанности в области информационных технологий

- ответственность за все сетевые и электрические соединения внутри серверов несут пять назначенных для этого сотрудников

- ответственность за основное планирование зала несет один назначенный для этого ИТ-специалист разделяет с одним сотрудником из отдела эксплуатации

- Приглашенные специалисты по оборудованию и сетям могут передвигаться по зданию и производить работы исключительно в сопровождении ответственного сотрудника

- Еженедельные отчеты отделу эксплуатации о планируемых установках нового вычислительного оборудования

- Ежегодные отчеты отделу эксплуатации о долгосрочной стратегии обновления  вычислительного оборудования

- Распределение расходов и планирование бюджета капитальных затрат

 

Продолжение следует

Чтобы оставить свой отзыв, вам необходимо авторизоваться или зарегистрироваться

Комментариев: 0

Регистрация
Каталог ЦОД | Инженерия ЦОД | Клиентам ЦОД | Новости рынка ЦОД | Вендоры | Контакты | О проекте | Реклама
©2013-2024 гг. «AllDC.ru - Новости рынка ЦОД, материала по инженерным системам дата-центра(ЦОД), каталог ЦОД России, услуги collocation, dedicated, VPS»
Политика обработки данных | Пользовательское соглашение