Классификация ЦОД: что такое Tier и какой подходит бизнесу?
Недавно рассказывали о новом ЦОД в Новосибирске и 35 по всей стране от Key Point. В первом полугодии 2024 новый дата центр в Новосибирске пройдёт двухступенчатую процедуру сертификации Uptime Institute на соответствие уровню Tier III и аттестацию ФСТЭК. О ней подробнее писали тут.
Сегодня поговорим о Tier и рассмотрим, на что ориентироваться при выборе ЦОДа.
С чего всё началось?
В 1993 году в США основали Uptime Institute с целью повысить отказоустойчивость и доступность дата-центров. Брилл Кеннет, основатель института, рассказал, что задумка Tier возникла ещё в 1989 году, когда United Postal Service поручил выявить, почему возникают сбои в дата-центре.
Из-за нестабильной работы посылки задерживались, а клиентам выплачивали компенсации. Потенциальный ущерб от каждого сбоя составлял порядка 20 млн долларов.
Так в 1996 году появился первый стандарт отказоустойчивости дата центров – шкала из 4 уровней – Tier I, Tier II, Tier III и Tier IV, он же высший.
Основой считается время простоя в год. Больше простой – ниже уровень. Условие дополняет критичный параметр – можно ли проводить профилактику, не останавливая работу дата-центра. Для Tier I и Tier II ответ — нет. А Tier III и Tier IV уже да.
В чем разница?
Сегодня критерии Tier выглядят так:
Tier I | Tier II | Tier III | Tier IV | |
Резервирование оборудования | нет | N+1 | N+1 | 2(N+1) |
Возможность обслуживания без остановок | нет | нет | да | да |
Годовой простой | 28,8 часов | 22 часа | 1,6 часа | 26 минут |
Уровень доступности | 99,671% | 99,749% | 99,982% | 99,995% |
N – объём оборудования для поддержки всего ИТ.
+1 – дополнительные компоненты для резервного копирования.
2(N+1) – дублирование оборудования + РК. В случае Tier IV – есть бэкапы всего. Соответственно, даже если упали 2 системы дублирования, есть ещё 2.
Tier I – самый низкий уровень отказоустойчивости. Резервирования нет, поэтому перестает работать во время сбоя. Обычно представляет собой небольшую серверную.
Tier II – ключевое отличие от Tier I — введение N+1 резервных компонентов:
– в кондиционировании;
– в источниках бесперебойного питания;
– в дизельно-генераторных установках.
Отказы оборудования или технические работы также приводят к остановке работы дата-центра.
В ЦОД Tier III возможен ремонт оборудования без простоев:
– профилактика техобслуживания;
– замена/добавление компонентов;
– тестирование.
Это полноценный, наиболее распространённый дата центр с собственной территорией, зданием, охраной. Дублируется распределение потоков систем и коммуникаций, в частности – трубопроводов охлаждения, каналов связи в здании, питания.
В Tier IV отказоустойчивость приближается к 100%. Он работает без остановки при профилактике и выдерживает один аварийный отказ системы. Оборудован дублированным по схеме 2(N+1). Для ДГУ требуется отдельная площадь с местом для хранения топлива.
Чаще всего встречаются уровни Tier II и Tier III. Отличия – в таблице:
Особенности | Tier II | Tier III |
Отдельное здание | — | + |
Отдельный заезд на территорию для сотрудников и гостей | — | + |
Минимальное расстояние до общественной зоны — 9,8 м | — | + |
Мин расстояние от железной дороги или автострады — 0,8 км, до аэропорта и водной среды — 0,4 км | — | + |
Отдельные физические зоны для распаковки, настройки, охраны | — | + |
Дублированные отдельные телекоммуникационные помещения | — | + |
Серверные отделены огнеупорными стенами | — | + |
Дублирование каналов связи и ИТ оборудования клиента | — | + |
Как работает сертификация Tier?
Есть 3 этапа и 3 вида сертификации:
– Проектная документация ЦОД
– Построенное сооружение
– Операционная устойчивость
Чтобы пройти первую, проектную документацию отправляют в Uptime Institute. Эксперты анализируют архитектуру – расположение сетей и маршрутов, источников питания и т.д.
Далее владельцы дата центра и представители института встречаются на онлайн-конференции, где вторые рассказывают о недочетах, слепых пятнах и дают рекомендации по исправлению.
Переделанный проект повторно отправляют на проверку. Если всё в порядке, Uptime Institute выдаёт сертификат уровня Tier I — Tier IV на документацию, “проект” или “дизайн”.
На втором этапе комиссия института посещает ЦОД, чтобы проверить, насколько реальность соответствует документации. Если есть недочёты, заказчиков консультируют по устранению. Если нет – дата центр получает второй сертификат.
Чтобы оценить операционную устойчивость, эксперты Uptime Institute снова посещают ЦОД. Теперь оценивают “внутрянку” – квалификацию сотрудников, маркировку и эксплуатацию оборудования. Устранив недостатки, комиссию приглашают для финальной проверки. Та трансформирует данные в баллы и присваивает дата центру уровень эксплуатационной устойчивости.
Зачем и как проверять сертификат Tier?
ЦОДам проходить процедуры от Uptime Institute необязательно, работать можно и без сертификатов. Некоторые так и поступают, ведь в моменте бизнес экономит 1% от стоимости дата центра и до 2 лет времени, которое нужно на проверки, согласование, и устранение недостатков.
С другой стороны, в перспективе недочёты в архитектуре, реализации и эксплуатации могут привести к сбоям = простоям = миллионным потерям для владельцев ЦОД и заказчиков.
Причем сертификатов должно быть 3, так как 1 не гарантирует, что дата центр построят по согласованному проекту. При наличии лишь 2, есть риск, что оборудование будут эксплуатировать неправильно, а сотрудники не смогут скоординироваться в случае сбоя.
К концу 2022 года в России работали 80 коммерческих дата центров, большинство которых соответствовало Tier III. При этом 3 сертификата есть лишь у 2. Это и уровень Tier можно проверить на официальном сайте Uptime Institute.
В то же время, заказчики стали уделять внимание не только техническим характеристикам и уровню Tier, но и техподдержке. Например, мы, в партнёрстве с KeyPoint и 3data, реализуем:
– Договор SLA – внеплановая недоступность не более 94,7 минут в год.
– Круглосуточный мониторинг климата, энергопотребления, связи, ПО и оборудования.
– Связь с инженерами ЦОД в службе эксплуатации 24х7х365.
– Возможность приоритетного обслуживания с предоставлением инженера по требованию.
– Комнаты разгрузки и распаковки оборудования, рабочие места для посетителей.
Как выбрать?
Выбор Tier для ЦОДа зависит от бизнес-задач, бюджета и того, как вы планируете использовать свою инфраструктуру. Чем выше уровень Tier – тем дороже услуги дата-центра и выше отказоустойчивость.
Несколько вопросов, которые помогут определиться:
– Какое время простоя и восстановления допустимы (как считать писали тут)
– Что критичнее для бизнеса: бюджет или надежность?
– Какие требования по безопасности данных?
– Насколько важна масштабируемость?
– Как часто планируете проводить техническое обслуживание?
– Где находятся ключевые рынки, и как это влияет на выбор географического расположения?
Также определиться помогут материалы – всё про сбои и экономику:
“Стоек нет, но вы держитесь” – состояние рынка ЦОДов в 2022-2024.
Всё о Disaster Recovery за 15 минут – всё о простоях, финансовых рисках и стратегии реагирования.
Затраты на IT инфраструктуру – об экономике ИТ — от серверов до АРМ.