SLA на инфраструктуру: где заканчивается ответственность подрядчика

Разбираем, как правильно прописать SLA для ИТ-инфраструктуры, где заканчивается ответственность подрядчика и что остаётся на стороне заказчика. Объясняем разницу между SLA, RTO и RPO, какие модели сопровождения бывают, как избежать споров после аварии и на что смотреть при выборе подрядчика для поддержки инфраструктуры.

Время чтения: 6 мин

месяц назад

Обновлено: месяц назад

Самый болезненный разговор после аварии происходит на следующий день — когда всё уже подняли, бизнес выдохнул и кто-то спрашивает: «Подождите, а это чья зона ответственности?»

Сценарий повторяется регулярно. На пресейле обсуждают аптайм, резервирование, каналы, гипервизоры, красивую архитектуру. В инциденте выясняется: у заказчика в голове был один договор, у подрядчика — другой, у вендора — третий, а реальная эксплуатация жила вообще по четвертому.

Разбираем, что такое SLA, где на самом деле заканчивается ответственность подрядчика и на что обращать внимание при заключении договора.

Что измеряет SLA и где границы ответственности

«Обязательство, чтобы у клиента всё работало» — это не SLA.

SLA — это договорное обязательство по уровню сервиса, которое опирается на измеримые показатели и конкретные последствия за их нарушение.

SLA ≠ RTO и ≠ RPO.

RTO — за сколько времени обязаны восстановиться после сбоя.
RPO — сколько данных допустимо потерять.

Это другой набор метрик, другой разговор и часто другой бюджет. Если в договоре написано «доступность 99,95%», но не определены RTO, RPO и DR-контур — при аварии можно получить формально соблюдённый SLA и при этом неприемлемый ущерб для бизнеса.

«Девятки» полезно переводить в человеческие часы:

99,9% — 8,76 часа допустимого простоя в год;
99,95% — 4,38 часа;
99,99% — 52,6 минуты.

К этим целям должны быть привязаны архитектура, регламенты и процессы восстановления.
Зарубежные провайдеры формулируют границы ответственности так: данные, учётные записи и доступы — всегда за клиентом, независимо от модели развёртывания. На стороне провайдера — физический ЦОД, сеть, хосты и гипервизор.

Подрядчик отвечает за тот слой, который он проектирует, контролирует, мониторит и может менять по своей регламентной процедуре.

Всё, что выше — гостевые ОС, домен, права, агенты, база, приложение, релизы, пользовательские интеграции, логика резервного копирования внутри сервисов, несанкционированные изменения — без отдельного управляемого сервиса остаётся на стороне клиента.

Четыре модели сопровождения: в чём разница

После ухода VMware из России рынок двигается в сторону отечественных платформ, гибридных схем и сервисных моделей. Разрыв между тем, что написано в SLA, и тем, что происходит в аварии, стал шире — потому что новых сценариев накопилось больше, а опыта эксплуатации у большинства команд еще нет.

Российский рынок называет словом «поддержка» принципиально разные по объёму обязательств модели. Разобраться, какая из них перед вами, — значит понять, кто за что отвечает до того, как случится авария.

Модель 1. Сервис на оборудовании подрядчика
SLA включает мониторинг 24/7, устранение инцидентов, обновления, масштабирование, модернизацию и ремонт оборудования, администрирование СХД. Это полноценный управляемый инфраструктурный сервис с понятным контуром ответственности.

Модель 2. Сервис на оборудовании заказчика
Платформа стоит на серверах клиента, подрядчик обеспечивает мониторинг, оповещение, устранение инцидентов, обновления и масштабирование. Граница смещается: подрядчик отвечает за платформенный слой и эксплуатацию сервиса, но не становится владельцем жизненного цикла всего железа, вендорских багов и действий локальной ИТ-службы.

Модель 3. ПНР с передачей ключей
Клиент закупает серверы, СХД, лицензии, приглашает внешнюю команду на проектирование, развёртывание, миграцию и приёмочные испытания. После завершения проекта подрядчик отдаёт административные доступы и выходит из ежедневной эксплуатации. Внутри компании это часто всё равно воспринимают как «они внедряли — они и отвечают», хотя на деле это не так.

Модель 4. Техподдержка, которая превращается в удалённое внедрение
Самая опасная зона для клиента. В договоре — только консультации, эскалация и помощь по продукту. На практике инженеры подрядчика начинают проектировать сеть, разбираться с Linux, проверять VLAN, собирать кластерный транспорт и чинить чужие коммутаторы. Клиент считает подрядчика ответственным за всё, но в SLA эта работа не зафиксирована, а значит, не защищена ни одна из сторон.

Два сценария из реальной практики

Сценарий 1. Матрица совместимости — необходимое, но не достаточное условие отказоустойчивости

На бумаге всё совместимо: серверы одного бренда, отечественная платформа, матрица зелёная, сроки жмут. А потом: удалённые консоли ведут себя нестабильно, адаптеры видятся не все, СХД и сервер «одного производителя» не дружат, вендор полгода правит прошивки.

Матрица совместимости обязательна, но она не отменяет предварительных стендов, пилотов и готовности к сюрпризам на уровне прошивок и BIOS. Формально это легко выпадает из зоны SLA подрядчика, если железо выбрал и закупил сам заказчик. Зрелый подрядчик обычно помогает — но считать такую помощь обязанностью не стоит.

Сценарий 2. Изменения убивают стабильность

На маленьких стабильных кластерах новые платформы часто живут спокойно. Проблемы начинаются там, где администраторы постоянно что-то меняют в живом кластере: новые СХД, новые пулы, новый транспорт, новые сетевые схемы.

Реальный пример: при сборке кластерного транспорта хосты начали уходить в ребут — рабочим решением стало изменение watchdog timeout по рекомендации вендора.
Другой пример: обновление прошивки сетевой карты привело к нетривиальной деградации — часть VLAN просто перестала проходить.

Вывод: в современной инфраструктуре подрядчик отвечает за скорость выявления, локализации и эскалации проблемы в пределах своей зоны контроля. Эксперименты, нерегламентированные изменения и обновления вендоров — отдельный разговор, который должен быть зафиксирован в SLA.

Как подготовить SLA, который выдержит аварию

Начните с определения объекта услуги. Не «облако», не «поддержка инфраструктуры» — конкретная точка измерения: доступность кластера гипервизора, доступность API платформы, реакция на инцидент, время восстановления управляемого сервиса. Пока объект не назван, обсуждать ответственность бессмысленно.
Пропишите матрицу ответственности по слоям. Отдельной строкой: питание, стойка, каналы, серверы, СХД, fabric, гипервизор, бэкап-инфраструктура, гостевые ОС, AD, приложение, CI/CD, IAM, пользовательские устройства, интеграции.
Зафиксируйте регламент изменений. Большинство конфликтов по SLA возникает после изменений: «мы только драйвер обновили», «мы просто права поменяли», «мы только добавили LUN». Введите правило: всё, что меняется вне согласованного регламента, выводится из SLA до повторной валидации.
Не смешивайте SLA с DR. Отдельным приложением должны жить RTO, RPO, перечень критичных систем, порядок тестовых восстановлений, схема резервной площадки и параметры каналов. Бэкап не равно доступность. Требуемая пропускная способность для восстановления считается через объём данных и окно восстановления: 150 ТБ критичных данных при целевом восстановлении за 8 часов математически требуют около 40 Гбит/с, а с учётом накладных расходов — ближе к 85 Гбит/с. SLA не перекроет отсутствие такого расчёта.
Считайте деньги до аварии, а не после.
Простая формула:
Стоимость простоя = потерянная выручка + простой людей + штрафы по SLA + затраты на восстановление + репутационный ущерб.
Для среднего интернет-магазина час простоя составляет порядка 900 тыс. рублей.
Опишите финансовые санкции честно. Сервисный кредит, штраф, исключения, форс-мажоры, зависимость от внешних телеком-провайдеров, вендорские дефекты без обходного решения, действия заказчика и его подрядчиков — всё это нужно проговорить заранее.

Как выбирать подрядчика

Правильный SLA можно написать с любым подрядчиком. Вопрос в том, готов ли он его выполнять.

Первый критерий зрелости подрядчика в 2026 году — с каким объёмом ответственности он реально готов работать и может ли это подтвердить. Например, наши метрики:

менее 20 минут на взятие обращения в работу,
90% тикетов, решённых в первые 6 часов,
менее 0,2% обращений с задержкой.

При этом бюрократические вопросы решаются уже после устранения проблемы. Сначала — деньги и отказоустойчивость бизнеса заказчика, потом — формальности.

Второй критерий — способность показать разные модели ответственности на живых кейсах. Одно дело, когда подрядчик берёт на себя платформу на собственном оборудовании вместе с ремонтом и модернизацией железа. Другое — когда обслуживает платформу на оборудовании заказчика. Третье — когда строит сервисную модель под гибридную инфраструктуру.

Когда сценарии прописаны, заказчику проще понять, где подрядчик действительно ответственен за всё, а где помогает только в определённой зоне.

Поэтому правильный первый вопрос при выборе модели сопровождения звучит не «какой у вас SLA?». Он звучит так:

«Где у вас заканчивается зона ответственности, чем это подтверждено в договоре и в каких реальных кейсах вы уже так работали?»

ITSM (IT Service Management, управление ИТ-услугами) даёт измеримый результат, когда границы ответственности прописаны честно.

В проекте для «Новосибирскэнергосбыта» переход на управляемую гибридную инфраструктуру дал 59% выгоды по TCO в сравнении с модернизацией собственных ЦОД, рост доступности сервисов с 96,15% до 99,982% в год и перевод 100% клиентов в онлайн.
В проекте с «СИБИНТЕРФАРМ» полная стоимость владения сократилась в 12 раз в первый год обслуживания, ROI вырос на 32% на трёхлетнем горизонте.

Зрелая сервисная эксплуатация означает, что бизнес перестаёт зависеть от отпуска, больничного или ухода одного ключевого администратора — контур ответственности, роли и регламенты спроектированы так, чтобы не держаться на одном человеке.

Другие подрядчики предлагали нам общую поддержку через чат или почту, а индивидуальных консультаций у инженера не было. Работа с CORTEL строится по другому. Когда в 4 часа ночи у нас вышел из строя сервер, инженеры CORTEL в течении 30 мин устранили инцидент, обеспечив прямое взаимодействие инженерных команд. Удобно работать, когда за поддержкой можно обратиться в любое время и оперативно ее получить
— Чингис Юндунов, ИТ-директор ООО “СИБИНТЕРФАРМ”

Подробнее о том, как работает техподдержка CORTEL — здесь.

Реальные цифры и примеры устраненных инцидентов — здесь.

Анатомия высоких нагрузок. Как выстроить отказоустойчивую ИТ-инфраструктуру — от запроса до запуска

Предыдущая статья

Поддержка инфраструктуры 24/7: что за этим стоит на самом деле

Следующая статья