Поддержка инфраструктуры 24/7: что за этим стоит на самом деле

Как устроена поддержка ИТ-инфраструктуры 24/7 по SLA: линии поддержки, мониторинг, бэкапы, инциденты, постмортем и ответственность подрядчика.

Время чтения: 6 мин

месяц назад

Обновлено: месяц назад

При авариях не бывает сценариев «упал сервер, подняли и разошлись». Обычно это цепочка событий: деградация диска тянет за собой сетевые задержки, те – всплеск ошибок приложения. Дальше выясняется, что бэкап вчера не дописался, в дежурном чате полно вопросов, а бизнес уже узнал о проблеме от клиентов – раньше, чем ИТ-служба успела её зафиксировать.

Поэтому фраза «поддержка 24/7» в договоре — это система ролей: кто видит инцидент первым, кто берёт управление на себя, кто пишет статусы для бизнеса, кто проверяет бэкапы и кто доведёт историю до разбора с конкретными сроками.

Рассказываем, что стоит за обещанием «круглосуточной поддержки» и на что смотреть в договоре с подрядчиком.

Почему требования к поддержке инфраструктуры растут

57% опрошенных Uptime Institute компаний оценили последний крупный сбой дороже $100 тыс., а каждый пятый — дороже $1 млн. В России один час простоя в ИТ и телекоме доходит до 21,7 млн рублей, а ущерб от кибератаки в крупной компании может быть свыше 50 млн рублей.

На этом фоне рынок ИТ-услуг и аутсорсинга продолжает расти: его оценивают в 937 млрд рублей. Всё больше ИТ-директоров работают не с одной серверной, а с гибридом из локальных площадок, облаков, филиалов и подрядчиков.

Инфраструктура усложняется, а требования к её непрерывности только растут. В России 2026 года на это влияют несколько факторов.

Распределённые инфраструктуры. 65% российских компаний называют главным приоритетом отказоустойчивость, 49% — безопасность, 41% — open source и контейнеризацию, 34% — DevOps-практики. Инфраструктура усложняется. Требования к непрерывности не снижаются.

Импортозамещение и филиалы. Головные офисы нередко воспринимают региональный узел как «маленькую копию большого кластера». На практике именно филиал оказывается площадкой, где те же решения стоят дороже, внедряются дольше и ломаются в самый неподходящий момент. Наш опыт с отечественной виртуализацией за 2022–2026 годы подтверждает: проблемой становится не гипервизор сам по себе, а операционная сложность вокруг него — резерв, хранилища, сеть, режимы обслуживания, локальная компетенция и скорость реакции.

Безопасность как часть эксплуатации. По данным «Солар», в 2025 году число DDoS-атак на российские компании выросло на 11% — до 665,3 тыс. BI.ZONE фиксирует переход от массовых примитивных атак к целевым сценариям с попытками доступа к данным и внутренней инфраструктуре. После серьёзного инцидента компаниям может требоваться 3–4 дня на возобновление критических процессов и до двух недель — на восстановление ИТ-систем. Ночная эксплуатация больше не может быть «чистой инфраструктурой» без тесной связки с ИБ и понятного сценария совместной эскалации.

Кадровый рынок. По данным hh.ru, за январь–июль 2025 года открылось 25,9 тыс. вакансий системных администраторов, 87% — для кандидатов с опытом. Резюме на рынке хватает, но инженеров, способных самостоятельно провести ночной P1 без потери контроля, найти трудно.

Что важно знать

Качественная круглосуточная поддержка начинается с архитектуры и правил эксплуатации. Если в инфраструктуре нет резервирования, понятного процесса резервного копирования, развёрнутого мониторинга, контроля изменений и управления инцидентами, дежурные инженеры это не компенсируют.
Аутсорсинг сопровождения под SLA не снимает ответственности с компании. Он её разделяет. Подрядчик управляет физическим и виртуальным слоями, прикладные нагрузки остаются зоной ответственности заказчика.
Сопровождение под SLA – не только техподдержка. Это связка нескольких ролей.
- Техподдержка – приём и решение инцидентов.
- Системное администрирование – эксплуатация платформ.
- DevOps – CI/CD, IaC и автоматизация релизов.
- SRE – надёжность, SLO/SLA.
Подрядчик должен понимать эту структуруи обсуждать её с заказчиком на старте.
Разница между тремя и четырьмя девятками ощутима. Доступность 99,90% — это 43,2 минуты простоя в месяц. Доступность 99,95% — уже 21,6 минуты. Четыре девятки (99,99%) — всего 4,32 минуты в месяц. Если бизнес не готов на простой дольше десяти минут, а SLA допускает сорок три — цель была поставлена неверно с самого начала.

Как работают линии поддержки

Первая линия работает посменно и круглосуточно: принимает сигнал, классифицирует обращение, заводит тикет, оповещает клиента и держит с ним связь..

Вторая линия тоже находится в круглосуточном контуре: решает стандартные проблемы по инструкциям или быстро эскалирует тикеты дальше.

Третья подключается к нетиповым кейсам. При необходимости собирается рабочая группа и доводит задачу до конца в любое время суток.

После стабилизации работа не заканчивается. Дальше — постмортем. Хороший разбор фиксирует не только длительность сбоя, но и масштаб последствий, корневую причину, шаги по восстановлению и конкретные действия с назначенными владельцами.

Как выглядит зрелая эксплуатация

Зрелая команда видит сервис глазами бизнеса. Поэтому мониторинг настраивается не только на CPU, память и диски, но и на ключевые бизнес-метрики.

Пять опор, на которых держится зрелая модель:

Приоритетная матрица и измеримые метрики. Приоритеты расставляются в зависимости от критичности процесса. Критичный — реакция 15 минут, менее критичный — 30 минут, некритичный — в рабочее время.
Аккуратное управление изменениями. RFC, окна изменений, выделенный дежурный на важных релизах — страховка от человеческого фактора.
Доказуемая восстанавливаемость. Бэкапы без регулярных тестов – это не защита. Нужны стратегия 3-2-1, цели RPO/RTO, репликации в резервный ЦОД, периодические тесты восстановления и отчёты. Не «куда-то копируем данные», а «регулярно убеждаемся, что их можно поднять в нужное время и в нужной последовательности».
Тренировки. Роли и сценарии эскалации отрабатываются заранее: в момент инцидента поздно выяснять, кто за что отвечает.
Работа с шумом. Современная гибридная инфраструктура генерирует тысячи алертов на один инцидент, их важно минимизировать.

Что зрелая эксплуатация даёт бизнесу, кроме бесперебойности

Сопровождение под SLA позволяет расти расти без раздувания штата пропорционально нагрузке.

Покажем на нескольких примерах из нашей практики.

Внедрение и сопровождение zVirt. В контур SLA входят мониторинг, устранение инцидентов, обновления, масштабирование, ручная донастройка под нагрузкой и администрирование СХД. Команда заказчика не отвлекается на рутину и занимается развитием сервисов, а не поддержанием их в живом состоянии.

В кейсе ЕВРАЗа сервисная модель включила мониторинг, резервное копирование и обновление платформы — в итоге время развёртывания нового рабочего места сократилось с нескольких недель до одного дня, а время устранения инцидентов на рабочих местах — втрое. Для бизнеса это другой темп найма, открытия офисов и запуска проектов.

Одна из крупнейших энергетических компаний в Сибири обратилась для решения сразу трёх проблем — увеличения вычислительных мощностей, миграции на российские платформы виртуализации и поддержки 24/7 под SLA. Это обеспечило стабильную работу отечественной ИТ-инфраструктуры без участия специалистов заказчика.

Вопросы, которые стоит задать команде или подрядчику

Если вам продают «круглосуточную поддержку под SLA», спрашивайте:

Что входит в контур поддержки? Серверы, виртуализация, СХД, сети, балансировщики, WAF, бэкапы, БД, веб-сервисы, документация, патчи, DR или только часть этого?
Где граница ответственности? Кто отвечает за хост и сеть, кто — за приложение и данные? Есть ли инструкции или только устные договорённости?
Какие реальные цели по приоритетам? Сколько минут до реакции на критичные инциденты, кто фиксирует нарушение SLA и как это отражается в отчётах?
На что настроен мониторинг? Видит ли команда только инфраструктуру — или ещё и пользовательские пути, бизнес-метрики и деградацию зависимостей?
Как регулируются изменения? Есть ли RFC, окна изменений и дежурство на критичных релизах?
Как проверяется восстанавливаемость? Как часто тестируются бэкапы, есть ли реальные RPO/RTO?
Как устроено ночное управление инцидентом? Кто владеет процессом, кто коммуницирует с бизнесом и где ведётся единая хронология событий?
Что происходит после аварии? Есть ли обязательный постмортем?
Как устроены смены? Сколько людей реально покрывают ночь, отпуск и больничные — и не держится ли вся схема на сверхурочных?

Если на половину этих вопросов ответ звучит как «обычно договариваемся по ситуации» — поддержки под SLA у вас пока нет.

С чего начинать, если нужна управляемая надёжность

Правильный старт всегда начинается с аудита инфраструктуры. Его задача — проверить, насколько инфраструктура соответствует требованиям бизнеса, найти узкие места и сформировать понятную стратегию развития.

Дальше — операционный онбординг:

NDA, экспресс-аудит, сбор доступов и CMDB,
развёртывание мониторинга и резервного копирования,
согласование регламентов по инцидентам, изменениям и эскалациям,
пилотный период.

И только после этого — выход в промышленную эксплуатацию.

Круглосуточная поддержка — это не ночной дежурный и не «сильный подрядчик». Это инженерная система: архитектура, наблюдаемость, роли, смены, процедуры и чёткое распределение ответственности между заказчиком и подрядчиком.

Если вам нужна управляемая надёжность, начните с аудита инфраструктуры. Заполните короткую форму, и наши инженеры свяжутся с вами.

Если задача шире, оставьте заявку на администрирование ИТ-инфраструктуры. Возьмём сопровождение сервисов и приложений на себя.

SLA на инфраструктуру: где заканчивается ответственность подрядчика

Предыдущая статья

152-ФЗ без капитальных затрат: когда выгоднее перенести персональные данные в защищённое облако

Следующая статья