Облачная инфраструктура: как правильно покупать IAAS
Решая вопрос объёма мощностей для запуска ИТ инфраструктуры в облаке, компания выбирает между:
– Сэкономить и взять ровно столько, сколько требуется
– Потратить больше и взять “с запасом”
Рассказываем, какой вариант следует выбрать и как определить резерв, чтобы не переплатить за инфраструктуру впустую.
Как это выглядит на практике
Рассмотрим гипотетическую фирму “Ёлочка”, которая производит и продаёт ёлочные игрушки на собственной онлайн-площадке. Компания решила перед праздничным сезоном перенести ИТ-инфраструктуру, в том числе 1С и Битрикс, в облако. При этом она запросила у сервис-провайдера ровно столько мощностей, сколько требовалось для запуска инфраструктуры.
В организации не учли, что нагрузка скоро вырастет — на дворе зима, а ИТ-инфраструктура работает в режиме “межсезонья”. Сервис-провайдер рекомендует зарезервировать ресурсы для масштабирования. Но «Ёлочка» игнорирует этот совет.
Уже на второй неделе декабря в техническую поддержку сайта начали приходить жалобы пользователей на то, что платформа работает медленно, загрузка занимает по 5 минут, а при попытках входа в личный кабинет сайт и вовсе не отвечает.
ИТ-отдел отправляет запрос в службу техподдержки сервис-провайдера – почему упала производительность и приложение стало работать медленнее?
Приходит ответ – заканчивается место в хранилище, нагрузка на процессоры выросла, а их количество не изменилось. Не хватает ресурсов для обработки всех запросов. Сервис-провайдер снова рекомендует обеспечить резервы под кратный рост.
В этот раз заказчик запрашивает ресурсы (CPU, RAM, Storage), но с учётом текущего потребления. То есть, добавляет необходимый минимум. Цикл повторяется снова, а ИТ-инфраструктура и дальше работает без резерва под дополнительную нагрузку.
25 декабря на сайт обратилось в 10 раз больше пользователей, чем обычно, но никто не смог совершить покупку.
Вскоре сайт “упал” и стал недоступен, базы данных – не обновились, компания потеряла критичную информацию о логистике, продажах и остатках товара на складе. При обращении в техподдержку сервис-провайдера выяснилось, что причиной коллапса стала нехватка ресурсов на облаке. Восстановление работы ИТ-инфраструктуры заняло 10 часов, за время простоя компания потеряла более 40 млн рублей выручки.
Ситуация гипотетическая, но закономерность очевидная: покупать сервис “впритык”, без учёта нагрузки – это потенциально упущенная выгода, репутационные риски, потеря критичных данных и издержки на восстановление инфраструктуры, так как:
– Бизнес узнаёт об инциденте по факту происшествия;
– Нехватка мощностей в облаке приводит к рискам доступности и производительности сервисов.
Как дополнительно обезопасить облачную инфраструктуру?
1. Внедрить систему мониторинга
Наблюдение за процессами, происходящими в облаке, позволяет собирать необходимые бизнесу параметры. Если возникнет предупреждение или ошибка, ИТ-отдел узнает об этом сразу. В результате, инцидент можно предотвратить, а не справляться с последствиями.
Какие параметры подлежат мониторингу
У каждого объекта (база данных, приложение, сервер) есть два вида показателей:
– Доступность объекта (Service Availability). Измеряется в процентах, часах, минутах, секундах в год. Например, доступность 99,95% подразумевает, что общее время простоя не должно превышать 22 минуты в месяц.
– Качество. О модели оценки качества ИТ-сервисов мы подробно рассказывали в материале по ссылке.
Для каждого объекта проводим исследование и отмечаем параметры, которые будут подлежать мониторингу. Требования к доступности и качеству сервиса закрепляются в SLA (Service Level Agreement). С метриками и формулой расчёта SLA можно ознакомиться здесь.
“Благодаря мониторингу можно избежать возникновения аварийных ситуаций. Многие недооценивают его важность.“Частые уведомления об ошибках – это спам” – распространённое ошибочное мнение. Наоборот, уведомления показывают, на что необходимо обратить внимание, что устранить и что исправить.
На рынке достаточно много различных систем мониторинга – бесплатных и платных. Какую конкретно внедрять зависит от того, какие объекты и параметры будут подлежать проверке”
– Черепанов Игорь, руководитель отдела проектов Cortel.
2. Оптимизировать работу сервиса
Чтобы оптимизировать работу сервиса, специалисты определённых направлений, например, Битрикс или 1С, проводят его комплексный аудит. Они выясняют, как и какие процессы замедляют работу веб-сервиса и отнимают наибольшее количество ресурсов.
Например, база 1С может увеличиваться в связи с тем, что лог транзакций записывается без ограничений. Новых объектов практически не создаётся, при этом действий очень много. Соответственно, лог транзакций растёт в геометрической прогрессии, а исправить это можно, выполнив 2-3 команды.
Внедрение системы мониторинга и оптимизация – эффективные инструменты для предотвращения сбоев в ИТ-инфраструктуре, однако также требуют дополнительных затрат.
Подведём итоги
При расчёте мощностей впритык, бизнес берёт на себя риск, так как остановка ИТ-инфраструктуры из-за нехватки ресурсов – вопрос времени.
Таким образом, компания сама создаёт угрозу аварии. К примеру, при формировании еженедельных и ежемесячных отчетов, которые создадут больше нагрузки. Из-за недостатка требуемых ресурсов (CPU, RAM, Storage) для полноценного функционирования ИТ-инфраструктуры, есть риск сбоя или полной остановки процессов.
В альтернативном сценарии бизнес не только обеспечивает себя всеми необходимыми ресурсами для запуска и периода адаптации, но и сразу закладывает фундамент для будущей оптимизации и масштабирования. Вместо траты времени на сбои, связанные с нехваткой мощностей, ИТ-отдел компании работает над обновлениями веб-сервисов и стабилизацией ИТ-ландшафта.
Чтобы переход и запуск ИТ-инфраструктуры в облаке прошёл корректно, необходимо знать целевую архитектуру и количество потребляемых ресурсов. На основе этих данных бизнес принимает решение об объёме мощностей (CPU, RAM, Storage) – взять больше или пойти на риск.
Мы рекомендуем брать мощности с запасом не менее 10% на случай экстренного размещения дополнительной нагрузки.
Этого достаточно для предотвращения аварий, но при этом вы не будете тратить бюджет попусту.