99,9 процентов доступности облака. Сколько это на самом деле?
Любое облако состоит из трех базовых элементов, каждый из которых обладает собственными механизмами обеспечения отказоустойчивости, на основе которых формируется окончательный процент доступности.
Большинство облачных провайдеров, предоставляющих услугу IaaS (Infrastructure as a Service), гарантируют своим клиентам высокий уровень доступности арендуемой инфраструктуры, который обычно составляет от 99 до 99,9% в год. Это значит, что максимальное время простоя за год может составить от 87,6 до 8,76 часов. С каждым клиентом подписывается договор об уровне оказания услуг (SLA), в котором, помимо достигнутых договоренностей о доступности VI (виртуальной инфраструктуры), прописываются также обязательства сторон.
Чаще всего при несоблюдении условий такого договора облачный провайдер несет финансовую ответственность перед заказчиком, которая выражается в скидках на последующие услуги, вплоть до 100%. Но, к сожалению, это не всегда перекрывает те потери, которые несет клиент в случае простоя сервисов. Таким образом, на этапе подписания SLA необходимо понимать, насколько реальный уровень предоставляемых провайдером услуг соответствует заявленным цифрам. В этой статье мы разберем, чем обеспечиваются гарантии доступности арендуемых мощностей и на что стоит обратить внимание, оценивая обещания сервис-провайдера.
Начнем с того, что любое облако состоит из трех базовых элементов: системы виртуализации, физического оборудования и площадки, на которой все это расположено. Каждая из этих составляющих обладает собственными механизмами обеспечения отказоустойчивости, на основе которых формируется окончательный процент доступности, гарантируемый поставщиком услуг. Конечно, какая-то часть этого процента зависит от квалификации сотрудников и уровня сервис-провайдера. Для того чтобы лучше понять, как это работает на практике, давайте рассмотрим подробнее каждый из этих элементов.
Гарантии ЦОДа
Аппаратные ресурсы, используемые для построения облаков, в большинстве случаев расположены в дата-центрах, которые также называют центрами обработки данных (ЦОД). Чаще всего это специализированные отдельные здания, в которых создаются идеальные условия для размещения вычислительной техники. А также, в зависимости от схем реализации резервирования инженерных систем, гарантируется соответствующий уровень непрерывности работы. Оценка ЦОДов проводится на основании системы сертификации Tier. Она подразумевает соответствие одному из четырех уровней отказоустойчивости:
— Tier1 — на этом уровне резервирование не предусмотрено. Доступность 99,671%, или 28,8 часа простоя в год.
— Tier2 — резервируются только критические узлы. Но для ремонта и обслуживания необходима остановка работы. Доступность 99,749%, или 22 часа простоя в год.
— Tier3 — помимо резервирования критических узлов, примененная схема подразумевает возможность ремонта и обслуживания без остановки работы объекта. Доступность 99,982%, или 1,6 часа простоя в год.
— Tier4 — самый высокий уровень, который обеспечивается, по сути, постройкой второго ЦОДа внутри первого. Доступность 99,995%, или 26 минут простоя в год
Помимо резервирования питания, сетевой доступности и кондиционирования, на таких объектах реализованы системы контроля доступа, видеонаблюдения и пожаротушения.
Самая известная организация, выдающая сертификаты Tier, — Uptime Institute (UI). Процедура сертификации помимо проверки технической документации включает также прохождение эксплуатационного аудита и является действительно очень сложной и долгой. Именно по этой причине многие ЦОДы заявляют о соответствии какому-либо уровню TIER, но самого сертификата UI не имеют.
Крупные сервис-провайдеры стараются размещать свое оборудование в дата-центрах не ниже уровня TIER3, подтвержденного наличием сертификата. Но в случае, когда это невозможно, вынуждены самостоятельно проводить аудит, так как именно они отвечают перед конечным пользователем. Стоит обратить внимание на то, что гарантируемый ЦОДом уровень доступности в большинстве случаев будет выше, чем тот, который прописан в SLA между сервис-провайдером и заказчиком. Это происходит потому, что причинами перерыва в работе могут быть аппаратные ошибки оборудования, а также программные сбои гипервизора, не входящие в зону ответственности дата-центра.
Если поставщик услуги гарантирует отказоустойчивость, дублируя значения, обещаемые дата-центром, это серьезный повод запросить более детальную расшифровку всех параметров, обозначенных в SLA
Гарантии производителей оборудования
Одним из важнейших факторов, влияющих на общий уровень доступности арендуемой VI, является надежность аппаратных мощностей облачного провайдера. Разумеется, это касается не только серверов, но и систем хранения данных (СХД) и сетевого оборудования.
В разных устройствах по-разному реализованы механизмы, обеспечивающие отказоустойчивость. Например, ведущие производители СХД снабжают свои устройства не только двумя независимыми блоками питания, но также дублируют все контроллеры и сетевые интерфейсы. По сути, внутри такой системы находятся два полноценных компьютера, и при выходе из строя одного из них работа продолжится в штатном режиме. Конечно, промышленные СХД снабжены продвинутой системой мониторинга, отслеживающей малейшие изменения и сообщающей о них не только администратору, но и непосредственно сотрудникам технической поддержки производителя.
Если рассматривать серверную часть, то гарантии отказоустойчивости обычно обеспечиваются производителем, который чаще всего является и поставщиком оборудования. Серьезные игроки на рынке облачных услуг используют только серверы, прошедшие тестирование на заводах вендора. Никаких самосборных noname-серверов. Такая политика значительно увеличивает стоимость оборудования и накладывает существенные ограничения на изменения конфигурации. Так, например, в большинство серверов можно устанавливать комплектующие только того же бренда. Разумеется, производитель гарантирует высокий уровень отказоустойчивости только при соблюдении условий эксплуатации.
При работе с оборудованием, выпущенным под известным брендом, нередки случаи, когда сервис-провайдер проходит процедуру сертификации компании поставщика, подтверждая таким образом, что структура выстроена в соответствии со всеми рекомендациями best practice. Наличие подобных сертификатов является положительным знаком, свидетельствующим о зрелости облачного провайдера, а также гарантирующим высокий уровень отказоустойчивости инфраструктуры.
Гарантии производителей ПО
Построение отказоустойчивых облачных систем чаще всего реализуется на базе кластеров высокой доступности (High Availability) и высокой отказоустойчивости (Fault Tolerance) и в целом стало возможным благодаря технологии виртуализации. Именно поэтому важно обратить внимание на то, какая платформа виртуализации используется сервис-провайдером. Поставщики, предоставляющие услуги класса IaaS корпоративного уровня, используют только платные решения от ведущих мировых производителей, так как, несмотря на значительную стоимость, они обладают действительно высоким уровнем надежности. Применение подобных программных продуктов для построения облачной структуры дает, помимо мощных встроенных механизмов защиты от ошибок, возможность обращаться за квалифицированной поддержкой к производителю и решать возникающие проблемы в кратчайшие сроки.
Гарантии сервис-провайдера
Прописывая в SLA время доступности арендуемой инфраструктуры, облачный провайдер опирается на те гарантии и условия, которые предоставляют поставщики оборудования, программного обеспечения и ЦОД. Но при этом, разумеется, многое зависит от квалификации сотрудников, обеспечивающих соблюдение данных договоренностей, системных администраторов, архитекторов, сетевых инженеров. Именно поэтому многие поставщики облачных услуг заботятся о постоянном развитии своего штата, организовывая обучение сотрудников и прохождение ими сертификации в соответствующих направлениях.
Стоит обратить внимание, что сервис-провайдер в случае несоблюдения SLA теряет не только средства, но и репутацию, что для крупных игроков рынка облачных услуг может стать серьезной проблемой
Заключение
Оценить, насколько обещанные облачным провайдером показатели доступности будут соответствовать действительности, лучше до подписания договора. Сделать это можно, запросив информацию о площадке, на которой размещено оборудование, о парке используемой вычислительной техники, а также о программных продуктах, на базе которых построено само облако. При возникновении каких-либо сомнений имеет смысл попросить предоставить информацию о сертификатах сотрудников или компании в целом, а также предоставить и расшифровать формулу, по которой делается расчет максимального времени простоя. В любом случае лучше потратить время на старте проекта, чем жертвовать доступностью сервисов во время работы.