16 июля: когда Казнет обвалился
Скачок электропитания в городской сети стал причиной масштабного отключения сайтов.
16 июля многие казахстанские интернет-пользователи столкнулись с неработающими сайтами. Недоступными оказались такие ресурсы, как Nur.kz, Tengrinews, Zero.kz, Kolesa, Yourvision, Alfa.kz, Zero.kz, Vlast.kz, Kurs.kz, New me и некоторые другие. Оказалось, что все неработающие сайты хостятся у PS.kz. Хостинг-провайдер вывесил на своей странице уведомление о сбое.
Известно, что авария произошла приблизительно в 8:10 в дата-центре АО «Транстелеком». Причиной ее стало обесточивание части дата-центра, в котором располагаются серверы и часть сетевого оборудования компании PS.kz. «Сотрудники технического отдела и техническое руководство компании PS.kz сразу после получения сообщения об обесточивании выехали в дата-центр Транстелекома для устранения последствий. Из-за случившейся аварии в офисе „Интернет-компании PS“ также не работали телефонная связь и интернет. По этой причине служба поддержки в течение некоторого времени не могла отвечать на звонки и электронные заявки клиентов», — пояснили представители PS.kz
В 09:40 энергетиками Транстелекома проблема была устранена. По сообщению руководства АО «Транстелеком», причиной аварии стал сильный скачок электропитания в городской сети, в связи с чем произошел сбой в системе бесперебойного электропитания (комплекс UPS, работающий по схеме резервирования N+1). Так как сбой случился на участке блоков бесперебойного питания, наличие двух городских электрических вводов (основного и резервного) и резервного дизель-генератора не помогло предотвратить обесточивание.
«После устранения последствий сбоя серверы нашей компании и наших клиентов были запущены. Техническому отделу PS.kz потребовалось некоторое время для проверки каждого из серверов и для устранения неполадок в случае их наличия. На данный момент большинство сайтов, размещающихся на хостинге компании PS.kz, работают. Все дополнительные заявки, связанные с утренней аварией, наша служба поддержки будет обрабатывать в течение сегодняшнего дня», — заявили в PS.kz.
Как показали сегодняшние события, от подобных сбоев никто не застрахован, и даже наличие резервного питания не спасло ситуацию. Мы решили выяснить, как в Казахстане обстоят дела с надежностью хостинга, и обратились к активным игрокам рынка.
Николай Бабешкин, директор ТОО «Колеса»: «Аварии бывают всегда и у всех. Причины аварий разные, и все не предусмотреть. Причиной аварии, произошедшей сегодня, была ошибка в проектировании резервного электропитания в дата-центре Транстелекома. У нас нет привычки искать, кто виноват. Главное — чтобы люди причастные учились на своих ошибках и не допускали их в дальнейшем. В любом случае крупным площадкам нужно иметь резерв как минимум в двух дата-центрах. У нашей компании (Колеса, Крыша, Маркет), он есть, но переключение происходит пока в ручном режиме».
Денис Сухачев, руководитель Hoster.kz: «Прошу обратить внимание, что я никого не ругаю и обсуждать проблемы, которые могут быть в любой компании, я не планирую. Рассказывать буду больше о том, что может теоретически произойти и происходит на самом деле.
Начнем с теории: когда ваш проект — онлайн-сервис, сайт, приложение — начинает приносить деньги и когда начинают происходить какие-то простои, которые влияют на ваш кошелек, вы выбираете два пути. Первый — оставить все как есть. Ну, поругаться в соцсетях, покрыть матом техподдержку хостинга и все равно оставить все как есть. Это лень или вера в то, что все будет хорошо — у каждого свои причины. Второй — задуматься о надежности и о том, что можно и нужно сделать, сколько это будет стоить, сколько стоит простой работы вашего сайта. Избежать рисков можно, но это обходится дороже. Пока проблем не возникает и все работает... клиенты про это просто не думают.
А давайте возьмем живой пример, который сегодня не особо пострадал. Что же за мудрые люди у нас есть в Казнете? Это — один из интернет-магазинов. Они молодцы. Почему? Да потому, что пошли по второму пути после того, как их сайт пострадал. Все данные взяты из открытых источников и это не секрет, что недавно на сайт одного из казахстанских интернет-магазинов была совершена DDoS-атака, которая стоила компании десятки тысяч долларов. Получается, такая большая точка отказа — DDoS-атаки на сайт. Забивается канал, на сайт создается огромная нагрузка за счет ботов, сайт перестает работать. Какое решение? Подключить системы защиты от DDoS-атак, что сейчас и происходит. В Казахстан пришел Qrator через Kcell, и появляется техническая возможность защищаться. Да, это не для малого бизнеса, это стоит каких-то денег, но что делать, если сайт лежит? Для справки: сейчас защита от DDoS-атак одна — отключение клиента. Наши провайдеры, к сожалению, ничего не могут предложить для решения подобных проблем и клиенты должны искать решения самостоятельно.
Решения для малого бизнеса тоже есть, начинаются с 200–300 долларов в месяц и реально работают, фильтрация атак производится на зарубежных сервисах. Идем дальше — фильтрация будет, но чистый трафик нужно куда-то направлять, на сервер, который размещается в Казахстане. И тут интернет-магазин тоже подумал про возможные проблемы — разместил один сервер на площадке Hoster.KZ, а другой — на PS.KZ. Возникли проблемы, переключились с одного дата-центра на другой через настройки в DNS, которые размещаются у третьего оператора, Казахтелекома. Что, кстати, является еще одной точкой отказа — если выходят из строя DNS-сервера, сайт перестанет работать. Ну и еще одним правильным решением с их стороны является создание дополнительной копии сайта на своих локальных серверах.
Какие точки отказа у нас сейчас получились?
1. Каналы — могут просто пропасть, могут быть забиты DDoS-атакой.
2. DNS сервера — без работающего DNS сайты «продержатся» несколько часов, в зависимости от настроек.
3. Собственно сами сервера — тут уже причин для сбоя может быть немного больше.
4. Незаметно добавляется человеческий фактор, который может сломать все-все-все. И копии не создавать, и в конфигах на сети что-то не так прописать.
Сегодняшняя ситуация возникла из-за проблем с питанием. Пропало питание, сервера выключились. При включении сервера выполняется проверка дисков. Этот процесс может пройти за 5 минут, а может растянуться на сутки, и может быть потеряна информация. Чем хуже/медленнее жесткие диски на серверах, чем больше на них информации, тем дольше идет этот процесс. Отключение электричества не должно быть проблемой, бесперебойники должны протянуть до начала работы генератора».
Тахир Такабаев, директор дата-центра Ahost.kz: «PS давно работает на рынке, они зарекомендовали себя как вполне надежный хостер. Но с точки зрения надежности вообще — им, конечно же, надо иметь резервный узел. Резервировать не только энергоснабжение и каналы связи, но и инфраструктуру в целом. Это не дешевое удовольствие, но тогда они будут избавлены от сбоев такого рода.
Скачки в городских электросетях — достаточно частое явление, поэтому причина кажется вполне реальной. Бороться со скачками очень тяжело. Но, в принципе можно. Ведь современные UPS — двойного преобразования. То есть — они пропускают ток не напрямую к оборудованию, а сначала преобразуют его в постоянный, и потом уже от батарей преобразуют снова в переменный. При скачке такой UPS уходит Bypass, но оборудование защищает. В этот момент происходит автоматический перевод мощности на резервный UPS, который стоит либо в параллели, либо на втором плече питания серверов. Ведь у каждого сервера два блока питания. Поэтому для такого критически важно узла резервирования N+1 явно недостаточно. Нужно хотя бы 2N. Во избежание повторения указанных сбоев я бы рекомендовал компании резервировать не только блоки питания, не только каналы связи, но и распределять инфраструтуру. То есть, часть резервных серверов перенести в другой ЦОД, например в Павлодар. Ведь риск землетрясения в Алматы никто еще не отменял».