Война с Ираном повредила несколько дата-центров AWS: удар по мифу о надёжности multi-AZ

В начале марта иранские беспилотники повредили три дата-центра AWS в ОАЭ и Бахрейне. Инцидент затронул несколько зон доступности (Availability Zones) в рамках одного региона. Это вызвало серьёзные перебои в работе сервисов. Событие спровоцировало обсуждение в сообществе: как геополитические конфликты напрямую бьют по глобальной облачной инфраструктуре и почему архитектура multi-AZ (резервирование между разными зонами доступности) не защищает от всего.

В ночь на 1 марта иранские удары беспилотников поразили три дата-центра AWS на Ближнем Востоке — в ОАЭ и Бахрейне, расположенные в разных AZ. В официальном статусе AWS подтвердила:

В регионе ME-CENTRAL-1 (ОАЭ) две из трёх зон доступности (mec1-az2 и mec1-az3) существенно нарушены. Третья зона (mec1-az1) продолжает работать нормально, однако некоторые сервисы испытывают косвенное воздействие из-за зависимостей от пострадавших зон. В регионе ME-SOUTH-1 (Бахрейн) затронуто одно сооружение.

Хотя одна зона доступности в ОАЭ продолжала работать, регион в целом перестал функционировать нормально. Ключевые функции и базы данных, зависевшие от резервирования и мощности нескольких дата-центров, серьёзно деградировали.

По определению AWS, регион — это минимум три физически изолированные зоны доступности в одной географической локации. Зоны находятся на безопасном расстоянии друг от друга. Это нужно, чтобы стихийное бедствие не затронуло сразу несколько площадок. При этом зоны расположены в пределах 100 км для сохранения низких задержек сети. AWS заявляет, что такая архитектура защищает от «отключений электричества, ударов молнии, торнадо, землетрясений и прочего». Но эта модель до сих пор не тестировалась в зонах боевых действий.

Среди практиков ходила шутка, что для вывода из строя целого региона нужен метеорит. Несколько беспилотников оказались куда более реальной угрозой. Многие осознали, что неправильно понимали single-region развёртывания (размещение всех ресурсов в одном регионе). Amazon разослал клиентам уведомления, в том числе тем, чьи данные находились в Бахрейне. Там большинство зон доступности оставались работоспособными:

В связи с активным конфликтом мы рекомендуем клиентам с данными в регионе Бахрейн (ME-SOUTH-1) принять меры по репликации критических данных в другие регионы AWS. Инфраструктура AWS разработана с высокой устойчивостью, но учитывая неопределённость текущей ситуации, мы призываем клиентов реплицировать данные Amazon S3 из региона ME-SOUTH-1 в другой регион AWS.

Harshwardhan Choudhary, консультант по релизам и деплоям в ABN AMRO Clearing Bank, комментирует:

Это первый задокументированный боевой удар по дата-центру крупного hyperscaler’а (крупнейшего облачного провайдера) — и тревожный сигнал для каждого облачного архитектора (…) Multi-AZ — это НЕ disaster recovery (план восстановления после катастроф). Он защищает от аппаратных сбоев, а не от ракеты, попадающей в кластер зон доступности в одном городе.

Клиентам с рабочими нагрузками (workloads) на Ближнем Востоке порекомендовали активировать планы disaster recovery. Также советовали восстанавливать системы из удалённых бэкапов в других регионах и перенаправлять трафик от пострадавших площадок. Сроки полного восстановления затронутых дата-центров не названы. В официальном обращении AWS отмечает:

Даже работая над восстановлением этих сооружений, мы признаём, что продолжающийся конфликт делает общую операционную обстановку на Ближнем Востоке непредсказуемой. Мы настоятельно рекомендуем клиентам с рабочими нагрузками на Ближнем Востоке немедленно мигрировать их в альтернативные регионы AWS (…) рекомендуем рассматривать регионы AWS в США, Европе или Азиатско-Тихоокеанском регионе в зависимости от требований к задержкам и локализации данных.

Gregor Hohpe, соавтор «Enterprise Integration Patterns» и автор «The Software Architect Elevator», утверждает, что multi-cloud (использование нескольких облачных провайдеров) — не решение:

Риск региональный, а не привязанный к провайдеру. Те, кто вывел из строя ME-CENTRAL, так же легко могут вывести из строя Azure или любой другой дата-центр. Поэтому митигация — снижение региональной экспозиции, а не зависимости от конкретного вендора (…) Многие организации до сих пор не осознали, что облако требует другой операционной модели. Они по-прежнему считают, что устойчивость можно достичь через закупки или инфраструктуру.

Paul Barrett, руководитель disaster recovery в Pay10 Global в Дубае, написал об уроках сбоя AWS в ОАЭ для регулируемых организаций. Mohamed Radwan, старший облачный архитектор в T-Systems International, предупреждает:

Data residency (хранение данных в пределах страны) — это не просто лучшая практика, это закон. Перенос рабочих нагрузок в другие регионы во время кризиса может вернуть сервисы в онлайн. Но это создаёт риск вывода чувствительных данных за национальные границы.

Сторонние компании, такие как MariaDB, задокументировали, как осуществляли миграцию данных из ближневосточных регионов. Поражённым клиентам, нуждающимся в дополнительной помощи, AWS рекомендовала обращаться напрямую в службу поддержки.