net0pyr22 окт 2025 в 13:01

В AWS утро начинается не с кофе. Пал US-EAST-1

Средний

9 мин

25K

Блог компании RUVDS.comAmazon Web Services * DevOps * Системное администрирование * DNS *

Аналитика

+66

Комментарии 26

valera_efremov 22 окт 2025 в 15:01

Не стоило вам писать в такой язвительной форме, когда у вас нагрузки и аптайм явно хуже. Уважительней надо относиться к коллегам, "чернокнижники".

Сходу нашел в интернете много нелестных отзывов.

n0isy 22 окт 2025 в 17:01

Хорошая схема придумана. Покупать конечно же я её не буду, ибо x10 ценник. Сделаю на bare-metal сам. /s

Ну точнее на таком уровне трат, НУЖНО нанимать своего девопса(сетевика) независимо от того, облачные там технологии или нет. И он спокойно окупается, если НЕ будет использовать это:

primary_region: instances: 20 × m5.xlarge database: RDS Primary storage: S3 с cross-region replication traffic: 100%

Tamerlan666 22 окт 2025 в 18:43

А потом в вашем bare-metal в самый неподходящий момент вылетает критичная железяка, которой нигде нет у поставщиков в наличии...

Maccimo 22 окт 2025 в 20:02

вылетает критичная железяка, которой нигде нет у поставщиков в наличии...

... но есть в ЗИП.

Tamerlan666 22 окт 2025 в 21:17

Или нет

Maccimo 23 окт 2025 в 07:25

Если ЗИП не предусмотрен, тогда это не критичная железяка.

NAI 23 окт 2025 в 11:01

... но есть в ЗИП.

... который никто никогда не проверял [/s] =)

Manguss 1 ноя 2025 в 06:11

как показывает опыт, в ЗИП есть много чего полезного, но дохнет что-то неожиданное. (пример SSD диски в сервере HP в рейде оба с разницей в 14 секунд умерли, отдельно расследовали с сервисом HP что именно так и произошло, из хорошего диски в только чтение ушли, и удалось вытащить данные, но часто вы встречаете что бы в рейде два диска оба умерли фактически одновременно?)

Полное резервирование мало кто позволить может. Всегда хоть что-то но в одном экземпляре найдется (если мы про обычную компанию) потому и идёт бизнес в облако, перекладывая капитальные инвестиции в операционные расходы заодно.

aeder 19 ноя 2025 в 07:27

Вообще именно в RAID это очень, очень вероятно. Скорее всего ваши SSD диски "умерли" из-за того, что количество записей на них превысило порог перехода в режим "только чтение".

А так как это RAID, количество записей на них более-менее одинаковое...

Мониторьте SMART:

177 Wear_Leveling_Count 0x0013 099 099 005 Pre-fail Always - 4

Как падает со 100% до меньше 50% - думайте о замене. По-моему, в read-only он переходит на 20%.

У меня на простейшем зеркале количество записей на оба диска в паре - практически одинаковое, различие в 4 знаке.

xSVPx 23 окт 2025 в 11:59

Ну оа же как-то у вас зарезервирована. Вот если резерв после этого дохнет, то да, печалька. Собственно для этого раньше были сервисные соглашения, а сейчас народ старается использовать что-то, что можно быстро поменять.

Intolerambler 14 ноя 2025 в 03:25

В компании, в которой я работал ранее, в немаленькой сети малых филиалов так и делали- вместо серваков использовали обычные ПК. Запчасти- в любом магазине в наличие.

onets 22 окт 2025 в 20:07

А вот настоящая причина xD /s

На наших продуктах кстати отразилось довольно лайтово - для нас упал AWS Systems Manager и Secrets Manager (мы там храним конфиги и сикреты), но так как мы их кешируем и никаких деплоев / перезагрузок серверов не было - все в целом работало.

EgorovDenis 23 окт 2025 в 03:44

Не эксперт по кубернетис в облаке, но что насчёт того, чтобы мастер-ноды разбить по 3 регионам с репликацией БД?

Падение одного региона позволит исключить неработающие инстансы, а почти все ресурсы благодаря репликам будут автоматически переключены на работающий регион

angapov 23 окт 2025 в 17:38

Скорость света мешает. Задержки репликации не позволяют делать надежный и быстрый мульти-мастер между регионами. Иначе бы все так делали.

alexxxst 23 окт 2025 в 07:29

US-EAST и UK-GOV.... што?

select26 23 окт 2025 в 15:22

Самые сложные зависимости — многие внутренние сервисы AWS привязаны к нему.

Chanser 23 окт 2025 в 08:16

Статья вроде как претендует на разбор, но главное так и осталось непонятным: как нерабочий health check балансировщиков вызвал неработоспособность DNS резолвера к БД.

Можно конечно пофантазировать что при статусе unhealthy триггерятся некоторые действия, но здравый смысл подсказывает что они не должны приводить к деградации

nskforward 23 окт 2025 в 09:41

Если система health checks мониторинга не просто создаёт информационные алерты, а делает хоть что-то ещё более, то это уже потенциальная катастрофа. Кажется, тут именно тот случай.

kubelet 23 окт 2025 в 11:52

Ответы есть у нас в постмортеме)

Chanser 23 окт 2025 в 17:08

Очень подробно, спасибо за перевод (особенное спасибо за отсутствие признаков ИИ в переводе) и компановку материалов, плюсанул

pshepshe 26 окт 2025 в 02:13

Да тут не признаки, тут целые куски. Указывать время PDT и Восточного Побережья (оба два, а не UTC как второе например) в формате 24 часов.

id_Alex 23 окт 2025 в 08:17

"Огласите весь список, пожалуйста!"(с) (цитата из старого советского кино).

Если применительно к статье - а можете сделать список аналогичных падений с начала 2025 их и наших "облачных" провайдеров, так сказать сравнить "прогнившее болото" с "цветущим садом".

WALKER898 23 окт 2025 в 14:10

Active-active multi-az уже давно не считается приемлемым для критических приложений, типа банкинга и финансов, где SLA 99.9+

Для такого SLA нужен active-active multi region, в ещё лучше cloud federation. Только вот руководство в этом не убедить, ибо дорого, а облако" никогда полностью не падает".

izogfif 23 окт 2025 в 17:30

AWS объявила в статусе: «DNS полностью устранён»

В смысле они прибили DNS-сервера и теперь ничего не резолвится?

leon_shtuet 23 окт 2025 в 21:04

Тема ~~сис~~ руки не раскрыта. Что с левой рукой несчастного чернокнижника?

Maccimo 24 окт 2025 в 01:59

Её сожрали нейросети.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий