Комментарии 26
Не стоило вам писать в такой язвительной форме, когда у вас нагрузки и аптайм явно хуже. Уважительней надо относиться к коллегам, "чернокнижники".
Сходу нашел в интернете много нелестных отзывов.
Хорошая схема придумана. Покупать конечно же я её не буду, ибо x10 ценник. Сделаю на bare-metal сам. /s
Ну точнее на таком уровне трат, НУЖНО нанимать своего девопса(сетевика) независимо от того, облачные там технологии или нет. И он спокойно окупается, если НЕ будет использовать это:primary_region: instances: 20 × m5.xlarge database: RDS Primary storage: S3 с cross-region replication traffic: 100%
А потом в вашем bare-metal в самый неподходящий момент вылетает критичная железяка, которой нигде нет у поставщиков в наличии...
вылетает критичная железяка, которой нигде нет у поставщиков в наличии...
... но есть в ЗИП.
Или нет
... но есть в ЗИП.
... который никто никогда не проверял [/s] =)
как показывает опыт, в ЗИП есть много чего полезного, но дохнет что-то неожиданное. (пример SSD диски в сервере HP в рейде оба с разницей в 14 секунд умерли, отдельно расследовали с сервисом HP что именно так и произошло, из хорошего диски в только чтение ушли, и удалось вытащить данные, но часто вы встречаете что бы в рейде два диска оба умерли фактически одновременно?)
Полное резервирование мало кто позволить может. Всегда хоть что-то но в одном экземпляре найдется (если мы про обычную компанию) потому и идёт бизнес в облако, перекладывая капитальные инвестиции в операционные расходы заодно.
Вообще именно в RAID это очень, очень вероятно. Скорее всего ваши SSD диски "умерли" из-за того, что количество записей на них превысило порог перехода в режим "только чтение".
А так как это RAID, количество записей на них более-менее одинаковое...
Мониторьте SMART:
177 Wear_Leveling_Count 0x0013 099 099 005 Pre-fail Always - 4
Как падает со 100% до меньше 50% - думайте о замене. По-моему, в read-only он переходит на 20%.
У меня на простейшем зеркале количество записей на оба диска в паре - практически одинаковое, различие в 4 знаке.
Ну оа же как-то у вас зарезервирована. Вот если резерв после этого дохнет, то да, печалька. Собственно для этого раньше были сервисные соглашения, а сейчас народ старается использовать что-то, что можно быстро поменять.
А вот настоящая причина xD /s

На наших продуктах кстати отразилось довольно лайтово - для нас упал AWS Systems Manager и Secrets Manager (мы там храним конфиги и сикреты), но так как мы их кешируем и никаких деплоев / перезагрузок серверов не было - все в целом работало.
Не эксперт по кубернетис в облаке, но что насчёт того, чтобы мастер-ноды разбить по 3 регионам с репликацией БД?
Падение одного региона позволит исключить неработающие инстансы, а почти все ресурсы благодаря репликам будут автоматически переключены на работающий регион
US-EAST и UK-GOV.... што?
Статья вроде как претендует на разбор, но главное так и осталось непонятным: как нерабочий health check балансировщиков вызвал неработоспособность DNS резолвера к БД.
Можно конечно пофантазировать что при статусе unhealthy триггерятся некоторые действия, но здравый смысл подсказывает что они не должны приводить к деградации
Если система health checks мониторинга не просто создаёт информационные алерты, а делает хоть что-то ещё более, то это уже потенциальная катастрофа. Кажется, тут именно тот случай.
Ответы есть у нас в постмортеме)
"Огласите весь список, пожалуйста!"(с) (цитата из старого советского кино).
Если применительно к статье - а можете сделать список аналогичных падений с начала 2025 их и наших "облачных" провайдеров, так сказать сравнить "прогнившее болото" с "цветущим садом".
Active-active multi-az уже давно не считается приемлемым для критических приложений, типа банкинга и финансов, где SLA 99.9+
Для такого SLA нужен active-active multi region, в ещё лучше cloud federation. Только вот руководство в этом не убедить, ибо дорого, а облако" никогда полностью не падает".
AWS объявила в статусе: «DNS полностью устранён»
В смысле они прибили DNS-сервера и теперь ничего не резолвится?
Тема сис руки не раскрыта. Что с левой рукой несчастного чернокнижника?
В AWS утро начинается не с кофе. Пал US-EAST-1