Обновить

Комментарии 26

Не стоило вам писать в такой язвительной форме, когда у вас нагрузки и аптайм явно хуже. Уважительней надо относиться к коллегам, "чернокнижники".

Сходу нашел в интернете много нелестных отзывов.

Хорошая схема придумана. Покупать конечно же я её не буду, ибо x10 ценник. Сделаю на bare-metal сам. /s

Ну точнее на таком уровне трат, НУЖНО нанимать своего девопса(сетевика) независимо от того, облачные там технологии или нет. И он спокойно окупается, если НЕ будет использовать это:

primary_region: instances: 20 × m5.xlarge database: RDS Primary storage: S3 с cross-region replication traffic: 100%

А потом в вашем bare-metal в самый неподходящий момент вылетает критичная железяка, которой нигде нет у поставщиков в наличии...

вылетает критичная железяка, которой нигде нет у поставщиков в наличии...

... но есть в ЗИП.

Или нет

Если ЗИП не предусмотрен, тогда это не критичная железяка.

... но есть в ЗИП.

... который никто никогда не проверял [/s] =)

как показывает опыт, в ЗИП есть много чего полезного, но дохнет что-то неожиданное. (пример SSD диски в сервере HP в рейде оба с разницей в 14 секунд умерли, отдельно расследовали с сервисом HP что именно так и произошло, из хорошего диски в только чтение ушли, и удалось вытащить данные, но часто вы встречаете что бы в рейде два диска оба умерли фактически одновременно?)

Полное резервирование мало кто позволить может. Всегда хоть что-то но в одном экземпляре найдется (если мы про обычную компанию) потому и идёт бизнес в облако, перекладывая капитальные инвестиции в операционные расходы заодно.

Вообще именно в RAID это очень, очень вероятно. Скорее всего ваши SSD диски "умерли" из-за того, что количество записей на них превысило порог перехода в режим "только чтение".

А так как это RAID, количество записей на них более-менее одинаковое...

Мониторьте SMART:

177 Wear_Leveling_Count 0x0013 099 099 005 Pre-fail Always - 4

Как падает со 100% до меньше 50% - думайте о замене. По-моему, в read-only он переходит на 20%.

У меня на простейшем зеркале количество записей на оба диска в паре - практически одинаковое, различие в 4 знаке.

Ну оа же как-то у вас зарезервирована. Вот если резерв после этого дохнет, то да, печалька. Собственно для этого раньше были сервисные соглашения, а сейчас народ старается использовать что-то, что можно быстро поменять.

В компании, в которой я работал ранее, в немаленькой сети малых филиалов так и делали- вместо серваков использовали обычные ПК. Запчасти- в любом магазине в наличие.

А вот настоящая причина xD /s

На наших продуктах кстати отразилось довольно лайтово - для нас упал AWS Systems Manager и Secrets Manager (мы там храним конфиги и сикреты), но так как мы их кешируем и никаких деплоев / перезагрузок серверов не было - все в целом работало.

Не эксперт по кубернетис в облаке, но что насчёт того, чтобы мастер-ноды разбить по 3 регионам с репликацией БД?

Падение одного региона позволит исключить неработающие инстансы, а почти все ресурсы благодаря репликам будут автоматически переключены на работающий регион

Скорость света мешает. Задержки репликации не позволяют делать надежный и быстрый мульти-мастер между регионами. Иначе бы все так делали.

US-EAST и UK-GOV.... што?

Самые сложные зависимости — многие внутренние сервисы AWS привязаны к нему.

Статья вроде как претендует на разбор, но главное так и осталось непонятным: как нерабочий health check балансировщиков вызвал неработоспособность DNS резолвера к БД.

Можно конечно пофантазировать что при статусе unhealthy триггерятся некоторые действия, но здравый смысл подсказывает что они не должны приводить к деградации

Если система health checks мониторинга не просто создаёт информационные алерты, а делает хоть что-то ещё более, то это уже потенциальная катастрофа. Кажется, тут именно тот случай.

Ответы есть у нас в постмортеме)

Очень подробно, спасибо за перевод (особенное спасибо за отсутствие признаков ИИ в переводе) и компановку материалов, плюсанул

Да тут не признаки, тут целые куски. Указывать время PDT и Восточного Побережья (оба два, а не UTC как второе например) в формате 24 часов.

"Огласите весь список, пожалуйста!"(с) (цитата из старого советского кино).

Если применительно к статье - а можете сделать список аналогичных падений с начала 2025 их и наших "облачных" провайдеров, так сказать сравнить "прогнившее болото" с "цветущим садом".

Active-active multi-az уже давно не считается приемлемым для критических приложений, типа банкинга и финансов, где SLA 99.9+

Для такого SLA нужен active-active multi region, в ещё лучше cloud federation. Только вот руководство в этом не убедить, ибо дорого, а облако" никогда полностью не падает".

AWS объявила в статусе: «DNS полностью устранён»

В смысле они прибили DNS-сервера и теперь ничего не резолвится?

Тема сис руки не раскрыта. Что с левой рукой несчастного чернокнижника?

Её сожрали нейросети.

Зарегистрируйтесь на Хабре, чтобы оставить комментарий

Информация

Сайт
ruvds.com
Дата регистрации
Дата основания
Численность
11–30 человек
Местоположение
Россия
Представитель
ruvds