Комментарии 56
Да, при аварии в четверг фактически был проведён стресс-тест системы
Я так понимаю практически стресс-тесты с полной разрядкой не проводятся? В том числе и по тому что есть риск остаться с пустыми АКБ в случай чего... Из моего скромного не ИТ опыта, то, что батареи умерли обычно выясняется в ходе непланового стресс-теста, хотя мониторинг говорит что всё норм и все как раз бегут покупать батареи как физики..
Ну и с точки зрения коммуникации - наиболее целесообразно в начале говорить упрощенную полуправду, как раз чтоб избежать толкования более сложных вещей, а уже потом спокойно полный отчет.
Как-то начинашь задумываться, насколько "настоящее" резервирование при двух подстанциях на территории одного предприятия.
Как минимум они обслуживаются одной группой людей, у которой один начальник, один чеклист. Ну и уровень стресса тоже один.
Вы смотрите шире. У вас один сервер работающий в одном месте (географическом). Раньше я говорил "может прилететь метеорит" и все смеялись над примером, но понимали о чём речь. А теперь я говорю "может прилететь БПЛА" и это вполне реальная угроза.
Если вашему сервису нужна отказоустойчивость такого уровня, то просто стройте соответствующий сервис. С соответствующими бюджетами. Разные ЦОД, выбирайте не попсовый Tier-III, а Tire-IV и т.д.
А если на это нет денег, то вы должны принимать эти риски. Там много сюрпризов может всплыть. Что генерирующие мощности в регионе в принципе одни. Что земля под ЦОДом не в собственности, а в долгосрочной аренде. Что солярка в генераторах была зимняя до -20, а бахнули морозы -30 и нужна была арктическая.
Ни один ЦОД вам не даст 100% гарантию работы. А тот, кто даёт 99,9999999% он лишь берёт на себя ответственность возместить потери (обычно в деньгах), но оставляет за собой право потерять данные, а то и ваше оборудование.
И тут всё сводится к банальным деньгам. Если бюджеты вашего сервиса/проекта позволяют, вы строите мультицод и не переживаете. Если не позволяет, то переживаете.
В этом году Яндекс терял ЦОД на том, что оба ввода были отключены россетями одновременно.
Две подстанции запитаны от 2-х и более разных ВЛ? Какой класс напряжения подстанций?
Лампочка на ИБП загорается по результату теста батарей, проводящемуся автоматически раз в две недели. На короткий момент ИБП переходит на батареи и оценивает результат разряда на нагрузку. Совершенно не факт, что этой оценки будет достаточно, особенно если АКБ "плохие". Бывает с АКБ так, что напряжение на ней есть и совершенно нормальное, а нагрузку она не держит. Подключаешь к АКБ лампу на 12В мощности 50-100Вт и всё сразу становится понятно.
В целом есть два пути - или проводить контрольно-тренировочный цикл разряда-заряда АКБ, или оценивать остаточную емкость по внутреннему сопротивлению АКБ. Первое правильно делать специализированной нагрузкой-зарядником, отключив АКБ от ИБП, получив протокол измерений. Можно делать вручную, и на действующую нагрузку, но это уже не то. Второе проще, АКБ измеряется прибором типа "Кулон", масса их. Но измерения оценочны. Подобные мероприятия проводятся раз в год.
Встроенным тестам ИБП верить можно, но с осторожностью. Бывает всякое. Если лампочка на ИБП горит, то АКБ ему точно не нравится, а вот если не горит, то АКБ возможно хорошая, а возможно и нет.
Класс напряжения — 10 кВ. Запитаны от двух линий.
Завод (ещё и особо охраняемый) на линиях 10 кВ?
Я бы не предполагал какой-то особой надежности по 10 кВ. Возможно обе ТП 10 кВ включены к разным ячейкам одной и той же ПС 110 кВ, и возможно что эти ячейки даже на одной шине. Надо смотреть схему дальше, куда и как включены КЛ 10 кВ. Желательно, чтобы ТП 10 кВ питались от разных ПС 110 кВ, и те в свою очередь были включены от разных ВЛ.
Про большие UPS не скажу, но у нас стандартные офисные APC Smart UPS 420 как-то странно реагируют на последнюю партию батарей. Если изначально аккумулятора хватало бывало и на 5 лет, потом на 2, на год, то нынче на четырех UPS через месяц после замены батареи самодиагностика стала выдавать, что батарея всё. Поинтересовался у коллег - ситуация аналогичная. Но вот на складе батарей не было, а через месяц вдруг на одном UPS самодиагностика стала проходить успешно, потом и на другом. Впервые вижу такое за три десятка лет работы.
А ещё не бывает готовых решений для перевода на lifepo4 батареи? Или это почему-то плохо для предприятий? Мне когда надоела смерть свинца раз в 2 года я переделал свои ups на него.
Может, сульфатированные батареи "раскачались"? Они лежат на складах годами, никто их не проверяет, не подзаряжает. Всем на них пофигу. А потом покупатель получает то, что получает.
Я так покупал аккум для своего авто. Пришел в магаз с нагрузочной вилкой. Выбирал из фирменных "Варт". Ни один не попал стрелочкой в зеленую зону. Купил, в итоге, тот, у которого стрелочка не так бодро уходила в минус. Но ничего, сейчас вроде все ок.
Любопытные явления. Необслуживаемые АКБ поставляются с загущённым электролитом, с жидким электролитом АКБ как правило обслуживаемые. Загущение электролита производится преобразованием его в гель, добавляется некий гелеобразователь. Возможно, что гелеобразователь сменили на другой в последних партиях, поэтому АКБ так вот хитро "раскачиваются".
Также может быть, что есть некий консервант, препятствующий саморазряду и сульфатации АКБ при складском хранении и он даёт такой вот эффект.
При вводе новой АКБ в эксплуатацию можно сделать несколько циклов разряда-заряда ИБП на некритичную нагрузку типа масляного обогревателя, оценить время, сколько продержит. Один минус - ИБП надо выводить из эксплуатации, и если в нем без отключения нагрузки заменялись АКБ то потренировать АКБ таким образом не выйдет.
Вроде неплохой вариант менять внутреннее сопротивление батареек миллиомметром. Так больные батарейки хорошо видно.
Не соглашусь. Внутреннее сопротивление зависит от очень многих факторов - температуры, степени заряда, различий в химии. И от этих факторов оно может меняться в разы, а то и на порядки! Вы намеряете какое то число, но по этому числу нельзя судить ни о чем. Ну, если, конечно у вас есть большой парк одинаковых аккумуляторов, одного производителя, одного возраста, заведомо заряженных до одного уровня, то да измерением сопротивления можно попробовать вычислить негодные. А если нет - то только измерение остаточной емкости.
Поясните пожалуйста, как при описываемых вами проблемах, которые затронули как бы ограниченное количество клиентов, наш сервер оказывался длительное время вне доступа во время обеих этих аварий, но его работа (по аптайм) не прерывалась.
Что именно у вас так эффективно вылетело? Или вы еще недорасследовали?
Вроде бы там про коммутаторы еще речь была в рассказе.
В аварии в понедельник, как описано, сетевое оборудование в целом отработало штатно, так как было запитано от ИБП. Но в конкретной стойке, где отключились 4 сервера, также установлены коммутаторы, к которым подключены уже не только эти серверы. Коммутаторы отключились. Сотрудники в дата-центре переподключили их к другим ИБП, после чего потребовалось время на их загрузку, и связь постепенно восстановилась — без перезагрузки серверов. Поэтому недоступность услуг была, а аптайм серверов не прерывался.
Когда в четверг произошла длительная авария на подстанциях, несколько коммутаторов зависли. Визуально всё выглядело нормально, но связи не было. Пришлось их также перезагружать, поэтому связь отсутствовала, хотя серверы при этом оставались включенными.
Если свет моргнёт ещё раз, надо либо сутки стоять на дизеле и заряжать батареи, либо рисковать переключением с возможностью не переключиться обратно. Стандартная процедура — стоять на дизеле до безопасного заряда батарей.
(ничего не знаю про ЦОДы и электрику) Скажите, а почему нельзя заряжать батарейки от нестабильного питания от города, но не останавливать дизели? Ведь если пропадёт входное питание, то батарйки просто перестанут заряжаться, это не страшно.
В идеале батареи должны быть полностью боеготовы. Чем больше заряд - тем она выше.
Условно - кончился дизель - 15 минут тянем на ибп - дотянули до включения городских линий, или подвезли ещё топлива.
Вы разве никогда не пользовались ИБП? Он сам питается, питает нагрузку и заряжает батареи от того сетевого напряжения, что на него приходит. Это, грубо говоря, обычное напряжение 220 вольт. Оно приходит либо с подстанции либо с дизелей. Как вы себе представляете питание от дизелей, а зарядку от подстанции? На каждый ИБП подводить по 2 кабеля? А как тогда переключать батарею? Ведь дизеля тоже точка отказа, может потребоваться один выключить, другой включить. И на время переключения нагрузку держат ИБП.
Нестабильное питание от города точно убьет батареи. И довольно быстро.
Поэтому только дизели до тех пор, пока питание не стабилизируется.
Главное - дублировать паспорта. Как минимум от двух разных стран
4 сервера физических, а сколько там было виртуальных серверов?
Я просто не представляю масштаб трагедии. Мне почему-то кажется, что у компаний типа вас десяток тысяч физических серверов. И неужели я попал в ту самую десятую-сотую долю процента неудачников?
За публичность спасибо.
если фото в начале статьи живое, имхо, то аккумуляторы Дельта (как на фото), с одномерными (линейными) штрихкодами, гораздо хуже по качеству, чем без оных. старые дельты живут 6+ лет без намека на деградацию. новые помирают в течении года, как повезет.
проверять аккумуляторы, надо не лампочкой (как писали выше), лампочкой можно только убить аккумулятор, а хотя бы простым вольтметром. напряжение покоя на 12 вольтовой батарее должно быть не меньше, 12.6 вольт. если напряжение меньше, значит она деградирует. напряжение на хорошей батарее 12.8+ вольт, в зависимости от типа заряжающего устройства и логики поддержания заряда (в данном случае ИБП). но можно пойти еще дальше\проще и купить на алике тестер для батарей, который не только измеряет напряжение покоя, но проверяет на замкнутые банки, дает нагрузку и анализирует падение емкости и напряжения.
если не секрет, какие ибп используются?
Нужно мерить остаточную емкость. Вольтметр ничего не покажет. По сравнению с вольтметром, лампочка покажет больше информации. Как ей, по вашему, можно убить аккум? Разряжать до талого? Ну извините, если такой специалист не понимает что надо делать с лампочкой и аккумулятором, то и вольтметр я бы поостерегся ему в руки давать).
Нагрузочная вилка - ну да, получше лампочки, но, по сути, то же самое. Причем, вилку для слабых 7 Ач ИБП-шных аккумов еще надо поискать. Я таких не видел.
Нужно мерить остаточную емкость. Вольтметр ничего не покажет.
не спорю, но не только ее. с помощью мультиметра и небольшой нагрузки, в походных условиях, можно сделать всё.
если мерить лампочкой, то и измерение получится в лампочках)
Не соглашусь. На лампочке написана её мощность, соответственно можете посчитать ток нагрузки. Знаете емкость АКБ в Ач, знаете потребляемый ток, поделив оно на другое узнаёте длительность до разряда в часах. Полностью заряженную АКБ разряжаете на лампочку, в конце вычисленного времени она должна светиться, но потусклее. Измерение вольтметром в конце разряда должно показывать соответствующее напряжение разряженной АКБ 10,8В.
Лампочка - это не измеритель, это недорогой и доступный эквивалент нагрузки. Хотя для дефектных АКБ лампочка хороший тестер. При напряжении АКБ 12-13В в первые 30 секунд лампочка погасла - АКБ дефектная.
По-хорошему, батареи тестят 3-4 прогонами разряд/заряд. Разряжать можно на активную нагрузку, например, батарею резисторов. При этом нужно обеспечивать паспортный ток и фиксировать напряжение на батарее каждые 30-60 мин. На дефектной батарее напряжение обычно начинает быстро падать в середине цикла разряда.
Но такое тестирование - слишком дорогое удовольствие и оправдано только для таких же дорогих батарей. В случае с ИБП - не вариант, только комплект ЗИП.
Дорогое? Можно собрать на коленке простой счетчик ампер-часов из нескольких деталей и часов от жигулей. Я когда работал на тэц, там постоянно были проблемы с закупкой новых аккумов. Приходилось разбирать неисправные сборки, тестить аккумы и собирать более-менее рабочие комплекты. Вполне рабочий вариант.
Сколько рабочего времени на это нужно потратить? Нужен аккумуляторщик, ему башлять надо и не 40 рублей. А тестер купить да, недорого.
Аккумуляторщик это такой волшебный человек, который способен обслуживаемую АКБ разобрать на отдельные пластины и снова пересобрать с заменой дефектных на исправные. Ему в наших реалиях нужны специальные помещения с водой и вытяжкой, прочие специальные оснастки. На YouTube есть ролики с ремонтом АКБ в Пакистане, вот это примерно оно.
У "Бастиона" есть готовый прибор SKAT UTTV для КТЦ АКБ до 120 Ач. Сейчас 28 т.р, раньше дешевле был... Из подобных по-моему самое доступное, что есть.
Вот как раз простой вольтметр на неисправных АКБ показывает замечательное напряжение, ровно сколько надо и даже выше, проверено опытом. Измерение при нагрузке на АКБ быстро покажет её качество. Можно применять нагрузочную вилку, а у кого лишних денег на это нет - у того найдётся лампочка. :-)
С точки зрения эксплуатантов систем электропитания - а у нас их много, вот эти все "лампочка на УПС горела зелененьким" ничего о собственно состоянии АКБ не говорит.
Полноценно понять что там с батареями можно при КТЦ - цикле заряд-разряд-заряд. То есть в зависимости от модели аккумулятора и понимании его рабочего цикла можно достоверно выяснить сколько энергии он сможет отдать и в каком состоянии он находится.
На практике регулярно сталкиваемся с ситуацией (у нас номинал -48В) когда 3 аккумулятора нормальные, а один дохлый и вся группа уходит ниже напряжения отсечки через 2-3% снятия от номинальной емкости.
В случае больших ибп, где группы по 20 и более акб - шансы увидеть дохляка еще выше.
Я правильно понимаю, что вы переходили с сети на дизеля туда сюда постоянно и поэтому описываемое помирание акб в общем-то погоды не делает- еще бы разик сеть с обоих подстанций пропала- и у вас все упсы бы выключились, ибо отдали уже всё что могли? Вы просто солярку (или газ, если это гпу) очень хотели сэкономить- вот собственно и причина..
Готовьтесь к тому, что энергосистема РФ будет деградировать с каждым годом больше и больше. Советские запасы подходят к концу, специалисты бегут из отрасли, в виду низких зарплат и эффективных менеджеров. Инфраструктура стареет, а модернизации нет и не будет, пока совсем хреново не станет.
Вы, вижу, знающий человек. Научите, как готовиться?
ППКС! Слышу, бывает, матюки в адрес энергетиков от обывателей, дескать, столько мы за электричество платим, а эти бездельники баклуши бьют. На деле - 70-летние дедушки кое-как ползают по 4-метровым стремянкам, а молодняк в тик-токе сидит день напролёт.
так всё правильно, зачем за 40к рвать жопу, спину и вообще с риском вернуться домой в пакетике, если можно за те же крохи ничего не делать в теплом помещении?
зачем за 40к рвать жопу, спину и вообще с риском вернуться домой в пакетике, если можно за те же крохи ничего не делать в теплом помещении?
Так вот ты какая, трагедия общин в XXI веке!..
Про деградацию не согласен, ремонты и модернизации проводятся, ведётся новое строительство. В 90-е и начало 2000-х было вообще всё очень плохо с этими темами, а сейчас инвестпрограммы у энергетиков есть и они выполняются. Про низкие зарплаты и эффективность менеджеров полностью согласен.
Очень упрощая, клиент спросил, есть ли резервирование ИБП. Админ ответил, что нет, ни один ЦОД так не делает.
Я так и не понял что именно имел в виду админ, потому что на картинке ниже я вижу именно что двухкратное резервирование ИБП...
Есть несколько VDS на хостинге Coopertino. Уже сто раз пожалели о его выборе, так как постоянно у них там какие-то сбои, весь хостер полностью падает, даже сайт перестаёт работать. Может продолжаться несколько часов. В техподдержке отвечают - «Была авария в ЦОД». Никаких объявлений и тем более компенсаций. Поэтому такие рассказы как у вас и работа над ошибками вызывают уважение.
Получается вы используете не все комбинации ИБП и увеличением количества комбинаций можно снизить количество отключаемых серверов. Добавив всего по 1 вводу ИБП в стойку 1 и 3.
Число отказавших ИБП | 4 сервера на пару, 4 ввода | все 15 пар ИБП, до 6 вводов | 12 пар ИБП, 4 ввода
---------------------|---------------------------|-----------------------------|--------------------
1 | 0 | 0 | 0
2 | 4 | 2 | 2
3 | 8 | 6 | 6
4 | 12 | 12 | 12
5 | 16 | 18 | 20
6 | 24 | 24 | 24
Батареи давали нормальное напряжение. Но часть из них почему-то решила взять и умереть при разряде в понедельник в этих двух ИБП.
Расскажу как инженер, работавший в С***К (в том числе мы обслуживали батарейные шкафы в вашем суперсекретном заводе в Королёве), как мы проверяли АКБ перед установкой в батарейный шкаф. Никакой утвержденной корпоративной методики не существовало, в большинстве своем инженеры использовали "Кулон", который мог показать лишь откровенно битые АКБ. Например, если АКБ показывал на 2 вольта меньшее напряжение из-за отрыва одной из 6 внутренних ячеек, "Кулон" считал, что с АКБ всё ок. (Тестировать АКБ гарантированно можно только нагрузочной вилкой, но это лишние затраты времени, которые руководство не одобряло.)
Инженеры как могли экономили время, поэтому тестирование аккумуляторов выполнялось всегда на отстань и под честное слово. Тестирование собранного батарейного шкафа производилось так же, если вообще проводилось — в основном замерялось напряжение на плечах, но шкаф на нагрузку не гоняли. Опять-таки, корпоративных правил об этом не существовало, поэтому каждый инженер работал в силу своей совести и интеллекта.
Основной фронт работы заключался в фактической сдаче объекта в минимальный срок (например, 160 кВА ИБП + шкаф на 66 шт. HRL 12-270 VRLA AGM battery должны были быть собраны, протестированы, обвязаны, подключены за 1 рабочий день, хотя со всеми проверками это минимум 2, а по-хорошему 3 рабочих дня).
АКБ тестировались при отгрузке тоже на отстань. Я стремился под свои объекты самостоятельно проверять АКБ, но это было невозможно если с одного объекта ехал сразу на другой, тогда тестировал кто-то из коллег, по своей личной методике, без гарантированного результата (иногда это доверяли новичкам).
Однажды я отложил пару битых АКБ, а потом увидел, что кладовщик отгрузил их моему коллеге, и тот, не заморачиваясь, всё повез на свой объект.
Отдельная фишка была в арендованных АКБ. Компания среди прочих услуг предоставляла батарейные шкафы в аренду, аккумуляторы из них потом продавались как новые. При транспортировке из коробок выбрасывали пенопласт, аккумуляторы ставили стопкой, и страдали клеммы, со временем они начинали травить и окисляться. Поэтому если вам на объект привезли аккумуляторы в потрепанных коробках — не берите ни в коем случае!
Про момент затяжки 10 Н/м я вообще молчу! Частенько я видел, как коллеги закручивали от души, до хруста эпоксидки.
Не было никаких гайдлайнов, инструктажей, контроля качества. Только разбирались адресно с рекламациями. А это самый крупный поставщик услуг в области резервного питания!
Поэтому в одном шкафу могли запросто оказаться некондиционные, отличающиеся от общей массы аккумуляторы. Я это видел почти на каждом объекте, тестируя АКБ нагрузочной вилкой — 1-2 аккумулятора я списывал почти всегда. Я не был свидетелем и не слышал, чтобы так делал кто-то из коллег. Визуально, некондиционными были всегда чуть отличающиеся аккумуляторы — коробка со следами вскрытия, другая дата изготовления. Новые с завода АКБ всегда демонстрировали одинаковую динамику просадки и подъема напряжения на нагрузочной вилке.
Безобразие и непрофессионализм, зато дешево и эффективно, что и нужно менеджменту. А акты КТЦ если Заказчик истребует, так липу нарисуют и подпишут.
Спасибо, что написали. Познавательно. И ожидаемо, к сожалению.
Так в том и хохма, что на приёмной стороне должен быть специальный человек‑приёмщик, который будет ходить и вилкой в котлеты аккумуляторы тыкать — «тут вы мне какую‑то буйню прислали, замените». Но оптимизация такая оптимизация, а скупой, как известно...
Я наконец-то понял, как открытость может помешать — и отчёт об аварии