Size: a a a

2021 April 19

i

inqfen in Sysadminka
Можешь в чате повершелла заказать, тому кто на повершелле пишет постоянно это меньше часа
источник

ВИ

Вадим Исаканов... in Sysadminka
Заработали мои деплои
Кст, если кому интересно
Мне нужно было деплоить артефакты сборки в AWS S3, если делать это чз докер имедж, есть оф имедж от Амазон https://docs.aws.amazon.com/cli/latest/userguide/install-cliv2-docker.html
Но мне Гитлабовский для Gitlab CI понравился раза в 3 больше)) https://docs.gitlab.com/ee/ci/cloud_deployment/
Конфиг для подключения можно прокидывать как человек через переменные в Гитлабе, сам имедж на базе убунты, т.е. хотя бы ls можно изнутри вызвать, и вообще)
источник
2021 April 20

Ю

Юрий in Sysadminka
Как же я такой срач пропустил? :)
источник

Ю

Юрий in Sysadminka
Меньшее количество промежуточного активного оборудования (в среднем). Меньше точек отказа.
источник

Ю

Юрий in Sysadminka
Такая же фигня была с новым подключением. У ЭРов продажники раскидали стоимость подключения вроде бы на два года, вместо одного, а ИС внезапно посчитали ВПН точка-точка как тариф за одно подключение х2. После этого выбор стал очевиден.
источник

Ю

Юрий in Sysadminka
Подключили к ЭРу несколько точек, на второй месяц каждую неделю отваливается центральный офис, от пары часов до рабочего дня. Из объяснений стало ясно, что Рафик неуиновин.
У ИС за пару лет два инцидента, сгоревший коммутатор где-то на районном узле поменяли за час.
источник

Ю

Юрий in Sysadminka
А, теперь понятно, что с ИС происходит в последние полгода.
источник

Ю

Юрий in Sysadminka
Все зависит от состояния сетей на доме и обслуживающих монтажников. Вот реально просто везение.
Когда приходилось самому разбираться с жалобами на домашний инет - либо кабель из кусочков (в прежние годы скрутки, теперь скотч-локи с расплетением на три сантиметра), либо плохо обжатый штекер.
Первое место в личном рейтинге - штекер без защёлки со стороны коммутатора. Нашли с третьего раза, за первые 2 вроде даже денег содрали :) абонент полгода мучался. Домру.
источник

T

TSHAWYTSCHA in Sysadminka
Переслано от Александр Худяков...
Подготовили постмортем по инциденту 16.04 в регионе ru-2 Облачной платформы.

Краткая версия

16 апреля 2021 в 06.00 (UTC+3) в результате ошибочного автоматического изменения настроек сетевых интерфейсов некоторых платформ сетевых дисков в зонах ru-2a и ru-2b виртуальные машины в них потеряли возможность пользоваться сетевыми дисками всех трёх типов. Применение новой конфигурации не было вовремя замечено. Это привело к тому, что в качестве возможной причины сбоя долгое время исследовалась ошибочная гипотеза некорректной работы сетевого оборудования. Из-за некорректно выбранного направления и допущенных в процессе ошибок, восстановительные работы заняли большое количество времени.

Всем клиентам, пострадавшим в ходе инцидента, будет выплачена компенсация.


Подробности инцидента

Общий контекст:

Зоны ru-2a и ru-2b региона Москва проходят через крупный рефакторинг архитектуры дискового хранилища. Для повышения отказоустойчивости и стабильности работы дисков мы выделяем сеть, через которую виртуальные машины общаются с сетевыми дисками, в отдельный стек коммутаторов. Эта работа состоит из двух основных частей – физическое подключение серверных платформ к новому набору сетевого оборудования и переконфигурирование сетевых интерфейсов на платформах. Основная часть работы с физическим оборудованием сейчас завершена, заканчивается перенастройка сетевых интерфейсов дисковых платформ.
Из-за сложности проводимой работы оборудование реконфигурируется в несколько этапов. Между каждым переходом подготавливается новая часть конфига для последующего применения после готовности других платформ и связанных систем.

Хронология:

06:00

Часть такого этапного конфига сетевых интерфейсов была незапланированно применена в платформах дискового кластера автоматизированной системой – без участия инженера облака и должного сопровождения. Оборудование стало полностью недоступным.

Из-за нетипичности сбоя его истинная причина была первоначально диагностирована как программно-аппаратный сбой сетевого оборудования (коммутаторов). К сожалению, из-за позднего подключения специалистов, занимающихся рефакторингом сетевого дискового хранилища, неправильность выбранного направления дебага была поздно замечена, а бóльшая часть времени ушла на сложную и затратную по времени работу с сетевым оборудованием.

В процессе этой диагностики потребовалось выполнять действия с физическими портами коммутаторов, которые также были выполнены с ошибкой, что дополнительно усложнило и затянуло исследование, и в конечном итоге привело к неработоспособности части сетевого оборудования.

08:58

К расследованию инцидента были подключена команда, ответственная за работу по рефакторингу сетевого хранилища. Была локализована и устранена проблема с некорректной конфигурацией сетевых серверных платформ дискового кластера. Однако из-за ошибочных действий с сетевым оборудованием, совершенных ранее, не удалось восстановить предыдущий конфиг коммутаторов. В итоге было принято решение переконфигурировать дисковый кластер и подключить его к резервным коммутаторам в сетевом стеке.
При этом возникла новая проблема - с сетевой доступностью хостов с виртуальными машинами, которые ранее были подключены в проблемные коммутаторы.

10:41

Кластер хранилища был переконфигурирован для работы с резервными коммутаторами в сетевом стеке, его работоспособность была восстановлена. Продолжаются попытки восстановить сетевую связность хостов, на которых запущены виртуальные машины.

12:15

После того, как не удалось восстановить сетевую связность хостов, начата миграция части виртуальных машин на здоровую часть инфраструктуры.

13:34

В результате очередной попытки восстановить работу сетевого оборудования, ранее выведенного из строя, из-за аппаратных проблем коммутатора произошла повторная потеря связности с дисковым кластером. Было установлено, что откатить неудачный реконфиг сетевого оборудования невозможно. Команда инженеров облака приняла решение выключить из работы сегмент оборудования, обслуживаемый пострадавшими коммутаторами.
источник

T

TSHAWYTSCHA in Sysadminka
Переслано от Александр Худяков...
Также было принято решение полностью эвакуировать виртуальные машины с хостов, которые были подключены к проблемному сетевому оборудованию, на резервные хосты региона, подключенные к нормально работающему сетевому оборудованию.

14:10

Подготовлена схема эвакуации виртуальных машин, началась миграция инстансов на здоровую часть инфраструктуры.

15:47

Все пострадавшие машины перемещены на новые хосты виртуализации, работоспособность региона ru-2 восстановлена.

Что исправим:

По результатам работы по разрешению инцидента мы примем следующие изменения:

- улучшим работу системы автоматического применения конфигурации – защитимся от возникновения подобных инцидентов в будущем;

- доработаем процесс реагирования и первичной диагностики на сбои, оперативно формируя многопрофильную команду - с инженером по железной инфраструктуре облака, сетевым инженером, дежурным системным администратором и технической поддержкой, чтобы как можно быстрее решить инцидент.
источник

LE

Langue E in Sysadminka
Ля
источник

LE

Langue E in Sysadminka
Диски внещние около года назад были на 2-3к дешевле
И в колво поубивались, ктото скупает для майнинга
источник

Ю

Юрий in Sysadminka
Они который год активно продают вайфай-розетки. Я как-то заинтересовался, попытался найти цену. Ни в приложении, ни на сайте нет. Годы идут, приложение обновляется. Глянул недавно - все как исстари повелось :)
Р - реклама!
источник

ВИ

Вадим Исаканов... in Sysadminka
Спасибо им за подробный отчёт, прямо череда фейлов кнчно
Один тянет за собой другое)
источник

T

TSHAWYTSCHA in Sysadminka
Аще, всегда интересно такое почитать =)
источник

AU

Alex U in Sysadminka
Для этого термин есть - failure cascade
источник

ВИ

Вадим Исаканов... in Sysadminka
Есть такая мысль про большие отказоустойчивые системы
Они спроектированы быть отказоустойчивыми, каждый элемент зарезервирован, но все это работает только до тех пор, пока сама система работает
Когда ломается система, как в случае Селектел, отказоустойчивость и масштабируемость работают во вред, более простая система была бы восстановлена быстрее
источник

AU

Alex U in Sysadminka
метлу починить проще пылесоса
источник

ЛЦ

Лев Царевич... in Sysadminka
И вот так постоянно: у всего есть и плюсы, и минусы. Где та самая идеальная система, которая и сама запустится, и сама восстановится, и даже кофе нальет?
источник

AU

Alex U in Sysadminka
в таких системах люди не нужны, поэтому про них никто не знает.
источник