Телеграмм чат группы sysadminka страница 7094

Size: a a a

Sysadminka

650 membersпожаловаться на группу

2021 April 19

inqfen in Sysadminka

Можешь в чате повершелла заказать, тому кто на повершелле пишет постоянно это меньше часа

источник

21:22пожаловаться #1

ВИ

Вадим Исаканов... in Sysadminka

Заработали мои деплои
Кст, если кому интересно
Мне нужно было деплоить артефакты сборки в AWS S3, если делать это чз докер имедж, есть оф имедж от Амазон https://docs.aws.amazon.com/cli/latest/userguide/install-cliv2-docker.html
Но мне Гитлабовский для Gitlab CI понравился раза в 3 больше)) https://docs.gitlab.com/ee/ci/cloud_deployment/
Конфиг для подключения можно прокидывать как человек через переменные в Гитлабе, сам имедж на базе убунты, т.е. хотя бы ls можно изнутри вызвать, и вообще)

Amazon

Using the official AWS CLI version 2 Docker image - AWS Command Line Interface

This topic describes how to run, version control, and configure the AWS CLI version 2 on Docker. For more information on how to use Docker, see Docker's documentation .

источник

23:15пожаловаться #2

2021 April 20

Юрий in Sysadminka

Как же я такой срач пропустил? :)

источник

05:29пожаловаться #3

Юрий in Sysadminka

Меньшее количество промежуточного активного оборудования (в среднем). Меньше точек отказа.

источник

05:31пожаловаться #4

Юрий in Sysadminka

Такая же фигня была с новым подключением. У ЭРов продажники раскидали стоимость подключения вроде бы на два года, вместо одного, а ИС внезапно посчитали ВПН точка-точка как тариф за одно подключение х2. После этого выбор стал очевиден.

источник

05:39пожаловаться #5

Юрий in Sysadminka

Подключили к ЭРу несколько точек, на второй месяц каждую неделю отваливается центральный офис, от пары часов до рабочего дня. Из объяснений стало ясно, что Рафик неуиновин.
У ИС за пару лет два инцидента, сгоревший коммутатор где-то на районном узле поменяли за час.

источник

05:44пожаловаться #6

Юрий in Sysadminka

А, теперь понятно, что с ИС происходит в последние полгода.

источник

05:45пожаловаться #7

Юрий in Sysadminka

Все зависит от состояния сетей на доме и обслуживающих монтажников. Вот реально просто везение.
Когда приходилось самому разбираться с жалобами на домашний инет - либо кабель из кусочков (в прежние годы скрутки, теперь скотч-локи с расплетением на три сантиметра), либо плохо обжатый штекер.
Первое место в личном рейтинге - штекер без защёлки со стороны коммутатора. Нашли с третьего раза, за первые 2 вроде даже денег содрали :) абонент полгода мучался. Домру.

источник

05:54пожаловаться #8

TSHAWYTSCHA in Sysadminka

Переслано от Александр Худяков...

Подготовили постмортем по инциденту 16.04 в регионе ru-2 Облачной платформы.

Краткая версия

16 апреля 2021 в 06.00 (UTC+3) в результате ошибочного автоматического изменения настроек сетевых интерфейсов некоторых платформ сетевых дисков в зонах ru-2a и ru-2b виртуальные машины в них потеряли возможность пользоваться сетевыми дисками всех трёх типов. Применение новой конфигурации не было вовремя замечено. Это привело к тому, что в качестве возможной причины сбоя долгое время исследовалась ошибочная гипотеза некорректной работы сетевого оборудования. Из-за некорректно выбранного направления и допущенных в процессе ошибок, восстановительные работы заняли большое количество времени.

Всем клиентам, пострадавшим в ходе инцидента, будет выплачена компенсация.

Подробности инцидента

Общий контекст:

Зоны ru-2a и ru-2b региона Москва проходят через крупный рефакторинг архитектуры дискового хранилища. Для повышения отказоустойчивости и стабильности работы дисков мы выделяем сеть, через которую виртуальные машины общаются с сетевыми дисками, в отдельный стек коммутаторов. Эта работа состоит из двух основных частей – физическое подключение серверных платформ к новому набору сетевого оборудования и переконфигурирование сетевых интерфейсов на платформах. Основная часть работы с физическим оборудованием сейчас завершена, заканчивается перенастройка сетевых интерфейсов дисковых платформ.
Из-за сложности проводимой работы оборудование реконфигурируется в несколько этапов. Между каждым переходом подготавливается новая часть конфига для последующего применения после готовности других платформ и связанных систем.

Хронология:

06:00

Часть такого этапного конфига сетевых интерфейсов была незапланированно применена в платформах дискового кластера автоматизированной системой – без участия инженера облака и должного сопровождения. Оборудование стало полностью недоступным.

Из-за нетипичности сбоя его истинная причина была первоначально диагностирована как программно-аппаратный сбой сетевого оборудования (коммутаторов). К сожалению, из-за позднего подключения специалистов, занимающихся рефакторингом сетевого дискового хранилища, неправильность выбранного направления дебага была поздно замечена, а бóльшая часть времени ушла на сложную и затратную по времени работу с сетевым оборудованием.

В процессе этой диагностики потребовалось выполнять действия с физическими портами коммутаторов, которые также были выполнены с ошибкой, что дополнительно усложнило и затянуло исследование, и в конечном итоге привело к неработоспособности части сетевого оборудования.

08:58

К расследованию инцидента были подключена команда, ответственная за работу по рефакторингу сетевого хранилища. Была локализована и устранена проблема с некорректной конфигурацией сетевых серверных платформ дискового кластера. Однако из-за ошибочных действий с сетевым оборудованием, совершенных ранее, не удалось восстановить предыдущий конфиг коммутаторов. В итоге было принято решение переконфигурировать дисковый кластер и подключить его к резервным коммутаторам в сетевом стеке.
При этом возникла новая проблема - с сетевой доступностью хостов с виртуальными машинами, которые ранее были подключены в проблемные коммутаторы.

10:41

Кластер хранилища был переконфигурирован для работы с резервными коммутаторами в сетевом стеке, его работоспособность была восстановлена. Продолжаются попытки восстановить сетевую связность хостов, на которых запущены виртуальные машины.

12:15

После того, как не удалось восстановить сетевую связность хостов, начата миграция части виртуальных машин на здоровую часть инфраструктуры.

13:34

В результате очередной попытки восстановить работу сетевого оборудования, ранее выведенного из строя, из-за аппаратных проблем коммутатора произошла повторная потеря связности с дисковым кластером. Было установлено, что откатить неудачный реконфиг сетевого оборудования невозможно. Команда инженеров облака приняла решение выключить из работы сегмент оборудования, обслуживаемый пострадавшими коммутаторами.

источник

06:43пожаловаться #9

TSHAWYTSCHA in Sysadminka

Переслано от Александр Худяков...

Также было принято решение полностью эвакуировать виртуальные машины с хостов, которые были подключены к проблемному сетевому оборудованию, на резервные хосты региона, подключенные к нормально работающему сетевому оборудованию.

14:10

Подготовлена схема эвакуации виртуальных машин, началась миграция инстансов на здоровую часть инфраструктуры.

15:47

Все пострадавшие машины перемещены на новые хосты виртуализации, работоспособность региона ru-2 восстановлена.

Что исправим:

По результатам работы по разрешению инцидента мы примем следующие изменения:

- улучшим работу системы автоматического применения конфигурации – защитимся от возникновения подобных инцидентов в будущем;

- доработаем процесс реагирования и первичной диагностики на сбои, оперативно формируя многопрофильную команду - с инженером по железной инфраструктуре облака, сетевым инженером, дежурным системным администратором и технической поддержкой, чтобы как можно быстрее решить инцидент.

источник

06:43пожаловаться #10

Langue E in Sysadminka

Ля

источник

06:49пожаловаться #11

Langue E in Sysadminka

Диски внещние около года назад были на 2-3к дешевле
И в колво поубивались, ктото скупает для майнинга

источник

06:50пожаловаться #12

Юрий in Sysadminka

Они который год активно продают вайфай-розетки. Я как-то заинтересовался, попытался найти цену. Ни в приложении, ни на сайте нет. Годы идут, приложение обновляется. Глянул недавно - все как исстари повелось :)
Р - реклама!

источник

07:07пожаловаться #13

ВИ

Вадим Исаканов... in Sysadminka

Спасибо им за подробный отчёт, прямо череда фейлов кнчно
Один тянет за собой другое)

источник

09:36пожаловаться #14

TSHAWYTSCHA in Sysadminka

Аще, всегда интересно такое почитать =)

источник

09:36пожаловаться #15

Alex U in Sysadminka

Для этого термин есть - failure cascade

источник

09:58пожаловаться #16

ВИ

Вадим Исаканов... in Sysadminka

Есть такая мысль про большие отказоустойчивые системы
Они спроектированы быть отказоустойчивыми, каждый элемент зарезервирован, но все это работает только до тех пор, пока сама система работает
Когда ломается система, как в случае Селектел, отказоустойчивость и масштабируемость работают во вред, более простая система была бы восстановлена быстрее

источник

10:34пожаловаться #17

Alex U in Sysadminka

метлу починить проще пылесоса

источник

10:34пожаловаться #18

ЛЦ

Лев Царевич... in Sysadminka

И вот так постоянно: у всего есть и плюсы, и минусы. Где та самая идеальная система, которая и сама запустится, и сама восстановится, и даже кофе нальет?

источник

10:36пожаловаться #19

Alex U in Sysadminka

в таких системах люди не нужны, поэтому про них никто не знает.

источник

10:36пожаловаться #20