Телеграмм чат группы sysadminka страница 7096

Кстати, там система размазана по нескольким физическим серверам. Так что плейны могут дохнуть сколько угодно.

А для пожара в ЦОД и ядреного удара есть катастрофаустойчивые решения (IBM Geographically Dispersed Parallel Sysplex (GDPS))

источник

11:22пожаловаться #4

ВИ

Вадим Исаканов... in Sysadminka

Смотри, я говорю про случай, когда отказывает та самая система, которая обеспечивает отказоустойчивость
Скажем, координация между контролплейнами ломается и они начинают глючить сразу все

источник

11:23пожаловаться #5

ЛЦ

Лев Царевич... in Sysadminka

Да уж, такое администрировать..

источник

11:23пожаловаться #6

Timur Yedigenov in Sysadminka

ну нет. )))
просто есть у тебя 2 штуки, и допустим на каждой из них принято разное решение....
Системе непонятно что делать.

А если таких штуки 3, то по кворуму можно принять решение

источник

11:23пожаловаться #7

Timur Yedigenov in Sysadminka

Напеример CEPH рекомендует не менее 3х нод.

источник

11:24пожаловаться #8

ВИ

Вадим Исаканов... in Sysadminka

Есть пример, которые я знаю - mongodb
Она спроектирована как отказоустойчивая, ее узлы могут автоматически выбирать мастера при отвале любой из нод, мастера не нужно переключать руками
Но если у тебя будет постоянно флапать сеть, мастер будет переключаться туда-сюда, в процессе переключения монга не будет нормально обрабатывать запросы, и ты получишь дохлый кластер
Или если будет тупить механизм выбора мастера (хотя с таким в случае монги я не сталкивался, но это возможно, как раз про такие случаи я говорю)

источник

11:25пожаловаться #9

Dmitriy Usachev in Sysadminka

То есть регрессии в софте NSK?
Ну дык надо просто не коммитить код в прод после приема веществ. Не брать в коре тим индусов-джунов. Вообще не менять ПО которое отвечает за базовые сервисы и будет счастье.

источник

11:26пожаловаться #10

ВИ

Вадим Исаканов... in Sysadminka

Это отлично, но вот пример Селектела без индусов
Понятно, что они делали опасную вещь (хотели полностью заменить внутреннюю сеть), но и без индусов все сломалось. Потому что сломалась что-то центральное, что нельзя зарезервировать, по кр мере на ходу.

источник

11:27пожаловаться #11

Dmitriy Usachev in Sysadminka

Это как? Сети вообще самое что всегда можно делать на ходу.

источник

11:29пожаловаться #12

Dmitriy Usachev in Sysadminka

Я сам ножницами случайно 2 нитки FC отрезал из 6 под нагрузкой биллинговой системы в сотовом операторе посреди рабдня и ничего.

источник

11:30пожаловаться #13

ВИ

Вадим Исаканов... in Sysadminka

Всю сеть опасно же менять, а они всю сеть меняли
Можно, но опасно)
Если я правильно понял, у них синхронизация данных стореджа летала через ту же сеть, через которую ходили данные к клиентам (то есть сеть стореджа не была отделена от сети передачи данных; если так, то это неправильно кнш)
Они "наживую" делали вторую сеть и сторедж переключали в нее.

источник

11:32пожаловаться #14

Dmitriy Usachev in Sysadminka

источник

11:35пожаловаться #15

ДЯ

Дмитрий Яр in Sysadminka

а еще извечная проблема когда мастеров становится 2

источник

11:48пожаловаться #16

ДЯ

Дмитрий Яр in Sysadminka