Size: a a a

2021 April 20

ЛЦ

Лев Царевич... in Sysadminka
Но теперь нам нужно ещё 3 такие штуки на случай отказа тех штучек
источник

ЛЦ

Лев Царевич... in Sysadminka
По 3 на каждую и так далее
источник

ЛЦ

Лев Царевич... in Sysadminka
источник

DU

Dmitriy Usachev in Sysadminka
Кстати, там система размазана по нескольким физическим серверам. Так что плейны могут дохнуть сколько угодно.

А для пожара в ЦОД и ядреного удара есть катастрофаустойчивые решения (IBM Geographically Dispersed Parallel Sysplex (GDPS))
источник

ВИ

Вадим Исаканов... in Sysadminka
Смотри, я говорю про случай, когда отказывает та самая система, которая обеспечивает отказоустойчивость
Скажем, координация между контролплейнами ломается и они начинают глючить сразу все
источник

ЛЦ

Лев Царевич... in Sysadminka
Да уж, такое администрировать..
источник

TY

Timur Yedigenov in Sysadminka
ну нет. )))
просто есть у тебя 2 штуки, и допустим на каждой из них принято разное решение....
Системе непонятно что делать.

А если таких штуки 3, то по кворуму можно принять решение
источник

TY

Timur Yedigenov in Sysadminka
Напеример CEPH рекомендует не менее 3х нод.
источник

ВИ

Вадим Исаканов... in Sysadminka
Есть пример, которые  я знаю -  mongodb
Она спроектирована как отказоустойчивая, ее узлы могут автоматически выбирать мастера при отвале любой из нод, мастера не нужно переключать руками
Но если у тебя будет постоянно флапать сеть, мастер будет переключаться туда-сюда, в процессе переключения монга не будет нормально обрабатывать запросы, и ты получишь дохлый кластер
Или если будет тупить механизм выбора мастера (хотя с таким в случае монги я не сталкивался, но это возможно, как раз про такие случаи я говорю)
источник

DU

Dmitriy Usachev in Sysadminka
То есть регрессии в софте NSK?
Ну дык надо просто не коммитить код в прод после приема веществ. Не брать в коре тим индусов-джунов. Вообще не менять ПО которое отвечает за базовые сервисы и будет счастье.
источник

ВИ

Вадим Исаканов... in Sysadminka
Это отлично, но вот пример Селектела без индусов
Понятно, что они делали опасную вещь (хотели полностью заменить внутреннюю сеть), но и без индусов все сломалось. Потому что сломалась что-то центральное, что нельзя зарезервировать, по кр мере на ходу.
источник

DU

Dmitriy Usachev in Sysadminka
Это как? Сети вообще самое что всегда можно делать на ходу.
источник

DU

Dmitriy Usachev in Sysadminka
Я сам ножницами случайно 2 нитки FC отрезал из 6 под нагрузкой биллинговой системы в сотовом операторе посреди рабдня и ничего.
источник

ВИ

Вадим Исаканов... in Sysadminka
Всю сеть опасно же менять, а они всю сеть меняли
Можно, но опасно)
Если я правильно понял, у них синхронизация данных стореджа летала через ту же сеть, через которую ходили данные к клиентам (то есть сеть стореджа не была отделена от сети передачи данных; если так, то это неправильно кнш)
Они "наживую" делали вторую сеть и сторедж переключали в нее.
источник

DU

Dmitriy Usachev in Sysadminka
Ааа.... Ну как говорит мой знакомый мотоциклист "Надо чаще с головой созваниваться!" © 😂
источник

ДЯ

Дмитрий Яр in Sysadminka
а еще извечная проблема когда мастеров становится 2
источник

ДЯ

Дмитрий Яр in Sysadminka
а чем неправильно ? легла сторадж сеть ? зачем тебе вм без рабочих стораджей ? легла рабочая сеть. зачем тебе стораджи если виратуалки недоступны?
источник

ВИ

Вадим Исаканов... in Sysadminka
Стореджу нужен гарантированный канал, там задержка в несколько мс критична
Данные могут обойтись без таких гарантий
источник

ВИ

Вадим Исаканов... in Sysadminka
Точно
источник

ДЯ

Дмитрий Яр in Sysadminka
Vlans +qos ?
источник