Недавно прочел про принципы
Хаос Инжиниринга, философия которого состоит в том, что отказ - это нормально: по мере масштабирования приложений некоторые их части всегда выходят из строя.
Некоторые сторонники Хаос-инжиниринга выступают за использование средств автоматизации для того, чтобы вызывать контролируемые (или случайные) сбои в производственных системах, чтобы предвидеть проблемы и повысить сопротивляемость и способность к самовосстановлению.
В соответствии с принципами, приложения и платформы должны быть спроектированы должным образом:
1. Минимизировать "радиус поражения" проблем:
- быстро распознать проблемы;
- маршрутизировать трафик на альтернативные мощности;
- гарантировать, что конечные пользователи не будут серьезно затронуты;
- дежурный персонал, не будет излишне перегружен.
2. Самовосстановление:
- распределять ресурсы в соответствии с политикой;
- автоматическое перераспределение вышедших из строя компонентов.
3. Мониторинг событий:
- запомнить все, что привело к инциденту;
- запланировать исправления.
Все вышесказанное про автоматизацию.
Насколько у вас применяются данные принципы?
У нас применяются все принципы! -💪
У нас где-то Хаос, где-то Инжиниринг!-😜
У нас только Хаос!-😏
Обсудим? Айда в чат -
https://t.me/automate_devnet#сhaos_engineering