Size: a a a

SPb Reliability Meetup

2019 January 23

K

KK in SPb Reliability Meetup
Andrey Romanov
все верно) но если SLO неверный был изначально, а SLA подписан, то без изменения SLA уже никуда не деться
Ну тогда это ошибка того, кто составлял договор , менеджер или кто там этим рулит
источник

K

KK in SPb Reliability Meetup
я к тому, что SLA же с запасом берется и сначала пробивается SLO - делаются выводы ...
источник

AR

Andrey Romanov in SPb Reliability Meetup
он составлял на основе неправильных SLO) поэтому все-таки не его ошибка
источник

AR

Andrey Romanov in SPb Reliability Meetup
ну где-то 30-50% запас для SLO конечно надо брать, тут вопрос в другом
источник

DT

Dmitry Tigrov in SPb Reliability Meetup
если девы делают г и потом это все всплывает в проде сервис аутаджами, тем самым тратится бюджет, но девы работают в режиме сперва фичи по плану, фиксы в оставшееся время, как в таком случае быть
источник

SK

Sergey 'dreik' Kolesnik in SPb Reliability Meetup
обновлять резюме
источник

AR

Andrey Romanov in SPb Reliability Meetup
к примеру полетела основная бд, на реплику не переключились, плана нормального восстановления бекапов не было - вот мы и растратили 1000% нашего error budget, и никакой запас между SLA и SLO нам не поможет
источник

SK

Sergey 'dreik' Kolesnik in SPb Reliability Meetup
если, конечно, не удаётся объяснить руководству, что так не работает
источник

AR

Andrey Romanov in SPb Reliability Meetup
Dmitry Tigrov
если девы делают г и потом это все всплывает в проде сервис аутаджами, тем самым тратится бюджет, но девы работают в режиме сперва фичи по плану, фиксы в оставшееся время, как в таком случае быть
не стоит торопиться тащить концепцию error budget в прод))) а вот использовать и допиливать внутри команд + плюс тащить знания между командами нужно уже сейчас имхо) когда эффективные менеджеры через год-два будут напирать с повсеместным внедрением модного SRE, учиться уже будет поздно и придется нарушать SLA
источник

VL

Vitaliy Levchenko in SPb Reliability Meetup
Dmitry Tigrov
что делать если кончился error budget?
фиксировать, что зафейлились, и передоговариваться с владельцем
источник

AC

Alexander 😼 Chistyakov in SPb Reliability Meetup
Dmitry Tigrov
что делать если кончился error budget?
Занять у коллег
источник

VL

Vitaliy Levchenko in SPb Reliability Meetup
т.е. ровно то же, что и при фейле проекта/срыве сроков
источник

DT

Dmitry Tigrov in SPb Reliability Meetup
т.е. инженер компании со штатом в тысячи человек (из которых всего десяток сре) должен както продвинуть мысль что все все неправильно делают типо хватит зарабатывать бешеные деньги надо тщательнее тестировать и качественне писать и перенести фокус на багфиксинг тогда падать будет реже
источник

VL

Vitaliy Levchenko in SPb Reliability Meetup
KK
Так сначала пробивается же SLO, а потом SLA
Верно ?
зависит от бизнеса. Много где SLA важнее SLO
источник

K

KK in SPb Reliability Meetup
Dmitry Tigrov
что делать если кончился error budget?
Микрокредитная компания «error budget в долг»
источник

AS

Alexander Salimonov in SPb Reliability Meetup
Технический долг потом выбивать?
источник

VL

Vitaliy Levchenko in SPb Reliability Meetup
в целом error budget — понятная метрика  для разговора с бизнесом. Т.е. не «станет лучше, но с небольшой вероятностью упадём», а в виде денег.
источник

VL

Vitaliy Levchenko in SPb Reliability Meetup
я бы не делал из этой метрики карго культ
источник

AS

Alexander Salimonov in SPb Reliability Meetup
Коллектор технического долга нужен. As a Service
источник

AR

Andrey Romanov in SPb Reliability Meetup
Vitaliy Levchenko
зависит от бизнеса. Много где SLA важнее SLO
SLA почти всегда важнее SLO, кроме разве что внутренней разработки, когда клиент твоя же компания, потому что не соблюдение это попадание на бабки. SLO это по сути просто письменные договоренности внутри компании. Другое дело, что по идеологии SLA всегда строится на основе SLO (сейчас SLO + 30-50% gap)
источник