Так обновление тоже нужно тестировать, конечно, особенно для ответственных систем.
Но вообще весь финтех старается жить в обновлении без останова (или с остановом порядка минут).
Вообще, при наличии нормальных практик HA (локальный резерв, ближний георезерв, дальний георезерв) задачи обновления - это частный случай задач "переключения при сбоях". А так как датацентров с 99.999 не бывает, то переключение при сбое - это достаточно частая реальность, с которой нужно жить.
Но вот именно с этим тезисом о том, что это частный случай переключения, я и не согласен. Обновление часто безвозвратно меняет инстанс, тогда как переключение предполагает временную рассинхронизацию, но возвращение всех зеркал/реплик в один инстанс. То есть это похожая задача, но все-таки (на мой взгляд) не частный случай.
Да, конечно, это чисто практическая задача, уверен, что в большинстве вендоров, поставляющих энтерпрайз решения, светлые головы придумали способ смягчения, который, как вы и отметили, требует отказа в обслуживании или перевода в read-only на какой-то очень маленький интервал времени. И для этого даже не надо придумывать велосипед.
В остальном, как мне кажется, наш спор крутится вокруг подтверждения одних и тех же фактов, но разными словами, что создаёт иллюзию оппозиционных точек зрения 😄