Всем привет! Может кто подскажет какую то полезную инфу по тестированию отказоустойчивости кластеров серверов, бд?
На практике чаще всего ломаются диски и сеть.
Ещё бывает такая проблема у дисков - закончилось место (бывает, если не уследить, но на продуктиве такого не должно быть).
При отказе диска в Linux он сначала переходит в режим Read Only.
Совсем в плохом случае - вообще отсутствует.
Сымитировать такое можно перемонтировав диск во время работы сервера.
А имитировать недоступность сервера можно с помощью firewall, закрыв порт, надо только знать где закрыть - видимо на контроллере кластера.
Для Postgres клиент самостоятельно подключается к узлам, есть возможность указать несколько серверов в Connection String, для Postgres отключать надо будет на клиенте и на другом (живом) сервере.
Если бы писал методику тестирования, то протестировал бы такие случаи.
И с администраторами баз данных поговорил бы.