То связь с другим сервисом отвалится. То нода целиком отвалится, смотришь логи, находишь незакрытое issue от 2014 года (образно). То сервисы перестают вставать по какой то причине.
У меня правило было, если за 15 минут мне не удалось восстановить кластер, то я его за 10 минут убиваю, создаю новый, добавляю ноды и заготовленным 1 скриптом восстанавливаю все сервисы. Такое себе в общем )