Отказоустойчивая система, на мой взгляд, должна иметь альтернативный канал связи, например GPRS. M2m тариф стоит копейки, по крайней мере на работе у себя используем тарифы от 0₽ (без предоплаченного пакета траффика) до 20₽ за 20 мб. Так вот суть в следующем: как только контрольное устройство "теряет" связь со своим собратом, сразу же начинает выкачивать всю необходимую информацию в облако. Также можно заставить это делать всё устройства по заданному промежутку времени. Тогда каждый прибор становится по сути автономным. Для примера: у 1С есть такая штука как распределённая информационная база. Суть в том что одна базы по заданным условиям выкачивают на сервер свои данные. И проверяют наличие информации для себя. Таким образом получаем несколько копий идентичных баз, не связанных между собой на постоянной основе. Так вот в контрольном устройстве по сути весь конфиг, но активны только те части, за которое отвечает устройство. Как только связь пропал, живая железка сливает все свои данные на облако (т.к. тоже помереть может, мало ли что происходит) и получает последние данные от отвалившихся железок. Получив данные, понимает что сдохло и пытаемся получить над этим контроль, также сообщаем всем ответственным о скорбном событии. Примерно так. Надеюсь изложил свою мысль более-менее понятно.
Вы правильно понимаете и я того мнения. Вопрос начально стоял, всречались ли на подобии пиринговых сетей реализации, что все узлы равноправны (грубо каждый имеет инфу о всей сети), чтобы при отказах сохранялась вся инфа до, во время и после события выхода из строя одного из узлов. И каждое устройство можно было бы восстановить тупой заменой платы. Вся инфа сливается с другого(-их) рабочих узлов(платок)