готовых либ много (сырых), но я сравнивал вот такую реализацию
https://github.com/cerndb/dist-keras на кластере против 1xCPU и 1xGPU. Есть еще более mature реализация в deeplearning4j, но не пробовал её.
Если есть уже большой CPU кластер, то стоит попробовать, перформанс гейн есть. Точный гейн назвать сложно, он зависит от машин/типа твоей NN.
Из минусов:
-нужно возиться с препроцессингом данных, сетапом либ, etc.
-accuracy распределенной модели будет немного ниже.