сейчас нет, я только погружаюсь в тему запуска pipeline ов, которые пишут аналитики
обучение пока не распределенное, pipeline ы построены на sklearn моделях, логистическая регрессия и т.п.
сейчас у меня такая концепция, есть очередь на обучение, я ее разгребаю и запускаю mlflow проект, он запускается на мощной тачке и учит модель, все складывается в mlflow, откуда при успешном обучении модель уезжает под ноги задачи, которая может эту модель как udf функцию предоставить
хочется запускать все не друг за другом, а максимально утилизировать как одну тачку, так и кластер таких машин, если он у кого то есть
сейчас у меня есть только опыт и понимание работы с yarn и java, и не очень понятно, как используя какой то workflow engine ограничить питоновский скрипт по ресурсам
т.е. есть четкое понимание, что если на этой мощной тачке моделим учить друг за другом, то все будет ок, но задач на обучение будет много и с утилизацией в любом случае надо будет что то делать
Mesos как раз придуман,чтобы максимально утилизировать кластер.