Давно не было в этом чате тупых вопросов.
Есть вопрос по спарку. Представьте что есть цепочка из тридцати модулей и они сохраняют промежуточные результаты в хдфс. По сути их цель - это обработать батч и выдать результат.
Сейчас эта цепочка аппликейшенов с промежуточными записью\чтением отрабатывает за 2 часа.
Есть большое предположение, что если убрать лишних 30 запись\чтение на HDD, то скорость пайплана возрастет.
Но такое можно достичь только объединением в один аппликейшн. Или есть еще какие-то варианты?
Как хранить в памяти результат и не скидывать на диск... И мб шарить между приложениями)
Объединять большую бизнес логику в одном приложении тоже не хочется... Сложно будет дебажить..
...
Понимаю что пишу треш, но вы, наверно, поняли в чем суть...