Доброе утро. Есть spark structured streaming джоб, который тащит из кафки. Естественно есть куча мелких файлов по результату его работы. Бороться собираюсь запуском джоба-перепаковщика по расписанию, который будет проходить по новым партициям и перепаковывать. Не подскажете good practice по уплотнению мелких файлов в файлы размера в блок, может появились какие-то встроенные механизмы в spark 2.3.4?
Друзья, а есть аналог CRISP-DM только для процессинга? Ну типа стадии обработки ingestion, cleaning, etc. Уровни стека, типа storage layer, processing layer?