сложно сказать, не видя всей картины... тут уже скорее речь пойдет о каких то tradeoff'ах между мощностью доступного железа, потоком данных, архитектурой, возможностями системы. данные конечно при записи в hdfs можно пожать, если писать в orc/parquet, чем больше будет пачка данных тем лучше. все описанное немного напоминает идеальный случай для lambda архитектуры, но не уверен до конца. тем более что она не отвечает на вопрос про точный технологический стек