На текущем этапе, даже при условии существования худи и айсберга, я бы не рекомендовал устраивать на хадуп кластере что-либо, кроме хранилища сырых данных и уже обработанных реплик для обучения моделек и прочего, а обработку данных лучше перенести на что-то более олап-ориентированное, какую-нибудь mpp, если мы говорим о больших данных.
Ну и жирные денормализованные витрины можно анализировать кликом/пинотом/друидом.