Мы пилим так.
Бронзовый слой-сырые данные, наваленные в поркет hdfs из кафки и лежащие в формате кафка сообщений, партиции по времени извлечения. Серебряный слой-данные, разобранные по схемам/кейс классам в реляционный вид, поркет, партиции тоже по системному времени.
Золотой слой-какие-то производные от этих данных- агрегаты, очищенные, обогащенные и т.п., живёт в худях и партиционировано по бизнес-датам. Бриллиантовый слой у нас не получился, потому что нету терадаты. Была бы-и иридиевый тоже сделали бы.
Архитектор
@ssheremeta