Всем привет. Подскажите, пожалуйста, метаданные для управлением загрузок pipeline и историю загрузок по опыту лучше хранить в отдельной СУБД или прямо в HDFS с Hive над ним. Сейчас используется Hadoop, загрузка через Spark.
лучше в отдельной базе, можно объединять например престой
хм, чё-то в гринпламе постгис какой-то сильно дремучий вообще. чуть ли не десятилетней давности, ужс
Если с GP до этого не сталкивались и опыта нет - лучше почитать и послушать знающих людей. Если что, вопросы можно тут задавать: https://t.me/greenplum_russia
когда до этого ещё дойдёт. если и будет делать, то сначала прототип на существующем велосипеде, потом уж реально подбирать чт-то для желаемого времени отклика