Size: a a a

2021 December 10

t

tsla in Data Engineers
эт получается что всемто hdfs можно в с3 заливать даже даги?
источник

t

tsla in Data Engineers
нашли какие нить доки или блоги в этом направлений?
мне очень интересно
источник

ЕГ

Евгений Глотов... in Data Engineers
Я ещё пока совсем не копал
источник

OK

Oleg K in Data Engineers
А зачем даги в s3? О_о
источник

M

Mikhail in Data Engineers
источник

t

tsla in Data Engineers
ну а где даги хранить?
источник

OK

Oleg K in Data Engineers
В гите
источник

t

tsla in Data Engineers
но я иногда их перезаливаю
источник

OK

Oleg K in Data Engineers
Git-sync сайдкар
источник

ЕГ

Евгений Глотов... in Data Engineers
Гит синк топ
источник

ЕГ

Евгений Глотов... in Data Engineers
Если он не упал
источник

ЕГ

Евгений Глотов... in Data Engineers
источник

OK

Oleg K in Data Engineers
Там всё достаточно просто
Спарк с кубером в оф доке или просто гуглить рецепты
S3 почитать про s3-select, посмотреть на alluxio
Метастор в зависимости от облака, glue data catalog или hive metastore или еще чего
источник

t

tsla in Data Engineers
источник

k

kvadratura in Data Engineers
ни слова про объемы даты / траффик / к-во юзеров этой клауд нэйтив-кост эффектив. в реальности это все поднять под траффик существенный - работы на год для команды человек 5

🤔 пост - самореклама, но в целом как arch overview вполне сойдет
источник

k

kvadratura in Data Engineers
PoC и правда вполне можно за неделю осилить, если уже опыт есть с частью этой солянки сборной
источник

k

kvadratura in Data Engineers
один престо настраивать для более-менее сложного workload - будет почти full-time работа.

кроме того, непонятно, как эта platform делает data ingestion
источник

k

kvadratura in Data Engineers
в общем, я разворчался, извините
источник

ЕГ

Евгений Глотов... in Data Engineers
Это неделя полных рабочих дней, или неделя по паре часов с 3 до 5 утра?)
источник

ЕГ

Евгений Глотов... in Data Engineers
Ну типа поднять дома кубер, минио/цеф, там спарк
источник