Size: a a a

2021 May 19

V

Vladislav Gotsulyak in Data Engineers
+
источник

AB

Anatoly B in Data Engineers
salting тема, на YT регулярно не влезал в джобы, звучит полезно
источник

ЕГ

Евгений Глотов... in Data Engineers
Пайспарк пандас юдф
источник

V

Vladislav Gotsulyak in Data Engineers
👍🏻
источник

AB

Anatoly B in Data Engineers
👍всем спасибо, есть над чем подумать)
источник

A

Anton in Data Engineers
нашел предполоджение, что его через докер ставят - попробуем наверное с этого начать
источник

A

Anton in Data Engineers
уже не хватает его - много процессов, код на питоне - очень не удобно администрировать становится
источник

A

Anton in Data Engineers
информатики нет)
источник

A

Anton in Data Engineers
airflow приглянулся своей красотой и опенсорсностью)
источник

A

Anton in Data Engineers
такое тоже находил - судя по всему тоже буду рассматривать как вариант - пробовать ставить
источник

T

T in Data Engineers
Дошел, у них кстати самая приятная дока из всех 3х
источник

T

T in Data Engineers
И презенташки отличные от уберевцев, намного интересней чем у дельты, имхо
источник

АР

Андрей Романов... in Data Engineers
а вы случаем не будете статью с сравнением форматов делать?
источник

АР

Андрей Романов... in Data Engineers
было бы полезно с актуальными метриками, так сказать
источник

T

T in Data Engineers
Если до бечмарков дойдет попрошу ребят в блоге компании написать и скину сюда. Без бечмарков таких статей уже достаточно много
источник

АР

Андрей Романов... in Data Engineers
спасибо!
источник

AZ

Anton Zadorozhniy in Data Engineers
Айсберг пока ставит функциональность и корректность в приоритет, без merge-on-read фактически нет работающей потокового upsert (и вообще потоковая запись пока в зачаточном виде, не надо его использовать для этого)
источник

AZ

Anton Zadorozhniy in Data Engineers
я видел такую логику:
- если датабрикс - дельта
- если нужна потоковая запись и апсерт - худи
- для больших (объем и номенклатура) даталейков - айсберг
источник

T

T in Data Engineers
О я вчера точно к тому же выводу пришел
источник

AZ

Anton Zadorozhniy in Data Engineers
ну и плюс айсберг потихоньку получает хорошую поддержку AWS, уже Glue и Athena с ним работают, у Google в Dataproc он есть в образе (дельта там тоже есть, но худи они выкинули)
источник