Size: a a a

2021 June 05

MZ

Maxim Zadonskiy in Data Engineers
А etl каким тулзом выполняется?
источник

TC

Tasty Cake in Data Engineers
Есть от вендоров. Но если бюджет маленький, то скрипты можно самим писать
источник

TC

Tasty Cake in Data Engineers
Мы в хайв на прошлом проекте скрипты писали на баше и сиквеле. Сейчас у меня в спарк питон и сиквел
источник

D

Dmitry in Data Engineers
да никто в чате худи не внедрял, у народа только с дельтой реальный опыт.
источник

T

T in Data Engineers
@nblagodarnyy  у вас же худи?
источник

T

T in Data Engineers
Ну и вообще я бы не делал такие категоричные утверждения в чате на 2к человек
источник

TT

Tsh Tsh in Data Engineers
Много кто внедрял, просто кому то лень, а кому-то нельзя в субботу писать
источник

MZ

Maxim Zadonskiy in Data Engineers
А витрины тоже в спарке делают?
источник

МК

Михаил Королев... in Data Engineers
spark это и есть etl... "Витрины в спарке" - это как???
источник

МК

Михаил Королев... in Data Engineers
это, по-моему, совсем не так: не над строками, но над батчами. Основная идея дельталейка - обеспечить "транзакционность" в большом (не на уровне строк, как уже сделано в ORC, похоже это слишком неэффективно и не очень в больших данных нужно).
источник

MZ

Maxim Zadonskiy in Data Engineers
Я не сведущ, витрины делать в тулзе субд?
источник

МК

Михаил Королев... in Data Engineers
витрина - это таблица (черно-бело), "делать ее" - это наполнять данными, это типовая задача для spark, он ничего не хранит, он - обрабатывает, хранит HDFS
источник

MZ

Maxim Zadonskiy in Data Engineers
А проектировать новую, денормализовывать, джоины итд . Это все спарк?
источник

NN

No Name in Data Engineers
Худи уж точно не легаси не разу, он много где есть. Тот же убер, который его разработал, его юзает в своем фича сторе, и свои задачи этот формат выполняет, он считается особенно подходящим в ситуациях, когда есть множество стриминговых источников. Дельта без дельта энжн, имхо, куда менее полезна. Ну а уж про то, зачем нужен айсберг - он выполняет задачу хранения и обработки огромных датасетов с большим количеством партиций, одна из его основных фишек - умение делать листинг за константное время, а не за линейное, например. И поднимается он в кластере не сложнее, чем дельта. Худи не поднимал, но сомневаюсь, что там есть большие сложности с тем, чтобы его накатить. Насчёт insert/update/delete - тот же айсберг это умеет делать. Другое дело, что пока что он умеет это делать только на уровне файлов, но за счёт структуры метаданных он это делает достаточно быстро. Но в разработке сейчас апиха, которая будет на уровне строк эти операции выполнять.
Я бы рекомендовал не зацикливаться на дельте - они отлично пиарят свои решения в комьюнити, но они серебряной пулей не могут являться, и покрывают определенное количество кейсов при определенных условиях.
источник

МК

Михаил Королев... in Data Engineers
есть источник (где живут исходные данные), есть target (то, где будет жить результат), и то и другое - какие-то "хранилища". Процесс преобразования данных из источкника в target - это и есть задача для spark. Он под это и был спроектирован
источник

TC

Tasty Cake in Data Engineers
В хайве - я знаю только инсерты и апсерты. Интересно, хайв уже научился делать делиты и апдейты? А в дельте эти операции атомарны и идут на уровне RDD, а не датафрейме.
источник

МК

Михаил Королев... in Data Engineers
hive и spark имеют общий (на уровне исходников) SQL парсер, это одно и то же в плане SQL... Дельта - это не про RDD, это про dataframe и не про работу на уровне записей, работа на уровне батчей (но лучше завтра, сегодня уже ушел...)
источник

TC

Tasty Cake in Data Engineers
Классно. Мне нужно рассмотреть оба этих движка повнимательнее и провести типа POT. Спасибо. Вы мне прям глаза открыли.
источник

TC

Tasty Cake in Data Engineers
да, давайте завтра. или в понедельник. так лучше. все-таки на выходных надо отдыхать
источник

МК

Михаил Королев... in Data Engineers
👍
источник