Телеграмм чат группы hadoopusers страница 3740

это, по-моему, совсем не так: не над строками, но над батчами. Основная идея дельталейка - обеспечить "транзакционность" в большом (не на уровне строк, как уже сделано в ORC, похоже это слишком неэффективно и не очень в больших данных нужно).

источник

19:18пожаловаться #10

Maxim Zadonskiy in Data Engineers

Я не сведущ, витрины делать в тулзе субд?

источник

19:20пожаловаться #11

МК

Михаил Королев... in Data Engineers

витрина - это таблица (черно-бело), "делать ее" - это наполнять данными, это типовая задача для spark, он ничего не хранит, он - обрабатывает, хранит HDFS

источник

19:22пожаловаться #12

Maxim Zadonskiy in Data Engineers

А проектировать новую, денормализовывать, джоины итд . Это все спарк?

источник

19:25пожаловаться #13

No Name in Data Engineers

Худи уж точно не легаси не разу, он много где есть. Тот же убер, который его разработал, его юзает в своем фича сторе, и свои задачи этот формат выполняет, он считается особенно подходящим в ситуациях, когда есть множество стриминговых источников. Дельта без дельта энжн, имхо, куда менее полезна. Ну а уж про то, зачем нужен айсберг - он выполняет задачу хранения и обработки огромных датасетов с большим количеством партиций, одна из его основных фишек - умение делать листинг за константное время, а не за линейное, например. И поднимается он в кластере не сложнее, чем дельта. Худи не поднимал, но сомневаюсь, что там есть большие сложности с тем, чтобы его накатить. Насчёт insert/update/delete - тот же айсберг это умеет делать. Другое дело, что пока что он умеет это делать только на уровне файлов, но за счёт структуры метаданных он это делает достаточно быстро. Но в разработке сейчас апиха, которая будет на уровне строк эти операции выполнять.
Я бы рекомендовал не зацикливаться на дельте - они отлично пиарят свои решения в комьюнити, но они серебряной пулей не могут являться, и покрывают определенное количество кейсов при определенных условиях.

источник

19:26пожаловаться #14

МК

Михаил Королев... in Data Engineers

есть источник (где живут исходные данные), есть target (то, где будет жить результат), и то и другое - какие-то "хранилища". Процесс преобразования данных из источкника в target - это и есть задача для spark. Он под это и был спроектирован

источник

19:27пожаловаться #15

Tasty Cake in Data Engineers

В хайве - я знаю только инсерты и апсерты. Интересно, хайв уже научился делать делиты и апдейты? А в дельте эти операции атомарны и идут на уровне RDD, а не датафрейме.

источник

20:25пожаловаться #16

МК

Михаил Королев... in Data Engineers

hive и spark имеют общий (на уровне исходников) SQL парсер, это одно и то же в плане SQL... Дельта - это не про RDD, это про dataframe и не про работу на уровне записей, работа на уровне батчей (но лучше завтра, сегодня уже ушел...)

источник

20:27пожаловаться #17

Tasty Cake in Data Engineers

Классно. Мне нужно рассмотреть оба этих движка повнимательнее и провести типа POT. Спасибо. Вы мне прям глаза открыли.

источник

20:27пожаловаться #18

Tasty Cake in Data Engineers

да, давайте завтра. или в понедельник. так лучше. все-таки на выходных надо отдыхать

источник

20:28пожаловаться #19

МК

Михаил Королев... in Data Engineers

👍

источник

20:28пожаловаться #20