Size: a a a

2021 July 02

AS

Andrey Shevchenko in Data Engineers
в диаграмме которую я скинул одна и та же вьюха используется дважды -_-
источник

B

BadRat in Data Engineers
Ну так это же от задачи зависит. Может задача одноразовая. А часто используемая материализованная вью - это уже витрина)
источник

A

Antony in Data Engineers
😂
источник

A

Antony in Data Engineers
на самом деле если задача большая то такое автоматом появляется)
+ спарк очень не понятно рисует стадии тяжело потом понять где конкретно джоба тормозит
источник

А

Алексей in Data Engineers
а кто что с такими планами делает? я любитель материализовать в физические таблицы
источник

А

Алексей in Data Engineers
особенно, если несколько раз 1 и тоже
источник

А

Алексей in Data Engineers
можно еще persist сделать, но чет как то реже
источник

AS

Andrey Shevchenko in Data Engineers
задача не одноразовая, это новый регулярный батч процесс.
размеры всех участвующих в процессе табличек:
fdxxx.xxx 200MiB
fdxxx.xxx 1.2GiB
fdxxx.xxx 600KiB
lzxxx.xxx 10MiB
lzxxx.xxx 6KiB
lzxxx.xxx 1.9GiB
в пике было 300 executors - 3GiB executor memory each
запущено было на 10 хостах
за 1.2 часа джоба не завершилась и ее убили

думаю из эти данных можно сделать заключение о высокой оптимальности архитектурного решения
источник

AZ

Anton Zadorozhniy in Data Engineers
Если объёмы небольшие то наверное не так страшно, в противном случае напомнить ему что это не терадата, тут думать надо!
источник

AS

Andrey Shevchenko in Data Engineers
ну я вот выше расписал что оно с общим объемом инпута в 3GiB на приличном количестве ресурсов не смогло прожевать
источник

D

Dmitry in Data Engineers
хороший момент продолжить тот разговор про vault и его джоин на джоине, джоином погоняет :)
источник

AZ

Anton Zadorozhniy in Data Engineers
Комментарий про терадату тогда уместен)
источник

NN

No Name in Data Engineers
Анкор ещё)
источник

А

Алексей in Data Engineers
вероятно, там будут простые join, где оптимизатору негде ошибиться
источник

ЕП

Евгений Погребняк... in Data Engineers
👍
источник

AZ

Anton Zadorozhniy in Data Engineers
Photon надо брать, если так уж хочется в spark api писать свой датаволт
источник

NN

No Name in Data Engineers
А вертика? Она ж вроде теперь дружит со спарком.
источник

N

Nail in Data Engineers
В зависимости от сжатия ваши 3гига в памяти легко превращаются в 10-20. Скорее всего тут был обычный перекос и все эти 1.2 часа молотил один экзекьютор с 1.5гиг реальной доступной ему памяти, а остальные отдыхали.
источник

N

Nail in Data Engineers
И это ни о чем не говорит
источник

AS

Andrey Shevchenko in Data Engineers
источник