Телеграмм чат группы hadoopusers страница 3833

на самом деле если задача большая то такое автоматом появляется)
+ спарк очень не понятно рисует стадии тяжело потом понять где конкретно джоба тормозит

источник

15:05пожаловаться #4

Алексей in Data Engineers

а кто что с такими планами делает? я любитель материализовать в физические таблицы

источник

15:08пожаловаться #5

Алексей in Data Engineers

особенно, если несколько раз 1 и тоже

источник

15:08пожаловаться #6

Алексей in Data Engineers

можно еще persist сделать, но чет как то реже

источник

15:08пожаловаться #7

Andrey Shevchenko in Data Engineers

задача не одноразовая, это новый регулярный батч процесс.
размеры всех участвующих в процессе табличек:

fdxxx.xxx 200MiB
fdxxx.xxx 1.2GiB
fdxxx.xxx 600KiB
lzxxx.xxx 10MiB
lzxxx.xxx 6KiB
lzxxx.xxx 1.9GiB

в пике было 300 executors - 3GiB executor memory each
запущено было на 10 хостах
за 1.2 часа джоба не завершилась и ее убили

думаю из эти данных можно сделать заключение о высокой оптимальности архитектурного решения

источник

15:12пожаловаться #8

Anton Zadorozhniy in Data Engineers

Если объёмы небольшие то наверное не так страшно, в противном случае напомнить ему что это не терадата, тут думать надо!

источник

15:15пожаловаться #9

Andrey Shevchenko in Data Engineers

ну я вот выше расписал что оно с общим объемом инпута в 3GiB на приличном количестве ресурсов не смогло прожевать

источник

15:16пожаловаться #10

Dmitry in Data Engineers

хороший момент продолжить тот разговор про vault и его джоин на джоине, джоином погоняет :)

источник

15:25пожаловаться #11

Anton Zadorozhniy in Data Engineers

Комментарий про терадату тогда уместен)

источник

15:30пожаловаться #12

No Name in Data Engineers

Анкор ещё)

источник

15:39пожаловаться #13

Алексей in Data Engineers

вероятно, там будут простые join, где оптимизатору негде ошибиться

источник

15:44пожаловаться #14

ЕП

Евгений Погребняк... in Data Engineers

👍

источник

15:51пожаловаться #15

Anton Zadorozhniy in Data Engineers

Photon надо брать, если так уж хочется в spark api писать свой датаволт

источник

15:51пожаловаться #16

No Name in Data Engineers

А вертика? Она ж вроде теперь дружит со спарком.

источник

15:53пожаловаться #17

Nail in Data Engineers

В зависимости от сжатия ваши 3гига в памяти легко превращаются в 10-20. Скорее всего тут был обычный перекос и все эти 1.2 часа молотил один экзекьютор с 1.5гиг реальной доступной ему памяти, а остальные отдыхали.

источник

16:15пожаловаться #18

Nail in Data Engineers

И это ни о чем не говорит

источник

16:16пожаловаться #19

Andrey Shevchenko in Data Engineers

источник

16:17пожаловаться #20