Size: a a a

2021 September 07

ЕГ

Евгений Глотов... in Data Engineers
Ему нужно до папки достучаться, чтобы сделать лист файлс
источник

OI

Oleg Ilinsky in Data Engineers
там данные за год
внутри партиции по дням
внутри дня ещё штук 10-12 партиций
внутри партиции файлы
источник

OI

Oleg Ilinsky in Data Engineers
источник

ЕГ

Евгений Глотов... in Data Engineers
Сколько всего в итоге партиций?
источник

ЕГ

Евгений Глотов... in Data Engineers
Овер9000?
источник

OI

Oleg Ilinsky in Data Engineers
1*280*10
ну примерно тыщи 3
но я соптимизировал! раньше было рили 9к партиций))
источник

AE

Alexey Evdokimov in Data Engineers
ну это ни о чём
источник

ЕГ

Евгений Глотов... in Data Engineers
Есть вариант читать партиции не все, а типа part_col={val1,val2,val3} ?
источник

AE

Alexey Evdokimov in Data Engineers
где-то чё-то не то происходит на драйвере?
источник

ЕГ

Евгений Глотов... in Data Engineers
Бюджетно фильтрануть
источник

OI

Oleg Ilinsky in Data Engineers
есть, конечно) просто такой вот легаси
одна из первых оптимизаций

Прост ща очень сильно просело про времени работы
источник

OI

Oleg Ilinsky in Data Engineers
да вот хз, в джобе ничего не менялось
источник

А

Алексей in Data Engineers
посмотри thread dump у драйвера на вкладке executors
источник

AE

Alexey Evdokimov in Data Engineers
^ это хороший совет
источник

AE

Alexey Evdokimov in Data Engineers
чтобы понять чё реально делает драйвер всё это время
источник

ЕГ

Евгений Глотов... in Data Engineers
А мёржсхема включён?
источник

А

Алексей in Data Engineers
еще можно попробовать flame graph построить для процесса https://github.com/brendangregg/FlameGraph https://github.com/jvm-profiling-tools/perf-map-agent
источник

OI

Oleg Ilinsky in Data Engineers
спустя час появились стеджи и план
чёт бред какой-то
источник

OI

Oleg Ilinsky in Data Engineers
у драйвера в треде вот такая красота
источник

A

Alex in Data Engineers
Это норм
источник