Size: a a a

2019 November 28

ЕГ

Евгений Глотов in Data Engineers
а если сделать репартишен маленькой по date заранее?
источник

A

Alex in Data Engineers
и все влетит в одну партицию-один воркер
источник

D

Dmitry Tron in Data Engineers
Alexander
Не указано, но я знаю, что в маленькой таблице у меня только одна дата. По ней и джойню, но джоб валится из-за того, что вторая таблица огромна и спарк её всю читает. Точнее так: я эти таблицы джойню как датафреймы
Собрать мелкую в оллекцию, проверить что дата одна и определить ее. Проселектить явно одну партициб из большой и присобачить через withcolumn данные + explode
источник

ЕГ

Евгений Глотов in Data Engineers
репартишен и бродкаст
источник

A

Alex in Data Engineers
ну "маленькая" это ведь может быть условно, всего в 30гб =)
источник

A

Alexander in Data Engineers
Евгений Глотов
а если сделать репартишен маленькой по date заранее?
Зачем по date? Там во всех строках одно значение date.
источник

ЕГ

Евгений Глотов in Data Engineers
а вы это спарку докажите)
источник

DM

Daniel Matveev in Data Engineers
Alex
вы знаете, а спарк откуда знать может? =)
where по date из первой же строчки мелкой таблицы /shrug
источник

A

Alexander in Data Engineers
Alex
ну "маленькая" это ведь может быть условно, всего в 30гб =)
Не. Маленькая обычно пару мб.  Большая около  300 гб
источник

A

Alexander in Data Engineers
Евгений Глотов
а вы это спарку докажите)
Ну то есть я сделаю репартишн, то спарк узнает, что там одно значение date во всех строках и не полезет в ненужные партиции большой таблицы?
источник

DM

Daniel Matveev in Data Engineers
@krivdathetriewe научи спарком пользоваться
источник

ЕГ

Евгений Глотов in Data Engineers
Alexander
Ну то есть я сделаю репартишн, то спарк узнает, что там одно значение date во всех строках и не полезет в ненужные партиции большой таблицы?
точно не скажу, работает или нет, но можно попробовать
источник

A

Alexander in Data Engineers
Лан. Спасибо всем. Буду пробовать
источник

DM

Daniel Matveev in Data Engineers
Alexander
Лан. Спасибо всем. Буду пробовать
я спарком не пользуюсь, но там же был какой-то эксплейн графа выполнения, необязательно даже запускать
источник

A

Alexander in Data Engineers
Daniel Matveev
я спарком не пользуюсь, но там же был какой-то эксплейн графа выполнения, необязательно даже запускать
Да граф тут не сильно поможет, я думаю
источник

GP

Grigory Pomadchin in Data Engineers
Евгений Глотов
а если сделать репартишен маленькой по date заранее?
а как это поможет если дата одинаковая? репартищена не будет тогда
источник

GP

Grigory Pomadchin in Data Engineers
источник

ЕГ

Евгений Глотов in Data Engineers
почему, репартишен всё сложит в одну партицию
источник

ЕГ

Евгений Глотов in Data Engineers
и появится инфа о том, что датасет партицирован
источник
2019 November 29

K

KrivdaTheTriewe in Data Engineers
Daniel Matveev
@krivdathetriewe научи спарком пользоваться
i do not speak sparkian
источник