Size: a a a

2021 February 13

NN

No Name in Data Engineers
Можно в ui ещё посмотреть в закладке environment, вроде бы там указано его значение, но я точно не помню.
источник

VS

Vadim Shatalov in Data Engineers
нет - отдельно spark.sql.shuffle.partitions не задан - значит дефолтное значение
хорошо, при реально больших таблицах - на несколько сотен гигов -  размер партиции у нас может доходить до гига легко
есть бест практисы по этому делу?
источник

NN

No Name in Data Engineers
Vadim Shatalov
нет - отдельно spark.sql.shuffle.partitions не задан - значит дефолтное значение
хорошо, при реально больших таблицах - на несколько сотен гигов -  размер партиции у нас может доходить до гига легко
есть бест практисы по этому делу?
Серебряной пули, к сожалению, нет, все будет зависеть от кейса, от данных, от возможностей кластера. Выглядит так, что гигабайтные партиции для спарка - это не очень, лучше их где-то на уровне блока hdfs держать. При этом помня, что мелкие файлы - тоже плохо, аукнется потом неймноде. Нужно смотреть на то, сколько у Вас в наличии коров и памяти, т.е. постараться добиться максимальной параллельности и утилизации ресурсов кластера.
источник

NN

No Name in Data Engineers
Vadim Shatalov
нет - отдельно spark.sql.shuffle.partitions не задан - значит дефолтное значение
хорошо, при реально больших таблицах - на несколько сотен гигов -  размер партиции у нас может доходить до гига легко
есть бест практисы по этому делу?
А возвращаясь к бест практисам - можно посмотреть материалы с конфы spark+AI и ещё от databricks, они хорошие советы дают и под капот залезают.
источник

VS

Vadim Shatalov in Data Engineers
@ExcellentName Спасибо за помощь - поищу
источник

NN

No Name in Data Engineers
Vadim Shatalov
@ExcellentName Спасибо за помощь - поищу
Чем могу
источник

VS

Vadim Shatalov in Data Engineers
Увы, разбитие запроса на два с промежуточным хранением в паркете не помогло - ошибка таже при записи датафрейма на диск
источник

NN

No Name in Data Engineers
Vadim Shatalov
Увы, разбитие запроса на два с промежуточным хранением в паркете не помогло - ошибка таже при записи датафрейма на диск
Попробуйте исследовать данные на предмет перекосов, и увеличить количество партиций, если лежат более-менее равномерно
источник

VS

Vadim Shatalov in Data Engineers
Про исследовать на предмет перекосов - можете что посоветовать ?
источник

NN

No Name in Data Engineers
У вас в любом случае все группировки и джойны происходят по ключам. Так же, как и исходные данные, которые вы читаете из файловой системы, с той или иной степенью равномерности записаны. Проверьте эти моменты, что нет перекосов.
источник

C

Combot in Data Engineers
Tudor Vermelho has been banned! Reason: CAS ban.
источник

АЖ

Андрей Жуков... in Data Engineers
@pomadchin @krivdathetriewe @zuynew, тут товарищ был расстрелян ботом невинно :) просит реабилитации @nonaryr
источник

GP

Grigory Pomadchin in Data Engineers
Андрей Жуков
@pomadchin @krivdathetriewe @zuynew, тут товарищ был расстрелян ботом невинно :) просит реабилитации @nonaryr
ага сча разбаню)
источник

GP

Grigory Pomadchin in Data Engineers
Андрей Жуков
@pomadchin @krivdathetriewe @zuynew, тут товарищ был расстрелян ботом невинно :) просит реабилитации @nonaryr
пригласи назад)
источник

GP

Grigory Pomadchin in Data Engineers
я сниму рестрикты бота как войдет
источник

GP

Grigory Pomadchin in Data Engineers
иногда реально агрится прям непонятно
источник

DZ

Dmitry Zuev in Data Engineers
Grigory Pomadchin
иногда реально агрится прям непонятно
Ссылка небось
источник

РГ

Рустам Гилазтдинов... in Data Engineers
спасибо 🙏
источник

GP

Grigory Pomadchin in Data Engineers
попробуй заново свой пост воткнуть)
источник

РГ

Рустам Гилазтдинов... in Data Engineers
ага, щас
источник