Телеграмм чат группы hadoopusers страница 3249

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

2308 membersпожаловаться на группу

2021 February 13

NN

No Name in Data Engineers

Можно в ui ещё посмотреть в закладке environment, вроде бы там указано его значение, но я точно не помню.

источник

01:30пожаловаться #1

VS

Vadim Shatalov in Data Engineers

нет - отдельно spark.sql.shuffle.partitions не задан - значит дефолтное значение
хорошо, при реально больших таблицах - на несколько сотен гигов - размер партиции у нас может доходить до гига легко
есть бест практисы по этому делу?

источник

01:35пожаловаться #2

NN

No Name in Data Engineers

нет - отдельно spark.sql.shuffle.partitions не задан - значит дефолтное значение
хорошо, при реально больших таблицах - на несколько сотен гигов - размер партиции у нас может доходить до гига легко
есть бест практисы по этому делу?

Серебряной пули, к сожалению, нет, все будет зависеть от кейса, от данных, от возможностей кластера. Выглядит так, что гигабайтные партиции для спарка - это не очень, лучше их где-то на уровне блока hdfs держать. При этом помня, что мелкие файлы - тоже плохо, аукнется потом неймноде. Нужно смотреть на то, сколько у Вас в наличии коров и памяти, т.е. постараться добиться максимальной параллельности и утилизации ресурсов кластера.

источник

01:39пожаловаться #3

NN

No Name in Data Engineers

нет - отдельно spark.sql.shuffle.partitions не задан - значит дефолтное значение
хорошо, при реально больших таблицах - на несколько сотен гигов - размер партиции у нас может доходить до гига легко
есть бест практисы по этому делу?

А возвращаясь к бест практисам - можно посмотреть материалы с конфы spark+AI и ещё от databricks, они хорошие советы дают и под капот залезают.

источник

01:41пожаловаться #4

VS

Vadim Shatalov in Data Engineers

@ExcellentName Спасибо за помощь - поищу

источник

01:44пожаловаться #5

NN

No Name in Data Engineers

@ExcellentName Спасибо за помощь - поищу

Чем могу

источник

01:45пожаловаться #6

VS

Vadim Shatalov in Data Engineers

Увы, разбитие запроса на два с промежуточным хранением в паркете не помогло - ошибка таже при записи датафрейма на диск

источник

01:52пожаловаться #7

NN

No Name in Data Engineers

Увы, разбитие запроса на два с промежуточным хранением в паркете не помогло - ошибка таже при записи датафрейма на диск

Попробуйте исследовать данные на предмет перекосов, и увеличить количество партиций, если лежат более-менее равномерно

источник

01:55пожаловаться #8

VS

Vadim Shatalov in Data Engineers

Про исследовать на предмет перекосов - можете что посоветовать ?

источник

01:56пожаловаться #9

NN

No Name in Data Engineers

У вас в любом случае все группировки и джойны происходят по ключам. Так же, как и исходные данные, которые вы читаете из файловой системы, с той или иной степенью равномерности записаны. Проверьте эти моменты, что нет перекосов.

источник

02:00пожаловаться #10

C

Combot in Data Engineers

Tudor Vermelho has been banned! Reason: CAS ban.

источник

08:53пожаловаться #11

АЖ

Андрей Жуков... in Data Engineers

@pomadchin @krivdathetriewe @zuynew, тут товарищ был расстрелян ботом невинно :) просит реабилитации @nonaryr

источник

17:19пожаловаться #12

GP

Grigory Pomadchin in Data Engineers

Андрей Жуков

@pomadchin @krivdathetriewe @zuynew, тут товарищ был расстрелян ботом невинно :) просит реабилитации @nonaryr

ага сча разбаню)

источник

17:22пожаловаться #13

GP

Grigory Pomadchin in Data Engineers

Андрей Жуков

@pomadchin @krivdathetriewe @zuynew, тут товарищ был расстрелян ботом невинно :) просит реабилитации @nonaryr

пригласи назад)

источник

17:24пожаловаться #14

GP

Grigory Pomadchin in Data Engineers

я сниму рестрикты бота как войдет

источник

17:24пожаловаться #15

GP

Grigory Pomadchin in Data Engineers

иногда реально агрится прям непонятно

источник

17:24пожаловаться #16

DZ

Dmitry Zuev in Data Engineers

Grigory Pomadchin

иногда реально агрится прям непонятно

Ссылка небось

источник

17:25пожаловаться #17

РГ

Рустам Гилазтдинов... in Data Engineers

спасибо 🙏

источник

17:25пожаловаться #18

GP

Grigory Pomadchin in Data Engineers

Рустам Гилазтдинов

спасибо 🙏

попробуй заново свой пост воткнуть)

источник

17:26пожаловаться #19

РГ

Рустам Гилазтдинов... in Data Engineers

ага, щас

источник

17:26пожаловаться #20