Телеграмм чат группы hadoopusers страница 1951

Суть шафла перемешать между партициями, но в пределах одной шафл партиции сортировка есть

В хадупе точно, в спарке насколько помню тоже

Это позволяет делать sort merge на стороне reducer, без необходимости полного вытягивания всех данных и повторной сортировки-группировки

источник

16:35пожаловаться #14

tenKe in Data Engineers

в спарке шафл не сортирует данные внутри партиций. Если бы он сортировал, то в сортмержджойне в физическом плане отсутствовал оператор сортировки

Да и если посмотреть класс Partitioner (от которого наследуются RoundRobinPartitioner и HashPartitioner), то там ничего про сортировку нет

источник

16:44пожаловаться #15

Sergey Zhemzhitsky in Data Engineers

tenKe

как сказать... по-умолчанию с какой-то там версии спарка используется sort-based shuffle manager.
и еще настройка есть spark.shuffle.sort.bypassMergeThreshold, которая вот про что

In the sort-based shuffle manager, avoid merge-sorting data if there is no map-side aggregation and there are at most this many reduce partitions.

и в интернетах пишут

If map-side combine is required, data will be sorted by key and partition for aggregation. Otherwise, data will only be sorted by partition.

источник

19:06пожаловаться #16

Ivan Ryshov in Data Engineers

ребят видели?

источник

22:46пожаловаться #17

Ivan Ryshov in Data Engineers

https://vc.ru/hr/71793-analitika-zarplat-dlya-hantinga-2019g

vc.ru

Аналитика зарплат для хантинга, 2019г

Мы в New.HR долго думали, как лучше описать текущую ситуацию на рынке найма в IT и Digital и решили начать с очевидного и честного посыла: "Чуваки, смиритесь, мы в жопе!". Привычные методы поиска работают все хуже.

источник

22:46пожаловаться #18

Dmitriy Novikov in Data Engineers

Когда уже в диджитал будут платить как в среднем по стране🧐

источник

23:00пожаловаться #19

Vladimir in Data Engineers

Dmitriy Novikov

Когда уже в диджитал будут платить как в среднем по стране🧐

Зачем тебе это?

источник

23:09пожаловаться #20