Size: a a a

2020 January 10

UD

Uncel Duk in Data Engineers
В драйверхост айпишку ната, но он должен быть 1 в 1 ( по трансляциям)
источник

UD

Uncel Duk in Data Engineers
А лучше попинайте админов, чтобы граничный сервер дали и впн в него
источник

JS

Jury Sergeev in Data Engineers
Uncel Duk
В драйверхост айпишку ната, но он должен быть 1 в 1 ( по трансляциям)
вот да
источник

JS

Jury Sergeev in Data Engineers
Uncel Duk
А лучше попинайте админов, чтобы граничный сервер дали и впн в него
и да
источник

JS

Jury Sergeev in Data Engineers
спасибо всем! )
источник
2020 January 11

A4

Anon 43 in Data Engineers
во время shuffle числовые данные сортируются по возрастанию?
источник

A4

Anon 43 in Data Engineers
или вообще не сортируются?
источник

DA

Dmitry Andreev in Data Engineers
Anon 43
или вообще не сортируются?
Таки суть shuffle всегда была в том, чтобы перемешать данные, а не отсортировать их. Или я чего проспал?...
источник

A4

Anon 43 in Data Engineers
Dmitry Andreev
Таки суть shuffle всегда была в том, чтобы перемешать данные, а не отсортировать их. Или я чего проспал?...
возможно я путаю понятия. В общем был этап, где идет группировка по ключу.
источник

A4

Anon 43 in Data Engineers
есть-ли там сортировка числовых значений по порядку?
источник

DA

Dmitry Andreev in Data Engineers
Anon 43
возможно я путаю понятия. В общем был этап, где идет группировка по ключу.
Вероятнее всего да, чего-то напутали. И вероятнее всего стоит почитать доку по той системе и методам о которых сейчас идет речь :)
источник

DA

Dmitry Andreev in Data Engineers
Anon 43
есть-ли там сортировка числовых значений по порядку?
В SQL группировка отдельно, сортировка отдельно. Вероятно такое поведение свойственно не только SQLю, но это опять же все в доке должно быть описано
источник

A4

Anon 43 in Data Engineers
речь шла о Hadoop)
источник

A

Alex in Data Engineers
Dmitry Andreev
Таки суть shuffle всегда была в том, чтобы перемешать данные, а не отсортировать их. Или я чего проспал?...
Суть шафла перемешать между партициями, но в пределах одной шафл партиции сортировка есть

В хадупе точно, в спарке насколько помню тоже

Это позволяет делать sort merge на стороне reducer, без необходимости полного вытягивания всех данных и повторной сортировки-группировки
источник

t

tenKe in Data Engineers
в спарке шафл не сортирует данные внутри партиций. Если бы он сортировал, то в сортмержджойне в физическом плане отсутствовал оператор сортировки

Да и если посмотреть класс Partitioner (от которого наследуются RoundRobinPartitioner и HashPartitioner), то там ничего про сортировку нет
источник

SZ

Sergey Zhemzhitsky in Data Engineers
tenKe
в спарке шафл не сортирует данные внутри партиций. Если бы он сортировал, то в сортмержджойне в физическом плане отсутствовал оператор сортировки

Да и если посмотреть класс Partitioner (от которого наследуются RoundRobinPartitioner и HashPartitioner), то там ничего про сортировку нет
как сказать... по-умолчанию с какой-то там версии спарка используется sort-based shuffle manager.
и еще настройка есть spark.shuffle.sort.bypassMergeThreshold, которая вот про что
In the sort-based shuffle manager, avoid merge-sorting data if there is no map-side aggregation and there are at most this many reduce partitions.

и в интернетах пишут
If map-side combine is required, data will be sorted by key and partition for aggregation. Otherwise, data will only be sorted by partition.
источник

IR

Ivan Ryshov in Data Engineers
ребят видели?
источник

IR

Ivan Ryshov in Data Engineers
источник

DN

Dmitriy Novikov in Data Engineers
Когда уже в диджитал будут платить как в среднем по стране🧐
источник

V

Vladimir in Data Engineers
Dmitriy Novikov
Когда уже в диджитал будут платить как в среднем по стране🧐
Зачем тебе это?
источник