Телеграмм чат группы hadoopusers страница 3317

Один из основных(а может и самый основной) выигрышь при использовании нескольких ядер на одного экзекьютера - это ведь сокращение шафла, точнее сокращение передачи данных по сети. Если есть ещё какие-то важные нюансы, то напишите, коллеги)

источник

17:07пожаловаться #4

Igor Master in Data Engineers

Ну вот да эти ж JVMки будут между собой общаться по сети даже если они на одной машине физически

источник

17:08пожаловаться #5

Alexey Evdokimov in Data Engineers

угу, чем меньше шафлов, тем меньше ядер на екзекутор дают лучшую скорость

источник

17:09пожаловаться #6

Alexey Evdokimov in Data Engineers

оптимизировать можно по-всякому, но лучше всего сам расчётный код

источник

17:10пожаловаться #7

Roman in Data Engineers

Igor Master

Ну вот да эти ж JVMки будут между собой общаться по сети даже если они на одной машине физически

"JVMки" почему во множественном числе? У вас же в один экзекьюетер, просто он в паралель лопатит столько тасков, сколько ядер вы на него выделили.

источник

17:10пожаловаться #8

Alexey Evdokimov in Data Engineers

хотя конечная цена оптимизированного кода сильно выше чем цена тюнинга железа, даже виртуального

источник

17:10пожаловаться #9

Igor Master in Data Engineers

Ну я имел в виду если взять 5 ядерную машину и выставить 1 ядро на экзекьютор - получится 5 джвм isn't it?

источник

17:10пожаловаться #10

Igor Master in Data Engineers

Alexey Evdokimov

хотя конечная цена оптимизированного кода сильно выше чем цена тюнинга железа, даже виртуального

depens on обьемы данных

источник

17:11пожаловаться #11

Anton Zadorozhniy in Data Engineers

и архитектуры :(

источник

17:12пожаловаться #12

Roman in Data Engineers

Igor Master

Ну я имел в виду если взять 5 ядерную машину и выставить 1 ядро на экзекьютор - получится 5 джвм isn't it?

да, если кол-во экзекьюеторв будет 5.

источник

17:12пожаловаться #13

Igor Master in Data Engineers

Раз уж пошел такой разговор. Кто-то пытался dataframe в параллель процессить?

источник

17:12пожаловаться #14

Alexey Evdokimov in Data Engineers

да и разработчики, которые могут писать на спарке без spark.sql, стоят дороже, чем те кто пишут на spark.sql

источник

17:13пожаловаться #15

Igor Master in Data Engineers

грубо говоря есть

df.persist() 
[1,2,3].parallel.map( process(df))

источник

17:13пожаловаться #16

Andrey Smirnov in Data Engineers

Igor Master

грубо говоря есть

df.persist() 
[1,2,3].parallel.map( process(df))

а зачем, легче в mapPartinions это делать

источник

17:14пожаловаться #17

Igor Master in Data Engineers

Ну вот кейс был такой.
Есть инфа про всех клиентов - надо ее отфильтровать по-клиентно и сложить в их папки.

источник

17:14пожаловаться #18

Igor Master in Data Engineers

клиентов - до 6000

источник

17:15пожаловаться #19

Alexey Evdokimov in Data Engineers

ну, можно ж партиционировать поклиентно, например

источник

17:16пожаловаться #20