Size: a a a

2019 August 25

ПФ

Паша Финкельштейн in Data Engineers
Grigory Pomadchin
я не пробовал вообще сериал со спарком; казалось глупо
Скорее всего это и есть глупо кроме редких случаев. Типа такого: у тебя есть нода на 32 гига хипа и ты там целиком можешь отпроцессить данные, которые занимают <32 гигов. Тогда у тебя нет передачи по сети и ты просто молотишь цифры
источник

GP

Grigory Pomadchin in Data Engineers
Паша Финкельштейн
Скорее всего это и есть глупо кроме редких случаев. Типа такого: у тебя есть нода на 32 гига хипа и ты там целиком можешь отпроцессить данные, которые занимают <32 гигов. Тогда у тебя нет передачи по сети и ты просто молотишь цифры
так ток питонисты делают с пандас и эта нода - драйвер
источник

ПФ

Паша Финкельштейн in Data Engineers
Ну да, пара STW у тебя будет после мапов, но это пофиг потому что быстро
источник

ПФ

Паша Финкельштейн in Data Engineers
Grigory Pomadchin
так ток питонисты делают с пандас и эта нода - драйвер
Ну остальным тоже никто не запрещает же?
источник

ПФ

Паша Финкельштейн in Data Engineers
Если научиться предсказывать потребление памяти пандасом - можно будет выкинуть оттуда деаллокации
источник

GP

Grigory Pomadchin in Data Engineers
Паша Финкельштейн
Ну остальным тоже никто не запрещает же?
не нужно спарк использовать в таком случае если надо всегда редьюсить все на жирный драйвер
источник

GP

Grigory Pomadchin in Data Engineers
проще сразу на него грузить все
источник

ПФ

Паша Финкельштейн in Data Engineers
Из моих наблюдений за Спарком на том, что я писал - там g1 меньше всего времени съедал. Но я думаю что это неправда и на самом деле он просто съедал больше времени на барьеры
источник

ПФ

Паша Финкельштейн in Data Engineers
Но прямо скажем - моя выборка настолько нерепрезентптивна, что аж больно
источник

ПФ

Паша Финкельштейн in Data Engineers
Через год смогу сказать что-то более умное и обоснованное
источник

GP

Grigory Pomadchin in Data Engineers
Паша Финкельштейн
Из моих наблюдений за Спарком на том, что я писал - там g1 меньше всего времени съедал. Но я думаю что это неправда и на самом деле он просто съедал больше времени на барьеры
когда у тебя жирные ехекуторы и много ядер вних (малоли что ты там считаешь) - то г1 скорее всгео будет лучшим выбором
если у тебя много меликх ехекуторов и на каждый мало ядер (по 1) то лучше смс будет или паралел
источник

GP

Grigory Pomadchin in Data Engineers
но г1 для лонг ранинг стриминга какогонить скорее всего будет лучше
источник

GP

Grigory Pomadchin in Data Engineers
но опять же надо конкретную джобу смотреть
источник

GP

Grigory Pomadchin in Data Engineers
и когда разговор идет о тюнинге гц это обычно значит что вы уже оптимизировали все остальное
источник

ПФ

Паша Финкельштейн in Data Engineers
Если ядро одно - вероятно надо смотреть на сириал. Потому что на одном ядре тебя останавливать будет параллел тоже, но математика у него будет сложная
источник

GP

Grigory Pomadchin in Data Engineers
Паша Финкельштейн
Если ядро одно - вероятно надо смотреть на сириал. Потому что на одном ядре тебя останавливать будет параллел тоже, но математика у него будет сложная
опять же от колва обектов зависит
источник

GP

Grigory Pomadchin in Data Engineers
этож спарк он килят партицию и пока она киляется новую запрягает
источник

ПФ

Паша Финкельштейн in Data Engineers
Мусора одинаковое количество примерно, но параллел его будет более сложно считать
источник

ПФ

Паша Финкельштейн in Data Engineers
На одном ядре одновременно делается примерно одинаково задача
источник

GP

Grigory Pomadchin in Data Engineers
источник