Телеграмм чат группы hadoopusers страница 1578

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

1724 membersпожаловаться на группу

2019 August 25

ПФ

Паша Финкельштейн in Data Engineers

Grigory Pomadchin

я не пробовал вообще сериал со спарком; казалось глупо

Скорее всего это и есть глупо кроме редких случаев. Типа такого: у тебя есть нода на 32 гига хипа и ты там целиком можешь отпроцессить данные, которые занимают <32 гигов. Тогда у тебя нет передачи по сети и ты просто молотишь цифры

источник

00:25пожаловаться #1

GP

Grigory Pomadchin in Data Engineers

Паша Финкельштейн

Скорее всего это и есть глупо кроме редких случаев. Типа такого: у тебя есть нода на 32 гига хипа и ты там целиком можешь отпроцессить данные, которые занимают <32 гигов. Тогда у тебя нет передачи по сети и ты просто молотишь цифры

так ток питонисты делают с пандас и эта нода - драйвер

источник

00:25пожаловаться #2

ПФ

Паша Финкельштейн in Data Engineers

Ну да, пара STW у тебя будет после мапов, но это пофиг потому что быстро

источник

00:26пожаловаться #3

ПФ

Паша Финкельштейн in Data Engineers

Grigory Pomadchin

так ток питонисты делают с пандас и эта нода - драйвер

Ну остальным тоже никто не запрещает же?

источник

00:26пожаловаться #4

ПФ

Паша Финкельштейн in Data Engineers

Если научиться предсказывать потребление памяти пандасом - можно будет выкинуть оттуда деаллокации

источник

00:27пожаловаться #5

GP

Grigory Pomadchin in Data Engineers

Паша Финкельштейн

Ну остальным тоже никто не запрещает же?

не нужно спарк использовать в таком случае если надо всегда редьюсить все на жирный драйвер

источник

00:29пожаловаться #6

GP

Grigory Pomadchin in Data Engineers

проще сразу на него грузить все

источник

00:29пожаловаться #7

ПФ

Паша Финкельштейн in Data Engineers

Из моих наблюдений за Спарком на том, что я писал - там g1 меньше всего времени съедал. Но я думаю что это неправда и на самом деле он просто съедал больше времени на барьеры

источник

00:32пожаловаться #8

ПФ

Паша Финкельштейн in Data Engineers

Но прямо скажем - моя выборка настолько нерепрезентптивна, что аж больно

источник

00:32пожаловаться #9

ПФ

Паша Финкельштейн in Data Engineers

Через год смогу сказать что-то более умное и обоснованное

источник

00:33пожаловаться #10

GP

Grigory Pomadchin in Data Engineers

Паша Финкельштейн

Из моих наблюдений за Спарком на том, что я писал - там g1 меньше всего времени съедал. Но я думаю что это неправда и на самом деле он просто съедал больше времени на барьеры

когда у тебя жирные ехекуторы и много ядер вних (малоли что ты там считаешь) - то г1 скорее всгео будет лучшим выбором
если у тебя много меликх ехекуторов и на каждый мало ядер (по 1) то лучше смс будет или паралел

источник

00:33пожаловаться #11

GP

Grigory Pomadchin in Data Engineers

но г1 для лонг ранинг стриминга какогонить скорее всего будет лучше

источник

00:34пожаловаться #12

GP

Grigory Pomadchin in Data Engineers

но опять же надо конкретную джобу смотреть

источник

00:34пожаловаться #13

GP

Grigory Pomadchin in Data Engineers

и когда разговор идет о тюнинге гц это обычно значит что вы уже оптимизировали все остальное

источник

00:34пожаловаться #14

ПФ

Паша Финкельштейн in Data Engineers

Если ядро одно - вероятно надо смотреть на сириал. Потому что на одном ядре тебя останавливать будет параллел тоже, но математика у него будет сложная

источник

00:34пожаловаться #15

GP

Grigory Pomadchin in Data Engineers

Паша Финкельштейн

Если ядро одно - вероятно надо смотреть на сириал. Потому что на одном ядре тебя останавливать будет параллел тоже, но математика у него будет сложная

опять же от колва обектов зависит

источник

00:35пожаловаться #16

GP

Grigory Pomadchin in Data Engineers

этож спарк он килят партицию и пока она киляется новую запрягает

источник

00:35пожаловаться #17

ПФ

Паша Финкельштейн in Data Engineers

Мусора одинаковое количество примерно, но параллел его будет более сложно считать

источник

00:35пожаловаться #18

ПФ

Паша Финкельштейн in Data Engineers

На одном ядре одновременно делается примерно одинаково задача

источник

00:35пожаловаться #19

GP

Grigory Pomadchin in Data Engineers

источник

00:35пожаловаться #20