Телеграмм чат группы hadoopusers страница 1690

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Data Engineers

1724 membersпожаловаться на группу

2019 October 14

VE

Vladimir E. in Data Engineers

Ааа, понял

источник

17:49пожаловаться #1

VE

Vladimir E. in Data Engineers

Тут думаю будет как раз burst load , так как новая загрузка данных может принести 500к новых данных (например в случае маскирования телефонных номеров). Думал смотреть в сторону memsql ещё

источник

17:53пожаловаться #2

EN

Eldar Nezametdinov in Data Engineers

Дата инженеры, а у кого уже кубер в проде? (Spark+k8s)
Уже все стабильно?
Какая причина слезать с YARN на него?

источник

18:00пожаловаться #3

VE

Vladimir E. in Data Engineers

Eldar Nezametdinov

Дата инженеры, а у кого уже кубер в проде? (Spark+k8s)
Уже все стабильно?
Какая причина слезать с YARN на него?

Насколько слышал
- нет dynamic allocation
- нет кербероса (https://issues.apache.org/jira/plugins/servlet/mobile#issue/SPARK-25826)

источник

18:08пожаловаться #4

A

Alexander in Data Engineers

Коллеги, в доках про спарк checkpoint написано следующее: it is strongly recommended that this rdd is persisted in memory, otherwise saving it on a file will require recomputation. Значит ли это, что рекомендуется всегда делать так:
rdd.persist().checkpoint()

источник

18:16пожаловаться #5

GP

Grigory Pomadchin in Data Engineers

Коллеги, в доках про спарк checkpoint написано следующее: it is strongly recommended that this rdd is persisted in memory, otherwise saving it on a file will require recomputation. Значит ли это, что рекомендуется всегда делать так:
rdd.persist().checkpoint()

не всегда, но да, говорится что чекпойнт форсит вычисление рдд и без персиста
rdd.checkpoint(); rdd.reduce(???) два раза посчитают rdd

источник

18:30пожаловаться #6

A

Alexander in Data Engineers

Grigory Pomadchin

не всегда, но да, говорится что чекпойнт форсит вычисление рдд и без персиста
rdd.checkpoint(); rdd.reduce(???) два раза посчитают rdd

Вышел спор с коллегами: говорят это как минимум бесполезно, как максимум лишнее. Не повлияет на производительность

источник

18:33пожаловаться #7

A

Alex in Data Engineers

Насколько слышал
- нет dynamic allocation
- нет кербероса (https://issues.apache.org/jira/plugins/servlet/mobile#issue/SPARK-25826)

О, про керберос спасибо, только недавно задавался этим вопросом как же они сделали его, походу все ещё никак :)

источник

19:02пожаловаться #8

A

Alexander in Data Engineers

Grigory Pomadchin

не всегда, но да, говорится что чекпойнт форсит вычисление рдд и без персиста
rdd.checkpoint(); rdd.reduce(???) два раза посчитают rdd

А относится ли это так же к датафремам?

источник

19:54пожаловаться #9

GP

Grigory Pomadchin in Data Engineers

А относится ли это так же к датафремам?

ко всему

источник

19:58пожаловаться #10

GP

Grigory Pomadchin in Data Engineers

ну это же идея простая:

val ds = ???
ds.reduce1
ds.reduce2

vs

val ds = ???
ds.persist
ds.reduce1
ds.reduce2

источник

19:59пожаловаться #11

A

Alexander in Data Engineers

Grigory Pomadchin

ну это же идея простая:

val ds = ???
ds.reduce1
ds.reduce2

vs

val ds = ???
ds.persist
ds.reduce1
ds.reduce2

Да чёт меня смущает, что более опытные коллеги говорят убрать persist из моего пуллреквеста, утверждая, что checkpoint уже всё, что нужно сделал и производительность это не повысит. Типа последующие после чекпоинта actions будут использовать данные этого чекпоинта и не будут заново пересчитывать рдд

источник

20:03пожаловаться #12

T

T in Data Engineers

Да чёт меня смущает, что более опытные коллеги говорят убрать persist из моего пуллреквеста, утверждая, что checkpoint уже всё, что нужно сделал и производительность это не повысит. Типа последующие после чекпоинта actions будут использовать данные этого чекпоинта и не будут заново пересчитывать рдд

Так чекпоинт же cache зовёт перед тем как записать не?

источник

20:07пожаловаться #13

GP

Grigory Pomadchin in Data Engineers

Так чекпоинт же cache зовёт перед тем как записать не?

не зовет

источник

20:09пожаловаться #14

GP

Grigory Pomadchin in Data Engineers

Да чёт меня смущает, что более опытные коллеги говорят убрать persist из моего пуллреквеста, утверждая, что checkpoint уже всё, что нужно сделал и производительность это не повысит. Типа последующие после чекпоинта actions будут использовать данные этого чекпоинта и не будут заново пересчитывать рдд

ну сделал то сделал, но результат чекпойнта будет заперсистен в директории

источник

20:11пожаловаться #15

GP

Grigory Pomadchin in Data Engineers

Так чекпоинт же cache зовёт перед тем как записать не?

хм а может и зовет?

источник

20:12пожаловаться #16

T

T in Data Engineers

Grigory Pomadchin

хм а может и зовет?

ну я вот в этих ваши интеретах на тыкался что многи пишут что завет, но пока в сорацах не вижу чтобы звал

источник

20:13пожаловаться #17

GP

Grigory Pomadchin in Data Engineers

Да чёт меня смущает, что более опытные коллеги говорят убрать persist из моего пуллреквеста, утверждая, что checkpoint уже всё, что нужно сделал и производительность это не повысит. Типа последующие после чекпоинта actions будут использовать данные этого чекпоинта и не будут заново пересчитывать рдд

в целом все против персистов, потому что каждый колл персиста фактически потребление памяти джобой в два раза: старые блоки удалятся не будут а для новых операций он копии делать будет и уже с ними аботать

источник

20:13пожаловаться #18

A

Alexander in Data Engineers

Grigory Pomadchin

в целом все против персистов, потому что каждый колл персиста фактически потребление памяти джобой в два раза: старые блоки удалятся не будут а для новых операций он копии делать будет и уже с ними аботать

А чего бы на диск не заперсистить?

источник

20:13пожаловаться #19

GP

Grigory Pomadchin in Data Engineers

А чего бы на диск не заперсистить?

да все что угодно можно использовать, если нужно

источник

20:15пожаловаться #20