Size: a a a

2019 October 14

VE

Vladimir E. in Data Engineers
Ааа, понял
источник

VE

Vladimir E. in Data Engineers
Тут думаю будет как раз burst load , так как новая загрузка данных может принести 500к новых данных (например в случае маскирования телефонных номеров). Думал смотреть в сторону memsql ещё
источник

EN

Eldar Nezametdinov in Data Engineers
Дата инженеры, а у кого уже кубер в проде? (Spark+k8s)
Уже все стабильно?
Какая причина слезать с YARN на него?
источник

VE

Vladimir E. in Data Engineers
Eldar Nezametdinov
Дата инженеры, а у кого уже кубер в проде? (Spark+k8s)
Уже все стабильно?
Какая причина слезать с YARN на него?
Насколько слышал
- нет dynamic allocation
- нет кербероса (https://issues.apache.org/jira/plugins/servlet/mobile#issue/SPARK-25826)
источник

A

Alexander in Data Engineers
Коллеги, в доках про спарк checkpoint написано следующее: it is strongly recommended that this rdd is persisted in memory, otherwise saving it on a file will require recomputation. Значит ли это, что рекомендуется всегда делать так:
rdd.persist().checkpoint()
источник

GP

Grigory Pomadchin in Data Engineers
Alexander
Коллеги, в доках про спарк checkpoint написано следующее: it is strongly recommended that this rdd is persisted in memory, otherwise saving it on a file will require recomputation. Значит ли это, что рекомендуется всегда делать так:
rdd.persist().checkpoint()
не всегда, но да, говорится что чекпойнт форсит вычисление рдд и без персиста
rdd.checkpoint(); rdd.reduce(???) два раза посчитают rdd
источник

A

Alexander in Data Engineers
Grigory Pomadchin
не всегда, но да, говорится что чекпойнт форсит вычисление рдд и без персиста
rdd.checkpoint(); rdd.reduce(???) два раза посчитают rdd
Вышел спор с коллегами: говорят это как минимум бесполезно, как максимум лишнее. Не повлияет на производительность
источник

A

Alex in Data Engineers
Vladimir E.
Насколько слышал
- нет dynamic allocation
- нет кербероса (https://issues.apache.org/jira/plugins/servlet/mobile#issue/SPARK-25826)
О, про керберос спасибо, только недавно задавался этим вопросом как же они сделали его, походу все ещё никак :)
источник

A

Alexander in Data Engineers
Grigory Pomadchin
не всегда, но да, говорится что чекпойнт форсит вычисление рдд и без персиста
rdd.checkpoint(); rdd.reduce(???) два раза посчитают rdd
А относится ли это так же к датафремам?
источник

GP

Grigory Pomadchin in Data Engineers
Alexander
А относится ли это так же к датафремам?
ко всему
источник

GP

Grigory Pomadchin in Data Engineers
ну это же идея простая:

val ds = ???
ds.reduce1
ds.reduce2


vs

val ds = ???
ds.persist
ds.reduce1
ds.reduce2
источник

A

Alexander in Data Engineers
Grigory Pomadchin
ну это же идея простая:

val ds = ???
ds.reduce1
ds.reduce2


vs

val ds = ???
ds.persist
ds.reduce1
ds.reduce2
Да чёт меня смущает, что более опытные коллеги говорят убрать persist из моего пуллреквеста, утверждая, что checkpoint уже всё, что нужно сделал и производительность это не повысит. Типа последующие после чекпоинта actions будут использовать данные этого чекпоинта и не будут заново пересчитывать рдд
источник

T

T in Data Engineers
Alexander
Да чёт меня смущает, что более опытные коллеги говорят убрать persist из моего пуллреквеста, утверждая, что checkpoint уже всё, что нужно сделал и производительность это не повысит. Типа последующие после чекпоинта actions будут использовать данные этого чекпоинта и не будут заново пересчитывать рдд
Так чекпоинт же cache зовёт перед тем как записать не?
источник

GP

Grigory Pomadchin in Data Engineers
T
Так чекпоинт же cache зовёт перед тем как записать не?
не зовет
источник

GP

Grigory Pomadchin in Data Engineers
Alexander
Да чёт меня смущает, что более опытные коллеги говорят убрать persist из моего пуллреквеста, утверждая, что checkpoint уже всё, что нужно сделал и производительность это не повысит. Типа последующие после чекпоинта actions будут использовать данные этого чекпоинта и не будут заново пересчитывать рдд
ну сделал то сделал, но результат чекпойнта будет заперсистен в директории
источник

GP

Grigory Pomadchin in Data Engineers
T
Так чекпоинт же cache зовёт перед тем как записать не?
хм а может и зовет?
источник

T

T in Data Engineers
Grigory Pomadchin
хм а может и зовет?
ну я вот в этих ваши интеретах на тыкался что многи пишут что завет, но пока в сорацах не вижу чтобы звал
источник

GP

Grigory Pomadchin in Data Engineers
Alexander
Да чёт меня смущает, что более опытные коллеги говорят убрать persist из моего пуллреквеста, утверждая, что checkpoint уже всё, что нужно сделал и производительность это не повысит. Типа последующие после чекпоинта actions будут использовать данные этого чекпоинта и не будут заново пересчитывать рдд
в целом все против персистов, потому что каждый колл персиста фактически потребление памяти джобой в два раза: старые блоки удалятся не будут а для новых операций он копии делать будет и уже с ними аботать
источник

A

Alexander in Data Engineers
Grigory Pomadchin
в целом все против персистов, потому что каждый колл персиста фактически потребление памяти джобой в два раза: старые блоки удалятся не будут а для новых операций он копии делать будет и уже с ними аботать
А чего бы на диск не заперсистить?
источник

GP

Grigory Pomadchin in Data Engineers
Alexander
А чего бы на диск не заперсистить?
да все что угодно можно использовать, если нужно
источник