Size: a a a

2019 October 14

GP

Grigory Pomadchin in Data Engineers
Alexander
А чего бы на диск не заперсистить?
послушай я сча открыл доку и код; фреймовый чекпойнт другой
источник

GP

Grigory Pomadchin in Data Engineers
сейчас попробую просто пример сделать посмотреть; может твои коллеги и правы кстати
источник

GP

Grigory Pomadchin in Data Engineers
получается что у спарка для датасетов, рдд и стримов все по-разному себя ведет
источник

A

Alexander in Data Engineers
Grigory Pomadchin
послушай я сча открыл доку и код; фреймовый чекпойнт другой
Так вопрос, другой ли чекпоинт, а не персист
источник

GP

Grigory Pomadchin in Data Engineers
я опечатался) чекпойнт*
источник

GP

Grigory Pomadchin in Data Engineers
Alexander
Так вопрос, другой ли чекпоинт, а не персист
я сейчас просто пример придумал посмотреть и скину его сюда
источник

GP

Grigory Pomadchin in Data Engineers
rdd точно ведет себя через дабл компютейшн
источник

A

Alexander in Data Engineers
Grigory Pomadchin
я сейчас просто пример придумал посмотреть и скину его сюда
Круть. Спасибо
источник

GP

Grigory Pomadchin in Data Engineers
Alexander
Круть. Спасибо
источник

GP

Grigory Pomadchin in Data Engineers
ну они правы в случае с датасетами, то что ты хочешь это ds.checkpoint(false)
источник

GP

Grigory Pomadchin in Data Engineers
лейзи чекйпонт, который сделается на вычилсении только. тогда он поведет себя как rdd.cache() + rdd.checkpoint()
источник

GP

Grigory Pomadchin in Data Engineers
чекпойнт датасетов также делает транкейт логического плана; eager чекпойнт хоть и делает двйоную работу, зато упрощает логический план.
источник

GP

Grigory Pomadchin in Data Engineers
добавлю в гист тогда принты этого
источник

T

T in Data Engineers
T
ну я вот в этих ваши интеретах на тыкался что многи пишут что завет, но пока в сорацах не вижу чтобы звал
источник

T

T in Data Engineers
Grigory Pomadchin
лейзи чекйпонт, который сделается на вычилсении только. тогда он поведет себя как rdd.cache() + rdd.checkpoint()
👍
источник

GP

Grigory Pomadchin in Data Engineers
в общем идея гиста это сунуть список в рдд/дс, мапнуть и принатнуть в мап степе чиселки).
т.е. проследить прям из консоли можно будет количество вычислений.
оно конечно прослеживается и в спарк юай) там тоже можно обратить внимание что два раза вычисляет
источник

GP

Grigory Pomadchin in Data Engineers
в общем интересное поведение конечно
источник

A

Alexander in Data Engineers
Grigory Pomadchin
в общем идея гиста это сунуть список в рдд/дс, мапнуть и принатнуть в мап степе чиселки).
т.е. проследить прям из консоли можно будет количество вычислений.
оно конечно прослеживается и в спарк юай) там тоже можно обратить внимание что два раза вычисляет
Ну кста у нас как раз чекпоинты по два раза отмечаются в ui.
источник

GP

Grigory Pomadchin in Data Engineers
источник

GP

Grigory Pomadchin in Data Engineers
Ну надеюсь теперь ты знаешь что делать
источник