Size: a a a

2019 April 11

GP

Grigory Pomadchin in Moscow Spark
для всех апкаминг стейджев у тебя будет эти блоки
источник

GP

Grigory Pomadchin in Moscow Spark
пока ты ее сам не потрешь
источник

GP

Grigory Pomadchin in Moscow Spark
у них идентифкатор есть
источник

GP

Grigory Pomadchin in Moscow Spark
по иду ты можешь найти их они уже вычислены
источник

GP

Grigory Pomadchin in Moscow Spark
такой супер кеш на предыдущем стейдже у тебя есть который доступен для всех последущих
источник

GP

Grigory Pomadchin in Moscow Spark
я тебе говорю глянь в анпресист; т.к. он блокирующий (может им быть); там пример удаления рдд есть из блок менеджера
источник

N

Nikolay in Moscow Spark
Вот допустим у меня простой rdd. Там 10 рэндомных чисел. Я поставил persist. Он их закешировал в память. Дальнейшем я сортируются их. Сортировка заканчивает текущий stage. Данные упорялоченные после нее и записаны на диск. ? В следующий момент я делаю map. Зачем мне первый cache в это месте ?
источник

GP

Grigory Pomadchin in Moscow Spark
Nikolay
Вот допустим у меня простой rdd. Там 10 рэндомных чисел. Я поставил persist. Он их закешировал в память. Дальнейшем я сортируются их. Сортировка заканчивает текущий stage. Данные упорялоченные после нее и записаны на диск. ? В следующий момент я делаю map. Зачем мне первый cache в это месте ?
нет
источник

N

Nikolay in Moscow Spark
У меня тут 2 stage?
источник

N

Nikolay in Moscow Spark
А что не так ?
источник

GP

Grigory Pomadchin in Moscow Spark
код посмотри; там нет нигде упоминаний стейджей
источник

GP

Grigory Pomadchin in Moscow Spark
источник

N

Nikolay in Moscow Spark
Я посмотрел Даг по порту 4040( в форма html). В и там 2 stage. Могу вечером прислать картинку
источник

GP

Grigory Pomadchin in Moscow Spark
но я не вижу противоречий
источник

GP

Grigory Pomadchin in Moscow Spark
в любом случае
источник

GP

Grigory Pomadchin in Moscow Spark
код то в джобе условно линейный, ветвиться может
источник

GP

Grigory Pomadchin in Moscow Spark
стейджи условное деление логического плана
источник

N

Nikolay in Moscow Spark
Во втором stage зачем ходить в первый кэш. После этого данные уже поменялись ( отсортировались)
источник

GP

Grigory Pomadchin in Moscow Spark
а
источник

GP

Grigory Pomadchin in Moscow Spark
ну это ты сам 'идиот' что закешировал не отсорированые
источник