Size: a a a

2021 September 01

SI

Sergey Ivanychev in Moscow Spark
по идее все должно ташиться в плане, так как df.checkpoint() будет обязан все сохранить, разве нет?
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Ну кажется сохранять в чекпоинте то, к чему никто не обратится необходимости нет
источник

SI

Sergey Ivanychev in Moscow Spark
в смысле нет? Ты можешь к этом обраться после чекпоинта
источник

SI

Sergey Ivanychev in Moscow Spark
чекпоинт не может менять набор колонок в датафрейме, следовательно он будет обязан их сохранить
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Так, а где вызывается чекпоинт?
источник

SI

Sergey Ivanychev in Moscow Spark
Это прямо Dataframe API
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Это я знаю
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Если вызвали руками понятно что всё сохранится
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Так же как и на cache и на write
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Допустим что руками не вызывали
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Тогда весь набор колонок кажется не нужен
источник

SI

Sergey Ivanychev in Moscow Spark
а, тебя интересует, посылает ли он физически в проводе, если терминирующая операция не нуждается в колонках?
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Ага
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Ну и там таскает ли по памяти соответственно
источник
2021 September 02

KR

Kagermanov Ramazan in Moscow Spark
Подскажите, пожалуйста, от чего зависит количество тасков?
Во время шафлинга у меня 32т тасков, как их уменьшить?
источник

SI

Sergey Ivanychev in Moscow Spark
Погугли опцию `spark.sql.shuffle.partitions`
источник

SI

Sergey Ivanychev in Moscow Spark
У тебя она скорее всего выставлена в 32к
источник

KR

Kagermanov Ramazan in Moscow Spark
Я так понял, что это не шафлинг, а количество блоков
источник

KR

Kagermanov Ramazan in Moscow Spark
Это я выставлял уже, не влияет
источник

SI

Sergey Ivanychev in Moscow Spark
это количество партиций, которое получится после шаффла — на каждую партицию будет создан таск
источник