Size: a a a

2021 August 08

SI

Sergey Ivanychev in Moscow Spark
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Returns a new Dataset that has exactly numPartitions partitions.
источник

ПФ

Паша Финкельштейн... in Moscow Spark
не тот метод
источник

AV

Alexei Vasilev in Moscow Spark
Кнопка соурс может помочь
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Они специально ничего не пишут, я уверен
источник

SI

Sergey Ivanychev in Moscow Spark
Она отправляет на сорцы пайспарка, который через py4j форвардит в jvm
источник

ПФ

Паша Финкельштейн... in Moscow Spark
А, про пайспарк не знаю
источник

SI

Sergey Ivanychev in Moscow Spark
Ага, при этом по какому принципу происходит репартицирование не понятно
источник

AV

Alexei Vasilev in Moscow Spark
А, всмысле хотелось описания словами, ок
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Ну так и нет никакиз гарантий
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Они, я уверен специально этого не специфицируют
источник

SI

Sergey Ivanychev in Moscow Spark
Типа, вдруг все кроме одной партиции будут пустыми — тоже вполне поведение удовлетворяет доке
источник

ПФ

Паша Финкельштейн... in Moscow Spark
так и есть
источник

SI

Sergey Ivanychev in Moscow Spark
При этом де-факто очень много эта сигнатура используется
источник

SI

Sergey Ivanychev in Moscow Spark
Часто, например, при сохранении на диск
источник

ПФ

Паша Финкельштейн... in Moscow Spark
опять же, они, я уверен, это ен специфицируют специально
источник

GP

Grigory Pomadchin in Moscow Spark
Разбивает твой датасет на партиции; типо у тебя датасет (1,2,3); сделаешь репартишн на три и у тебя каждая цифра будет в своей партиции
источник

GP

Grigory Pomadchin in Moscow Spark
(: я хз это ли те хотелось услышать или не
источник

GP

Grigory Pomadchin in Moscow Spark
шафл случается, разумеется; раскидывать так можно твои записи на разные машины
источник

GP

Grigory Pomadchin in Moscow Spark
Ну пай спарк также как обычный
источник