Size: a a a

2022 January 28

ЕГ

Евгений Глотов... in Moscow Spark
А на запись какие наблюдения?
источник

ИК

Иван Калининский... in Moscow Spark
да такие же, AQE ещё не завезли, как прочитали, так и пишем)
Это если без шафла, конечно, как только шафл есть, так всякая определённость пропадает
источник

ЕГ

Евгений Глотов... in Moscow Spark
Наверно я тупанул, и там при чтении одно, а при записи наоборот
источник

ЕГ

Евгений Глотов... in Moscow Spark
Не, с шафлом
источник

ИК

Иван Калининский... in Moscow Spark
с шафлом ничего не скажу, наверное, там всяко может получаться. Но я точно знаю, что спарк нечасто меняет свои планы хД
источник

ЕГ

Евгений Глотов... in Moscow Spark
Дебильность в том, что не получается раскидать репартишеном так, чтоб не попадало несколько ключей в одну партицию, потому что какой у них хэш по модулю будет - не угадаешь
источник

PL

Pavel Lu in Moscow Spark
вовово
источник

ИК

Иван Калининский... in Moscow Spark
вот, поэтому приходится интимно взаимодействовать с кастомными партишенерами)
источник

PL

Pavel Lu in Moscow Spark
может быть там оконная функция? если правильно понимаю, repartition не хочет раскидывать равномерно?
источник

ЕГ

Евгений Глотов... in Moscow Spark
источник

ИК

Иван Калининский... in Moscow Spark
вообще, в этом как раз его задача - равномерно раскидать
источник

ЕГ

Евгений Глотов... in Moscow Spark
Ну сделали бы от инта хэш инт)
источник

ЕГ

Евгений Глотов... in Moscow Spark
Сам по себе)
источник

ЕГ

Евгений Глотов... in Moscow Spark
Или хотя бы IntBleatPartitioner)
источник

ИК

Иван Калининский... in Moscow Spark
было б неплохо
источник

ИК

Иван Калининский... in Moscow Spark
он есть, ща
источник

ЕГ

Евгений Глотов... in Moscow Spark
Давай в опенсорс)
источник

PL

Pavel Lu in Moscow Spark
план в студию))
источник

ЕГ

Евгений Глотов... in Moscow Spark
источник

ИК

Иван Калининский... in Moscow Spark
/**
* A dummy partitioner for use with records whose partition ids have been pre-computed (i.e. for
* use on RDDs of (Int, Row) pairs where the Int is a partition id in the expected range).
*/
private class PartitionIdPassthrough(override val numPartitions: Int) extends Partitioner {
 override def getPartition(key: Any): Int = key.asInstanceOf[Int]
}
источник