Телеграмм чат группы moscowspark страница 747

Привет! А кто-то знает как конкретно df.repartition(10) шаффлит данные? Что конкретно используется для вычисления хеша и как его руками воспроизвести?

источник

11:37пожаловаться #5

ПФ

Паша Финкельштейн... in Moscow Spark

Думаешь там есть оптимизации прям такие? Я бы просто добавил rownum на каждой ноде и по остатку от деления на число нод отсылал бы на соответствующие ноды

источник

11:41пожаловаться #6

ПФ

Паша Финкельштейн... in Moscow Spark

Ага, ну нет, работает оно не так

источник

11:42пожаловаться #7

ПФ

Паша Финкельштейн... in Moscow Spark

partition = key.hashCode () % numPartitions

источник

11:42пожаловаться #8

Sergey Ivanychev in Moscow Spark

В случае датафрейма ключ это что?

источник

11:45пожаловаться #9

ПФ

Паша Финкельштейн... in Moscow Spark

ищу )

источник

11:49пожаловаться #10

ПФ

Паша Финкельштейн... in Moscow Spark

индексирование проекта спарка — боль

источник

11:53пожаловаться #11

tenKe in Moscow Spark

если мне память не изменяет, там рандом % новому числу партиций

источник

12:03пожаловаться #12

ПФ

Паша Финкельштейн... in Moscow Spark

Короче походу правда посередине.

источник

12:16пожаловаться #13

ИК

Иван Калининский... in Moscow Spark

Рандом должен быть нерандомный))
Для стабильного разделения сидируется номером партиции RDD, ограничен количеством партиций.

источник

12:17пожаловаться #14

ПФ

Паша Финкельштейн... in Moscow Spark

Формально там берётся хэшкод у объекта

  def getPartition(key: Any): Int = key match {
    case null => 0
    case _ => Utils.nonNegativeMod(key.hashCode, numPartitions)
  }

источник

12:17пожаловаться #15

ПФ

Паша Финкельштейн... in Moscow Spark

Но ключём выступает Row, видимо, у которого хэшкод не определён

источник

12:18пожаловаться #16

ПФ

Паша Финкельштейн... in Moscow Spark

А потом начинаем читать код и видим что всё сложнее, и, например, в UnsafeShuffleWriter ключём является значение из первой колонки

источник

12:21пожаловаться #17

ПФ

Паша Финкельштейн... in Moscow Spark

Но нас скорее всего интересует всё-таки

    def getPartitionKeyExtractor(): InternalRow => Any = newPartitioning match {
      case RoundRobinPartitioning(numPartitions) =>
        // Distributes elements evenly across output partitions, starting from a random partition.
        var position = new Random(TaskContext.get().partitionId()).nextInt(numPartitions)
        (row: InternalRow) => {
          // The HashPartitioner will handle the `mod` by the number of partitions
          position += 1
          position
        }
      case h: HashPartitioning =>
        val projection = UnsafeProjection.create(h.partitionIdExpression :: Nil, outputAttributes)
        row => projection(row).getInt(0)
      case RangePartitioning(sortingExpressions, _) =>
        val projection = UnsafeProjection.create(sortingExpressions.map(_.child), outputAttributes)
        row => projection(row)
      case SinglePartition => identity
      case _ => sys.error(s"Exchange not implemented for $newPartitioning")
    }

источник

12:23пожаловаться #18

ПФ

Паша Финкельштейн... in Moscow Spark

@ivanychev ↑

источник

12:23пожаловаться #19

ПФ

Паша Финкельштейн... in Moscow Spark

Если раундробин — то в точности как сказал Андрей

источник

12:24пожаловаться #20