Телеграмм чат группы moscowspark страница 927

Недоумение вызывает то, что .repartitionAndSortWithinPartitions(…) делает это более оптимально чем .repartition(…).sortWithinPartitions(…), но этот API доступен только из RDD

источник

12:01пожаловаться #8

Sergey Ivanychev in Moscow Spark

Я бы ожидал что .repartition(…).sortWithinPartitions(…) транслировался в подобный repartitionAndSortWithinPartitions физический план, но такого не происходит

источник

12:02пожаловаться #9

ЕГ

Евгений Глотов... in Moscow Spark

Rdd api щас ничего общего не имеет с dataframe api

источник

12:04пожаловаться #10

ИК

Иван Калининский... in Moscow Spark

Никакого недоумения не должно быть, это разные операции, они не сливаются в одну. Указан repartition - будет repartition, потом локальный сорт - он и будет, возможно, по другим полям. Если нужно, чтобы выполнен был .repartionAndSortWithinPartitions, его и надо выполнять

источник

12:40пожаловаться #11

Sergey Ivanychev in Moscow Spark

repartionAndSortWithinPartitions как раз позволяет репартицировать по одним полям и сортировать по другим. Почему из DataFrame API оно не фьюзится в то, как это делается в repartionAndSortWithinPartitions?

источник

12:41пожаловаться #12

ИК

Иван Калининский... in Moscow Spark

Потому что так не сделано в стратегиях Spark))

def repartitionAndSortWithinPartitions(partitioner: Partitioner): RDD[(K, V)] = self.withScope {
new ShuffledRDD[K, V, V](self, partitioner).setKeyOrdering(ordering)
}
private val ordering = implicitly[Ordering[K]]

Я отдельно делал, чтобы был k-way merge по другим полям

источник

12:45пожаловаться #13

ИК

Иван Калининский... in Moscow Spark

версия 2.4, да

источник

12:46пожаловаться #14

Sergey Ivanychev in Moscow Spark

я как раз понимаю что не сделано, просто на мой взгляд странно что эта техника по дефолту доступна из RDD API и недоступна из DataFrame API

источник

12:46пожаловаться #15

Sergey Ivanychev in Moscow Spark

Через кастомный оператор делал?

источник

12:47пожаловаться #16

Sergey Ivanychev in Moscow Spark

Было бы очень интересно как можно это фокус провернуть, не проваливаясь в RDD

источник

12:50пожаловаться #17

ИК

Иван Калининский... in Moscow Spark

https://habr.com/ru/company/sberbank/blog/583018/

Вот вторая часть статьи, опубликовал в октябре, код прямо в ней (особенности публикации)

Хабр

Изменить сохранения Spark Часть вторая: реализация партишенера

Автор: Иван Калининский, участник профессионального сообщества Сбера SberProfi DWH/BigData.Профессиональное сообщество SberProfi DWH/BigData отвечает за развитие компетенций в таких направлениях, как...

источник

12:54пожаловаться #18

Sergey Ivanychev in Moscow Spark

Иван, спасибо!

источник

12:55пожаловаться #19

ДД

Джон Дориан... in Moscow Spark

Коллеги, всем привет!
В Спарке 2.4 включена dynamic allocation.

Джоба в процессе выполнения запрашивает какое-то бешеное количество экзекьюторов.
В логах вижу сообщения типа:

Request 20 additional executors.
New desirable count of executors = 250

Request 35 additional executors.
New desirable count of executors = 285.

При запуске было указано число экзекьюторов=9, 5 ядер на каждом, 10 Гб памяти на каждом.

С чем может быть связан такой большой запрос на новые экзекьюторы? Там цифры до 400 доходят

источник

16:01пожаловаться #20