Size: a a a

2019 May 14

PK

Pavel Klemenkov in Moscow Spark
Ух какой движ. Спасибо за рекомендации.
источник

SZ

Sergey Zhemzhitsky in Moscow Spark
Alexander Rodionov 🦕🥦🥬🥒🍏🌵🦚🌲🌳🌴🌿☘️🍀🦖🦎🐍🐊🐸🍃🦠🌱🐢🐉🌾
+---+
|  A|
+---+
|  8|
|  8|
|  2|
|  6|
|  9|
|  7|
|  7|
|  5|
|  7|
|  5|
|  5|
|  0|
+---+


вот допустим есть датафрейм
как в 1 проход сделать 2 вещи:

- distinct, получить датафрейм с уникальными строчками
- посчитать число уникальных элементов в датафрейме

???


- кеш тоже 2 прохода, хоть и быстро
- писать ручной reduce?
- оконные функции?
можно попробовать через аккумуляторы как-то так
val acc = sc.longAccumulator
Seq(1,2,3,1,2,3).toDS.distinct().map{e=>acc.add(1);e}.count()

acc.value
res3: Long = 3  .

если аккумулятор апдейтится только на последней стадии (та, что ResultStage, ну или та, после которой больше нет шафлов), то есть гарантия, что он проапдейтится даж единожды
источник
2019 May 16

EN

Eldar Nezametdinov in Moscow Spark
Мужики и девушки, есть вопоос.
Можно же только для одного Spark Application задать Dynamic Resource Allocation ?
без изменения настроек в custom-defaults в Spark ?
(spark.dynamicAllocation.enabled = true
spark.shuffle.service.enabled = true )
тупо в spark-submit передавать и все ? ну и еще указывать диапозоны ресурсов..
источник

ЕГ

Евгений Глотов... in Moscow Spark
Можно
источник

ЕГ

Евгений Глотов... in Moscow Spark
Можно даже в коде поднятия спарк-сессии прописать
источник

EN

Eldar Nezametdinov in Moscow Spark
окей, понял, спасибо)
источник

SO

Simon Osipov in Moscow Spark
Прямиком в спарк-сессию можно что-нибудь типа .config('spark.dynamicAllocation.maxExecutors', '100') прокидывать
источник
2019 May 21

С

Сюткин in Moscow Spark
Господа, а кто-нибудь дропал партиции в цикле?
источник

KS

Kostya Shchetkin in Moscow Spark
спрашивай сразу)
источник

KS

Kostya Shchetkin in Moscow Spark
партиции вроде обычно передают списком
источник

KS

Kostya Shchetkin in Moscow Spark
но, кажется, в цикли ничего не должно мешать
источник

KS

Kostya Shchetkin in Moscow Spark
цикле;
источник
2019 May 28

AA

Anton Alekseev in Moscow Spark
День добрый. Если кто-то работал с EMR подскажите. Ситуация: При инициализации EMR кластера монтирую s3 бакет через s3fs-fuse в систему. Для одного приложения вычитываю csv файлы из вышеупомянутого s3 бакета, через преффикс "s3://" на бакет, для другого "file://" на смонтированную директории. После загрузки одного csv делаю count, columns и партиции проверяю и перехожу к следующему. Так вот параметры count, columns, партиции для обоих вариантов совпадают, вот только чтение через s3:// получается медленнее. (например 3 csv по 100 мб. кластер 4 машинки, для s3:// дают ~34 секунды, для file:// ~24.) Что стоит проверить, вдруг накосячил? (смущает что решение из коробки медленнее чем доп прослойка)
источник

GP

Grigory Pomadchin in Moscow Spark
Anton Alekseev
День добрый. Если кто-то работал с EMR подскажите. Ситуация: При инициализации EMR кластера монтирую s3 бакет через s3fs-fuse в систему. Для одного приложения вычитываю csv файлы из вышеупомянутого s3 бакета, через преффикс "s3://" на бакет, для другого "file://" на смонтированную директории. После загрузки одного csv делаю count, columns и партиции проверяю и перехожу к следующему. Так вот параметры count, columns, партиции для обоих вариантов совпадают, вот только чтение через s3:// получается медленнее. (например 3 csv по 100 мб. кластер 4 машинки, для s3:// дают ~34 секунды, для file:// ~24.) Что стоит проверить, вдруг накосячил? (смущает что решение из коробки медленнее чем доп прослойка)
s3a:// пробовал? Интересно s3:// ближе к s3n или s3a :d
источник

DG

Denis Gabaydulin in Moscow Spark
S3 latency от запроса к запросу могут иметь оч большую дисперсию.
источник

GP

Grigory Pomadchin in Moscow Spark
+ тем более если файлы мелкие
источник

AA

Anton Alekseev in Moscow Spark
Denis Gabaydulin
S3 latency от запроса к запросу могут иметь оч большую дисперсию.
я не один раз запускал) стабильно file быстрее
источник

AA

Anton Alekseev in Moscow Spark
Grigory Pomadchin
s3a:// пробовал? Интересно s3:// ближе к s3n или s3a :d
неа, не проверял.
источник

DG

Denis Gabaydulin in Moscow Spark
Ну значит разрабы fuse получше будут)
источник

GP

Grigory Pomadchin in Moscow Spark
Denis Gabaydulin
Ну значит разрабы fuse получше будут)
Я подозреваю они кешируют что-то
источник