Size: a a a

2021 November 26

DZ

Dmitry Zuev in Moscow Spark
паковать джарку с спарком то еще удовольствие
источник

SI

Sergey Ivanychev in Moscow Spark
Наверное, assembly вообще удалю. В нашем проекте мы делаем assembly, потому что часто для сторонних спарк пакетов мы пакуем прямо в джарник его
источник

SI

Sergey Ivanychev in Moscow Spark
ну и без стратегии оно упадет
источник

DZ

Dmitry Zuev in Moscow Spark
как я провел лето
источник

A

Alex in Moscow Spark
Основное замечание было что стратегия куцая и неправильная
источник

SI

Sergey Ivanychev in Moscow Spark
Да, интро про то, зачем это вообще не помешает — спасибо
источник

SI

Sergey Ivanychev in Moscow Spark
Я могу честно признаться что

1. Я не шарю в sbt глубоко
2. Стратегия работает, если спарк паковать в сам джарник
3. Тот кусок я вообще уберу, видимо
источник

A

Alex in Moscow Spark
2. вы счастливчик и видимо у вас мало либ
источник

DZ

Dmitry Zuev in Moscow Spark
2. вы скорее всего не запускаете свой код
источник

SI

Sergey Ivanychev in Moscow Spark
немало, просто в градле запаковкой занимается shadowJar, там оно по-другому описывается
источник

A

Alex in Moscow Spark
источник

SI

Sergey Ivanychev in Moscow Spark
спасибо!
источник

A

Alex in Moscow Spark
https://www.baeldung.com/java-spi

вот про сам spi
источник

A

Alex in Moscow Spark
точно так же провайдеры для json/hadoop FileSystem и вагона всего описывается
и ваш discard/first поломает всё
источник

A

Alex in Moscow Spark
поэтому services всегда своя стратегия
maven по дефолту делает concat
сбт умеет и дедупликацию строк после concat делать
источник

A

Alex in Moscow Spark
источник

РП

Роман Пашкевич... in Moscow Spark
Господа Спарководы.
Спрошу вашего опыта.
Есть вот такие вводные данные. По записи данных Спарком в HIVE.

"1млрд в 150 партиций залился за 20 минут
600млн в одну партицию - 2 часа 10 минут"

Для меня это несколько странно. Но что можно придумать. Чтобы 1 единственную перекошенную партицию в 600млн записывать быстрее?  (остальные партиции по 3-20млн строк)
источник

A

Alex in Moscow Spark
а что именно смущает?

паркет тот же самый порядочно памяти/cpu может жрать на записи
особенно если некоторые части не влазят в буфер в памяти и он начинает их спилить на диск
источник

РП

Роман Пашкевич... in Moscow Spark
Ну может как то можно ее в процессе спуска нарезать?
источник

ИК

Иван Калининский... in Moscow Spark
надо сделать ей unskew)) Она не просто так образовалась, и надо локализовать этот этап и порубить партицию на несколько
источник