Телеграмм чат группы moscowspark страница 915

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

1195 membersпожаловаться на группу

2021 November 26

DZ

Dmitry Zuev in Moscow Spark

паковать джарку с спарком то еще удовольствие

источник

15:43пожаловаться #1

SI

Sergey Ivanychev in Moscow Spark

Наверное, assembly вообще удалю. В нашем проекте мы делаем assembly, потому что часто для сторонних спарк пакетов мы пакуем прямо в джарник его

источник

15:43пожаловаться #2

SI

Sergey Ivanychev in Moscow Spark

ну и без стратегии оно упадет

источник

15:43пожаловаться #3

DZ

Dmitry Zuev in Moscow Spark

как я провел лето

источник

15:44пожаловаться #4

A

Alex in Moscow Spark

Основное замечание было что стратегия куцая и неправильная

источник

15:44пожаловаться #5

SI

Sergey Ivanychev in Moscow Spark

Да, интро про то, зачем это вообще не помешает — спасибо

источник

15:44пожаловаться #6

SI

Sergey Ivanychev in Moscow Spark

Я могу честно признаться что

1. Я не шарю в sbt глубоко
2. Стратегия работает, если спарк паковать в сам джарник
3. Тот кусок я вообще уберу, видимо

источник

15:45пожаловаться #7

A

Alex in Moscow Spark

2. вы счастливчик и видимо у вас мало либ

источник

15:45пожаловаться #8

DZ

Dmitry Zuev in Moscow Spark

2. вы скорее всего не запускаете свой код

источник

15:46пожаловаться #9

SI

Sergey Ivanychev in Moscow Spark

немало, просто в градле запаковкой занимается shadowJar, там оно по-другому описывается

источник

15:46пожаловаться #10

A

Alex in Moscow Spark

http://java.msk.ru/literally-a-silver-bullet-for-sbt-merge-strategies-in-projects-using-spark-structured-streaming-and-kafka/

вот тут про services написано

Literally a silver bullet for sbt merge strategies in projects using Spark structured streaming and Kafka

Recently it was an intolerable pain for me to build a so-called fat jar’s for my Spark jobs in Scala using sbt. Well, what’s was happening there? (NOTE: if you’re don’t use …

источник

15:47пожаловаться #11

SI

Sergey Ivanychev in Moscow Spark

спасибо!

источник

15:47пожаловаться #12

A

Alex in Moscow Spark

https://www.baeldung.com/java-spi

вот про сам spi

Java Service Provider Interface | Baeldung

Have a look at the components of the Java Service Provider Interface with a practical use case.

источник

15:48пожаловаться #13

A

Alex in Moscow Spark

точно так же провайдеры для json/hadoop FileSystem и вагона всего описывается
и ваш discard/first поломает всё

источник

15:49пожаловаться #14

A

Alex in Moscow Spark

поэтому services всегда своя стратегия
maven по дефолту делает concat
сбт умеет и дедупликацию строк после concat делать

источник

15:49пожаловаться #15

A

Alex in Moscow Spark

@ivanychev в грейдле это тоже нужно описывать, правда чуть по дргому, но там логика тоже понятна

https://github.com/johnrengelman/shadow/blob/master/src/docs/configuration/merging/README.md#merging-service-descriptor-files
https://github.com/johnrengelman/shadow/blob/master/src/main/groovy/com/github/jengelman/gradle/plugins/shadow/transformers/ServiceFileTransformer.groovy#L33-L40

shadow/README.md at master · johnrengelman/shadow

Gradle plugin to create fat/uber JARs, apply file transforms, and relocate packages for applications and libraries. Gradle version of Maven's Shade plugin. - shadow/README.md at master · jo...

источник

15:54пожаловаться #16

РП

Роман Пашкевич... in Moscow Spark

Господа Спарководы.
Спрошу вашего опыта.
Есть вот такие вводные данные. По записи данных Спарком в HIVE.

"1млрд в 150 партиций залился за 20 минут
600млн в одну партицию - 2 часа 10 минут"

Для меня это несколько странно. Но что можно придумать. Чтобы 1 единственную перекошенную партицию в 600млн записывать быстрее? (остальные партиции по 3-20млн строк)

источник

16:12пожаловаться #17

A

Alex in Moscow Spark

а что именно смущает?

паркет тот же самый порядочно памяти/cpu может жрать на записи
особенно если некоторые части не влазят в буфер в памяти и он начинает их спилить на диск

источник

16:14пожаловаться #18

РП

Роман Пашкевич... in Moscow Spark

Ну может как то можно ее в процессе спуска нарезать?

источник

16:15пожаловаться #19

ИК

Иван Калининский... in Moscow Spark

надо сделать ей unskew)) Она не просто так образовалась, и надо локализовать этот этап и порубить партицию на несколько

источник

16:15пожаловаться #20