Телеграмм чат группы moscowspark страница 776

Size: a a a

Moscow Spark

1187 membersпожаловаться на группу

2021 August 24

Grigory Pomadchin in Moscow Spark

Или узер дефайнед

источник

15:55пожаловаться #1

2021 August 26

Dmitry Mittov in Moscow Spark

Не должно: данные в S3/GS, когда у тебя просто EMR/Dataproc - это те же самые EC2 сервера, разве что без Docker

источник

11:41пожаловаться #2

Paulo Si in Moscow Spark

Всем привет. Возможно глупый вопрос, но все же. Предположим, что есть кластер. Я написал новый алгоритм для spark.ml, который хранится у меня локально. Далее я написал программу в apache toree, в которой использую свой новый алгоритм. Вопрос - будет ли работа такой программы работать распределено? Нужно ли мне заранее добавить этот файлик на каждую ноду?

И вообще, как обычно работают с кастомизацией спарка в кластере?

PS: если есть ссылки/статьи, то с радостью изучу

источник

16:57пожаловаться #3

Eugene Chipizubov in Moscow Spark

Зависимости нужно либо раскидать по кластеру, либо каждый раз при деплое таскать с джобой.
Но это сложно назвать кастомизацией спарка, либо я не понял вопрос

источник

17:05пожаловаться #4

Dmitry Sosna in Moscow Spark

господа гуру, подскажите, почему taskEnd.taskInfo.accumulables ничего не пишет про запись в файлы, хотя write вызывается? Версия старая 2.2

источник

17:57пожаловаться #5

Nikita Blagodarnyy in Moscow Spark

Я так парсил хбейсовые байт арреи, которые феникс по своему закодировал (не через Bytes.toBytes), а своими кодировщиками, типа таймстампы, феникс массивы и всё такое. Потом пришёл специально обученный архитектор, всё подмел и напихал вызовы методов феникс анкодировщика.

источник

18:14пожаловаться #6

Paulo Si in Moscow Spark

Тогда так поставлю вопрос: вот был бы у вас отдельно mllib(который сейчас есть в спарке, но представим, что он идёт полностью отдельно). Его бы вы на каждую ноду раскидывали ?

источник

19:39пожаловаться #7

No Name in Moscow Spark

А как по-другому распределенное обучение замутить?

источник

20:06пожаловаться #8

Paulo Si in Moscow Spark

Я поэтому и спрашиваю. Вдруг есть какой-то способ из драйвера екзекюторам весь mllib передавать.

источник

20:08пожаловаться #9

No Name in Moscow Spark

Ну, или с джобой, или на каждой ноде накатывать, вроде все.

источник

20:09пожаловаться #10

Paulo Si in Moscow Spark

Если уже установлено на каждой ноде, то будет быстрее? Или без разницы?

источник

20:10пожаловаться #11

No Name in Moscow Spark

Ну если либа у Вас не тонны весит, то вообще не заметите.

источник

20:12пожаловаться #12

Paulo Si in Moscow Spark

Отлично, спасибо большое за ответ

источник

20:12пожаловаться #13

Eugene Chipizubov in Moscow Spark

Ещё можно дополнительные пути с классами в hdfs положить, чтобы не заморачиваться.
spark.executor.extraClassPath
Да и вобще все нужные jars тоже туда же, правда конфликты бывают

источник

23:10пожаловаться #14

2021 August 27

Dmitriy Zaytsev in Moscow Spark

Котички, а вакансии можно тут постить? Я датаинженегра ищу.

источник

13:30пожаловаться #15

Сюткин in Moscow Spark

https://t.me/datajobs

Data jobs

Data Engineers related вакансии и обсуждение
Фид: https://t.me/datajobschannel
Основная группа: https://t.me/hadoopusers

источник

13:32пожаловаться #16

Dmitriy Zaytsev in Moscow Spark

Эт я уже, да. Спасибо 🙂

источник

13:34пожаловаться #17

2021 August 29

Никита in Moscow Spark

Подскажите пожалуйста, у меня 1 таска крутится бесконечно.
Джоинов нет.
Читаю партицированную папку по дате и хочу записать партицированную папку.
Делаю

repartition("dt")
Thread 95 spilling sort data of 8.3 GB to disk

источник

18:23пожаловаться #18

ЕГ

Евгений Глотов... in Moscow Spark

А сколько distinct dt в датафрейме?

источник

18:25пожаловаться #19

Никита in Moscow Spark

порядка 700-1000 каждый день с начала 2018

источник

18:25пожаловаться #20