Size: a a a

2021 August 24

GP

Grigory Pomadchin in Moscow Spark
Или узер дефайнед
источник
2021 August 26

DM

Dmitry Mittov in Moscow Spark
Не должно: данные в S3/GS, когда у тебя просто EMR/Dataproc - это те же самые EC2 сервера, разве что без Docker
источник

PS

Paulo Si in Moscow Spark
Всем привет. Возможно глупый вопрос, но все же. Предположим, что есть кластер. Я написал новый алгоритм для spark.ml, который хранится у меня локально. Далее я написал программу в apache toree, в которой использую свой новый алгоритм. Вопрос - будет ли работа такой программы работать распределено? Нужно ли мне заранее добавить этот файлик на каждую ноду?

И вообще, как обычно работают с кастомизацией спарка в кластере?

PS: если есть ссылки/статьи, то с радостью изучу
источник

EC

Eugene Chipizubov in Moscow Spark
Зависимости нужно либо раскидать по кластеру, либо каждый раз при деплое  таскать с джобой.
Но это сложно назвать кастомизацией спарка, либо я не понял вопрос
источник

DS

Dmitry Sosna in Moscow Spark
господа гуру, подскажите, почему taskEnd.taskInfo.accumulables ничего не пишет про запись в файлы, хотя write вызывается? Версия старая 2.2
источник

N

Nikita Blagodarnyy in Moscow Spark
Я так парсил хбейсовые байт арреи, которые феникс по своему закодировал (не через Bytes.toBytes), а своими кодировщиками, типа таймстампы, феникс массивы и всё такое. Потом пришёл специально обученный архитектор, всё подмел и напихал вызовы методов феникс анкодировщика.
источник

PS

Paulo Si in Moscow Spark
Тогда так поставлю вопрос: вот был бы у вас отдельно mllib(который сейчас есть в спарке, но представим, что он идёт полностью отдельно). Его бы вы на каждую ноду раскидывали ?
источник

NN

No Name in Moscow Spark
А как по-другому распределенное обучение замутить?
источник

PS

Paulo Si in Moscow Spark
Я поэтому и спрашиваю. Вдруг есть какой-то способ из драйвера екзекюторам весь mllib передавать.
источник

NN

No Name in Moscow Spark
Ну, или с джобой, или на каждой ноде накатывать, вроде все.
источник

PS

Paulo Si in Moscow Spark
Если уже установлено на каждой ноде, то будет быстрее? Или без разницы?
источник

NN

No Name in Moscow Spark
Ну если либа у Вас не тонны весит, то вообще не заметите.
источник

PS

Paulo Si in Moscow Spark
Отлично, спасибо большое за ответ
источник

EC

Eugene Chipizubov in Moscow Spark
Ещё можно дополнительные пути с классами в hdfs положить, чтобы не заморачиваться.
spark.executor.extraClassPath
Да и вобще все нужные jars тоже туда же, правда конфликты бывают
источник
2021 August 27

DZ

Dmitriy Zaytsev in Moscow Spark
Котички, а вакансии можно тут постить? Я датаинженегра ищу.
источник

С

Сюткин in Moscow Spark
источник

DZ

Dmitriy Zaytsev in Moscow Spark
Эт я уже, да. Спасибо 🙂
источник
2021 August 29

Н

Никита in Moscow Spark
Подскажите пожалуйста, у меня 1 таска крутится бесконечно.
Джоинов нет.
Читаю партицированную папку по дате и хочу записать партицированную папку.
Делаю repartition("dt")
Thread 95 spilling sort data of 8.3 GB to disk
источник

ЕГ

Евгений Глотов... in Moscow Spark
А сколько distinct dt в датафрейме?
источник

Н

Никита in Moscow Spark
порядка 700-1000 каждый день с начала 2018
источник