Size: a a a

2019 March 11

V

Vasily in Moscow Spark
Alexander Kapustin
подобная ошибка была при запуске spark2 из oozie, была связана с определением версии spark и параметром spark.yarn.jars
А как вы сейчас запускаете spark2-код из Oozie?
источник

AK

Alexander Kapustin in Moscow Spark
В текущих версиях hdp (по идее с 3.0) все хорошо. А на старых пришлось брать не штатный oozie... Ну либо жить с local Mode, но это хреновая жизнь)
источник

V

Vasily in Moscow Spark
Alexander Kapustin
В текущих версиях hdp (по идее с 3.0) все хорошо. А на старых пришлось брать не штатный oozie... Ну либо жить с local Mode, но это хреновая жизнь)
То-есть смотреть в сторону SharedLib spark2 для spark action бесполезно?
источник

AK

Alexander Kapustin in Moscow Spark
Там пришлось не только его вроде патчить, но и часть сервера. Давно это уже было)
источник
2019 March 12

PK

Pavel Klemenkov in Moscow Spark
Всем привет! Я, если честно, был удивлен как много (почти 50% ответивших) используют Spark ML в проде. Теперь мне стало еще интересней и я подготовил небольшой опросик для уточнения деталей. Очень прошу тех, кто ответил, что используют Spark ML в проде, пройти его. Это всего 5 минут https://goo.gl/forms/6w7VD0KhOgH5qOWC2
источник

N

Nikolay in Moscow Spark
А для чего мл в прод используете ? Обучать модели или уже prefict делать
источник

PK

Pavel Klemenkov in Moscow Spark
Nikolay
А для чего мл в прод используете ? Обучать модели или уже prefict делать
Мы предиктим
источник

AM

Artem Muravlev in Moscow Spark
Добрый день всем) Хотел узнать как вы пишите на Спарке. У меня большая джоба и мало памяти с процессорами. Увеличить пока не имею возможности. Стоит ли сохранять промежуточные результаты в hdfs, затем поднимать новую сесию и продолжать работу уже с агрегированными данными?
источник

ЕГ

Евгений Глотов... in Moscow Spark
Часто помогает просто увеличить spark.sql.shuffle.partitions
источник

AM

Artem Muravlev in Moscow Spark
Евгений Глотов
Часто помогает просто увеличить spark.sql.shuffle.partitions
спасибо сейчас почитаю
источник

ЕГ

Евгений Глотов... in Moscow Spark
Сохранять промежуточные результаты тоже помогает, если граф выполнения никак не хочет строиться, как надо
источник

ЕГ

Евгений Глотов... in Moscow Spark
Допустим, у меня 50 джойнов, из них одна табличка огромная и 49 маленьких
источник

PK

Pavel Klemenkov in Moscow Spark
Artem Muravlev
Добрый день всем) Хотел узнать как вы пишите на Спарке. У меня большая джоба и мало памяти с процессорами. Увеличить пока не имею возможности. Стоит ли сохранять промежуточные результаты в hdfs, затем поднимать новую сесию и продолжать работу уже с агрегированными данными?
А какая проблема-то? Медленно считается, падает по памяти, еще какие-то траблы?
источник

AM

Artem Muravlev in Moscow Spark
Я персистю максимально на диск, помагает, но не очень
источник

ЕГ

Евгений Глотов... in Moscow Spark
Поджойнить отдельно маленькие, сохранить и потом один большой джойн с большой таблицей работает сильно быстрее, чем джойнить всё за один раз
источник

PK

Pavel Klemenkov in Moscow Spark
Artem Muravlev
Я персистю максимально на диск, помагает, но не очень
Персистить помогает, если джоба по одним и тем же данным несколько раз ходит.
источник

AM

Artem Muravlev in Moscow Spark
Pavel Klemenkov
А какая проблема-то? Медленно считается, падает по памяти, еще какие-то траблы?
падают Executor, фейлятся джобы...
источник

ЕГ

Евгений Глотов... in Moscow Spark
Персист надо использовать очень аккуратно
источник

ЕГ

Евгений Глотов... in Moscow Spark
Чаще всего он не помогает
источник

PK

Pavel Klemenkov in Moscow Spark
Artem Muravlev
падают Executor, фейлятся джобы...
По памяти?
источник