Телеграмм чат группы moscowspark страница 97

Всем привет! Я, если честно, был удивлен как много (почти 50% ответивших) используют Spark ML в проде. Теперь мне стало еще интересней и я подготовил небольшой опросик для уточнения деталей. Очень прошу тех, кто ответил, что используют Spark ML в проде, пройти его. Это всего 5 минут https://goo.gl/forms/6w7VD0KhOgH5qOWC2

Google Docs

Кейсы использования Spark ML

источник

10:52пожаловаться #5

N

Nikolay in Moscow Spark

А для чего мл в прод используете ? Обучать модели или уже prefict делать

источник

12:44пожаловаться #6

PK

Pavel Klemenkov in Moscow Spark

Nikolay

А для чего мл в прод используете ? Обучать модели или уже prefict делать

Мы предиктим

источник

13:00пожаловаться #7

AM

Artem Muravlev in Moscow Spark

Добрый день всем) Хотел узнать как вы пишите на Спарке. У меня большая джоба и мало памяти с процессорами. Увеличить пока не имею возможности. Стоит ли сохранять промежуточные результаты в hdfs, затем поднимать новую сесию и продолжать работу уже с агрегированными данными?

источник

13:37пожаловаться #8

ЕГ

Евгений Глотов... in Moscow Spark

Часто помогает просто увеличить spark.sql.shuffle.partitions

источник

13:41пожаловаться #9

AM

Artem Muravlev in Moscow Spark

Евгений Глотов

Часто помогает просто увеличить spark.sql.shuffle.partitions

спасибо сейчас почитаю

источник

13:44пожаловаться #10

ЕГ

Евгений Глотов... in Moscow Spark

Сохранять промежуточные результаты тоже помогает, если граф выполнения никак не хочет строиться, как надо

источник

13:44пожаловаться #11

ЕГ

Евгений Глотов... in Moscow Spark

Допустим, у меня 50 джойнов, из них одна табличка огромная и 49 маленьких

источник

13:44пожаловаться #12

PK

Pavel Klemenkov in Moscow Spark

Artem Muravlev

Добрый день всем) Хотел узнать как вы пишите на Спарке. У меня большая джоба и мало памяти с процессорами. Увеличить пока не имею возможности. Стоит ли сохранять промежуточные результаты в hdfs, затем поднимать новую сесию и продолжать работу уже с агрегированными данными?

А какая проблема-то? Медленно считается, падает по памяти, еще какие-то траблы?

источник

13:44пожаловаться #13

AM

Artem Muravlev in Moscow Spark

Я персистю максимально на диск, помагает, но не очень

источник

13:44пожаловаться #14

ЕГ

Евгений Глотов... in Moscow Spark

Поджойнить отдельно маленькие, сохранить и потом один большой джойн с большой таблицей работает сильно быстрее, чем джойнить всё за один раз

источник