Телеграмм чат группы moscowspark страница 119

Запускаю параллельно через треды, два теста. Один логрегрессию обучает и делает предикт.
Размеры входных датасетов
rows X columns X partitions
(896, 3, 5) и длинна векторов фичей внутри фрейма 16340
Второй тест делает кастомный процессинг, с джойнами и подсчетом статистик. На входе
rows X columns X partitions
(14652288, 3, 8) и (14640640, 3, 10)
Я понимаю что без кода это гадание, но мне интересны общие практики.

источник

12:56пожаловаться #5

PK

Pavel Klemenkov in Moscow Spark

Ну первый тест вообще смешной. В каждой партиции, если повезет, не больше 200 записей. Там накладных расходов на старт джобы и планирование тасков сильно больше

источник

12:59пожаловаться #6

AA

Anton Alekseev in Moscow Spark

А да, я не уточнил, там логрегрессия учится OvR, тоесть порядка 10 логрегрессий обучается, если это важно.

источник

13:00пожаловаться #7

PK

Pavel Klemenkov in Moscow Spark

Второй не очень понимаю. Без кода реально сложно. Но обшая практика такая, что если влезает на одну тачку, то делай на одной тачки (потоками, процессами, пофиг). Хотя в питоне с CPU-интенсив вычислениями лучше многопоточностью не пользоваться. Если не влезает, то можно и спарк заюзать. Пример в статье про UDAF - нормальный, так постоянно делают

источник

13:00пожаловаться #8

AA

Anton Alekseev in Moscow Spark

Pavel Klemenkov

Второй не очень понимаю. Без кода реально сложно. Но обшая практика такая, что если влезает на одну тачку, то делай на одной тачки (потоками, процессами, пофиг). Хотя в питоне с CPU-интенсив вычислениями лучше многопоточностью не пользоваться. Если не влезает, то можно и спарк заюзать. Пример в статье про UDAF - нормальный, так постоянно делают

Я так понял, что засабмитив джобу через треды на спарк датафрейме, они будут распределённо исполнятся, а не на драйвере. Logit из Pyspark ml беру.

источник

13:03пожаловаться #9

AA

Anton Alekseev in Moscow Spark

Ну это как вы написали больше оверхеда вызовет для старта джобы.

источник

13:06пожаловаться #10

E

Eugene in Moscow Spark

Anton Alekseev

Я так понял, что засабмитив джобу через треды на спарк датафрейме, они будут распределённо исполнятся, а не на драйвере. Logit из Pyspark ml беру.