Телеграмм чат группы moscowspark страница 998

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

1233 membersпожаловаться на группу

2022 February 04

PL

Pavel Lu in Moscow Spark

данных мало, а вычислений требуется много

источник

17:07пожаловаться #1

PL

Pavel Lu in Moscow Spark

расчет хорошо реагирует на добавку ядер

источник

17:07пожаловаться #2

ИК

Иван Калининский... in Moscow Spark

попробуйте EDA провести, хотя бы на предмет количества записей, и сколько их в каждом файле

источник

17:08пожаловаться #3

k

kvadratura in Moscow Spark

ну, может, тогда и репартицировать не нужно? дикинуть ядер и усе

источник

17:08пожаловаться #4

PL

Pavel Lu in Moscow Spark

EDA? А что это?

источник

17:09пожаловаться #5

k

kvadratura in Moscow Spark

но плсмотрите в UI, есть ли признаки skew. то, о чем коллега говорит - глянуть, что там в инпуте + -

источник

17:09пожаловаться #6

k

kvadratura in Moscow Spark

exploratory data analysis

источник

17:09пожаловаться #7

ИК

Иван Калининский... in Moscow Spark

exploratory data analysis

источник

17:09пожаловаться #8

PL

Pavel Lu in Moscow Spark

конечно, в UI наблюдаю skew

источник

17:09пожаловаться #9

ИК

Иван Калининский... in Moscow Spark

источник

17:09пожаловаться #10

k

kvadratura in Moscow Spark

можете просто сделать read, вызвать ф-ю input_file_name и сгруппировать count по ней

источник

17:10пожаловаться #11

PL

Pavel Lu in Moscow Spark

спасибо, попробую

источник

17:10пожаловаться #12

k

kvadratura in Moscow Spark

причина skew может быть и не в инпуте, а в том, что за расчеты вы делаете

источник

17:11пожаловаться #13

ИК

Иван Калининский... in Moscow Spark

может оконные функции в запросах?

источник

17:13пожаловаться #14

ИК

Иван Калининский... in Moscow Spark

ну просто spark.read.parquet(path).repartition(3000) не может не раскидать записи, если они вообще есть)

источник

17:14пожаловаться #15

PL

Pavel Lu in Moscow Spark

в этом и был мой вопрос

источник

17:14пожаловаться #16

PL

Pavel Lu in Moscow Spark

оконок нет

источник

17:14пожаловаться #17

PL

Pavel Lu in Moscow Spark

я кое что накопал - делаю dataset.repartition(oldPartitionNum + 1), и это работает

источник

17:16пожаловаться #18

k

kvadratura in Moscow Spark

но есть в дате что-то с cardinality = 300, судя по всему 🤔 и если оно используется в shuffled операциях, repartition может быть без толку. но это оч странно все..

источник

17:16пожаловаться #19

PL

Pavel Lu in Moscow Spark

но там большая логика, и в неё впихнуть репартишн.... хз. Может поиграться shuffle.partitions?

источник

17:17пожаловаться #20