Телеграмм чат группы moscowspark страница 997

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

1233 membersпожаловаться на группу

2022 February 04

PL

Pavel Lu in Moscow Spark

т.е. такое поведение - оно вообще нормальное, или это не норма и мне нужно искать у себя какие-то особенности?

источник

16:57пожаловаться #1

ИК

Иван Калининский... in Moscow Spark

сотня гигов и 300 партиций по умолчанию? Что-то явно не так

источник

16:57пожаловаться #2

PL

Pavel Lu in Moscow Spark

основное бутылочное горлышко это CPU

источник

16:58пожаловаться #3

PL

Pavel Lu in Moscow Spark

поэтому много партиций

источник

16:58пожаловаться #4

k

kvadratura in Moscow Spark

вы выставляете spark.default.parallelism где-нибудь?

источник

16:59пожаловаться #5

PL

Pavel Lu in Moscow Spark

ага

источник

16:59пожаловаться #6

PL

Pavel Lu in Moscow Spark

уже. Не стоило?

источник

17:00пожаловаться #7

PL

Pavel Lu in Moscow Spark

тоже в 3к ставил

источник

17:00пожаловаться #8

k

kvadratura in Moscow Spark

может, тогда просто докинуть ядер экзекюторам? не меняя код

источник

17:01пожаловаться #9

ИК

Иван Калининский... in Moscow Spark

чем записаны и как сжаты паркетники?

источник

17:01пожаловаться #10

k

kvadratura in Moscow Spark

файлов тоже 300? или именно "директорий"?

источник

17:02пожаловаться #11

PL

Pavel Lu in Moscow Spark

файлов, да

источник

17:02пожаловаться #12

PL

Pavel Lu in Moscow Spark

хм, попробую

источник

17:03пожаловаться #13

k

kvadratura in Moscow Spark

если они записаны пандасом каким-нибудь, там нередко может быть 1 row group на весь файл. т. е. получится не splittable

но я так понимаю, тут в другом проблема 🤔

источник

17:04пожаловаться #14

PL

Pavel Lu in Moscow Spark

спарком, snappy. При записи был repartition(300)

источник

17:04пожаловаться #15

k

kvadratura in Moscow Spark

обычно при чтении такого не будет ровно 300 партиций все равно 🤔 что-то подозрительно

источник

17:06пожаловаться #16

PL

Pavel Lu in Moscow Spark

ну да, не то слово)

источник

17:06пожаловаться #17

ИК

Иван Калининский... in Moscow Spark

пока выглядит как если бы в данных было 300 уникальных значений, но если пробовали repartition по rand и без указания поля, то спарк разделил бы и эти три сотни

источник

17:07пожаловаться #18

k

kvadratura in Moscow Spark

как пришли к такому выводу?

источник

17:07пожаловаться #19

PL

Pavel Lu in Moscow Spark

а вот кстати надо глянуть файлы. Может там и правда то густо то пусто

источник

17:07пожаловаться #20