Телеграмм чат группы moscowspark страница 918

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

1195 membersпожаловаться на группу

2021 November 28

ИС

Иван Соловьев... in Moscow Spark

Всем привет! Подскажите пожалуйста, встретил недавно на собесе задачку:
есть три однотипных dataframe - большой, средний и маленький. В каком порядке оптимально их заджоинить?

источник

15:21пожаловаться #1

A

Alex in Moscow Spark

А вы уверены что спарк все не поменяет? :)

источник

15:22пожаловаться #2

A

Alex in Moscow Spark

Опять же: если средний и большой датафреймы уже отсортированы по полу которому будет джойн и вы начали с них, то там может сразу sorted merge join пойти, без решафла

источник

15:23пожаловаться #3

ИС

Иван Соловьев... in Moscow Spark

Я думал если RBO-оптимизатор, то не поменяет)

источник

15:24пожаловаться #4

A

Alex in Moscow Spark

Тут ещё можно спросить что за спарк, может там адаптивное выполнение уже включено

источник

15:24пожаловаться #5

ЕГ

Евгений Глотов... in Moscow Spark

Без адаптива джойнит в порядке который задали

источник

15:37пожаловаться #6

ЕГ

Евгений Глотов... in Moscow Spark

Если маленький влезает в бродкаст, если джойн срезает много рядов, то оптимально будет маленький+большой, потом результат со средним

источник

15:38пожаловаться #7

ЕГ

Евгений Глотов... in Moscow Spark

Если не срезает, то особо не должно быть разницы

источник

15:38пожаловаться #8

ЕГ

Евгений Глотов... in Moscow Spark

Но если маленький срезает много рядов со среднего, то есть шанс их результат тоже забродкастить

источник

15:39пожаловаться #9

ЕГ

Евгений Глотов... in Moscow Spark

Тогда будет быстрее всего

источник

15:39пожаловаться #10

ЕГ

Евгений Глотов... in Moscow Spark

источник

15:40пожаловаться #11

ЕГ

Евгений Глотов... in Moscow Spark

Думаю, правильный ответ - рассуждение)

источник

15:42пожаловаться #12

A

Alex in Moscow Spark

Там разве не может cbo сработать? Вроде уже работало давно

источник

15:43пожаловаться #13

ЕГ

Евгений Глотов... in Moscow Spark

Пока что за свою практику видел только один случай его работы - когда он решил забродкастить ДФ на 2тб снаппи орка вместо того, который я ему сказал, на 1000 строчек)

источник

15:44пожаловаться #14

A

Alex in Moscow Spark

Ну то есть шансы есть :)

источник

15:45пожаловаться #15

ЕГ

Евгений Глотов... in Moscow Spark

Не)

источник

15:45пожаловаться #16

ЕГ

Евгений Глотов... in Moscow Spark

Только такой вот случай)

источник

15:45пожаловаться #17

ЕГ

Евгений Глотов... in Moscow Spark

В остальном порядок джойнов определяется юзером

источник

15:45пожаловаться #18

ИС

Иван Соловьев... in Moscow Spark

Спасибо большое)))

источник

16:36пожаловаться #19

2021 November 29

А

Алексей in Moscow Spark

что если для разововой нумерации воспользоваться:

(spark_partition_id()*10000000) + ROW_NUMBER() OVER(PARTITION BY spark_partition_id() ORDER BY 1 ) as rn

вроде, же должно параллелиться по spark_partition_id

источник

10:04пожаловаться #20