Телеграмм чат группы moscowspark страница 213

parrot.ru

Рейтинг популярных групп и каналов

В рейтинге участвует:

групп:

каналов:

Виртуальный сервер на SSD - недорого!

Аренда выделенных и виртуальных серверов (VDS/VPS), хостинг, аренда IP-адресов, администрирование, круглосуточная поддержка

qwarta.ru подробнее

Резервное копирование с проверкой на вирусы!!!

Удобный сервис создания резервных копий на любой сервер сети интернет. Отслеживайте изменения, проверяйте на вирусы. Надежно защитите свой бизнес!

go.backupland.com

Выбираете сервер? Любая конфигурация на заказ!

Аренда физических серверов любых конфигураций под любые запросы - 1С бухгалтерия, игровые сервера, нагруженные проекты, интернет-магазины!

qwarta.ru подробнее

Size: a a a

Moscow Spark

872 membersпожаловаться на группу

2019 November 20

GT

Gennady Timofeev in Moscow Spark

Это нормальная практика работы с EMR - терминация кластера после окончания обработки батча. Особый шик - кластер не спотах, вот где экономия 😀

Так это ещё и нормальная практика, ох. Спасибо, грустновато

источник

22:33пожаловаться #1

SO

Simon Osipov in Moscow Spark

Добрый вечер!
Подскажите, пожалуйста:

Есть sql запрос:

select * from l where l.a in (select max(c) from r)

Через SparkSQL все реализуется просто и легко. Возможно ли такой трюк subquery провернуть над SparkDF?

источник

23:43пожаловаться #2

SO

Simon Osipov in Moscow Spark

Нашел только https://issues.apache.org/jira/browse/SPARK-23945 запрос на похожую фичу..

источник

23:44пожаловаться #3

A

Anton Lebedevich in Moscow Spark

в подзапросе никаких groupby, только одна строка результата с максимумом?

источник

23:45пожаловаться #4

SO

Simon Osipov in Moscow Spark

Anton Lebedevich

в подзапросе никаких groupby, только одна строка результата с максимумом?

ага

источник

23:46пожаловаться #5

A

Anton Lebedevich in Moscow Spark

обычно подзапросы разворачиваются в join, но тут явно надо сначала выполнить одно, а потом другое, чтобы сильно зарезать размер результата

источник

23:47пожаловаться #6

A

Anton Lebedevich in Moscow Spark

так, а тупое:

tmp = r.select(F.max('c').alias('max_c'))
l.join(tmp, tmp.max_c == l.c).show()

не прокатит?

источник

23:51пожаловаться #7

A

Anton Lebedevich in Moscow Spark

спарк консоли нет под рукой проверить

источник

23:52пожаловаться #8

SO

Simon Osipov in Moscow Spark

Спасибо за подсказку, пойду тестировать

источник

23:55пожаловаться #9

A

Anton Lebedevich in Moscow Spark

там еще может понадобится подсказать, что tmp надо бродкастнуть, чтобы не пытался весь l в шафл отправить

источник

23:56пожаловаться #10

2019 November 21

AK

Alena Korogodova in Moscow Spark

Ну, можно ещё значение коллектом в переменную затащить. И потом её значение в запрос подставить 😁

источник

00:01пожаловаться #11

A

Anton Lebedevich in Moscow Spark

норм вариант, кстати, т.к. бродкаст про сути это же сделает

источник

00:04пожаловаться #12

TA

Trudova Alexandra in Moscow Spark

Всем привет! Подскажите, пожалуйста, есть ли возможность определить размер паркета до его записи на диск? Нужно, чтобы спарк формировал файлы в пределах заданного размера.

источник

09:22пожаловаться #13

KS

Kostya Shchetkin in Moscow Spark

Добрый вечер!
Подскажите, пожалуйста:

Есть sql запрос:

select * from l where l.a in (select max(c) from r)

Через SparkSQL все реализуется просто и легко. Возможно ли такой трюк subquery провернуть над SparkDF?

А посмотри план запроса, что там выполняется?

источник

10:24пожаловаться #14

KS

Kostya Shchetkin in Moscow Spark

Trudova Alexandra

Всем привет! Подскажите, пожалуйста, есть ли возможность определить размер паркета до его записи на диск? Нужно, чтобы спарк формировал файлы в пределах заданного размера.

Есть, точно не помню как option называется, что-то вроде maxsizeperfile

источник

10:31пожаловаться #15

TA

Trudova Alexandra in Moscow Spark

Kostya Shchetkin

Есть, точно не помню как option называется, что-то вроде maxsizeperfile

Нужно не только верхнюю границу задавать, но и нижнюю. Т.е. нужно, чтобы спарк формировал файлы заданного размера

источник

10:49пожаловаться #16

DK

Denis Kornilov in Moscow Spark

Trudova Alexandra

Нужно не только верхнюю границу задавать, но и нижнюю. Т.е. нужно, чтобы спарк формировал файлы заданного размера

Варианта 2 как я понимаю:
1. Если ты знаешь сколько примерно
строк в каждом файле должно быть, то сначала делаем count и на его основе вычисляем количество выходных партиций.

2. Сохранить в tmp на hdfs, вычислить размер, потом репартицировать и сохранить как надо.

В обеих вариантах свои нюансы, но все работает.

источник

11:09пожаловаться #17

TA

Trudova Alexandra in Moscow Spark

Варианта 2 как я понимаю:
1. Если ты знаешь сколько примерно
строк в каждом файле должно быть, то сначала делаем count и на его основе вычисляем количество выходных партиций.

2. Сохранить в tmp на hdfs, вычислить размер, потом репартицировать и сохранить как надо.

В обеих вариантах свои нюансы, но все работает.

Спасибо. В первом варианте, как понимаю, надо средний размер строки знать

источник

11:14пожаловаться #18

DK

Denis Kornilov in Moscow Spark

Trudova Alexandra

Спасибо. В первом варианте, как понимаю, надо средний размер строки знать

Да. Еще нужно учитывать, что итоговый размер очень сильно зависит от сортировки внутри партиции, кодека сжатия и т.д.

источник

11:16пожаловаться #19

TA

Trudova Alexandra in Moscow Spark

Да. Еще нужно учитывать, что итоговый размер очень сильно зависит от сортировки внутри партиции, кодека сжатия и т.д.

Спасибо

источник

11:44пожаловаться #20