Size: a a a

2021 September 29

ЕГ

Евгений Глотов... in Moscow Spark
Тогда должно быть как минимум 50 партиций на 500мб данных
источник

ЕГ

Евгений Глотов... in Moscow Spark
Коалеск влияет на экзекушен план, может проброситься вверх, туда, где он ещё совсем не нужен
источник

KR

Kagermanov Ramazan in Moscow Spark
Я пытался найти информацию про то, как лучше всего делить, везде по-разному пишут и не особо понятно чему верить
В офф доках мало инфы
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Лан, репартишн 2, уговорил
источник

ЕГ

Евгений Глотов... in Moscow Spark
источник

ПФ

Паша Финкельштейн... in Moscow Spark
Вероятно да, не знаю
источник

KR

Kagermanov Ramazan in Moscow Spark
Входная таблица 500 мб
В сумме у меня 3 таблицы
Каждая из таблиц получаются путём джоина таблицы с ней же, далее сортировка, группировка и агрегация
Далее получаю одну таблицу путём джоина каждой из таблицы с первоначальной
В результате получаю начальную таблицу с 3 новыми полями
Стоит ли промежуточные таблицы где-то сохранять/кэшировать перед последним джоинов?
Может я в корне неправильно делаю?
источник

ЕГ

Евгений Глотов... in Moscow Spark
А зачем столько раз саму на себя джойнить
источник

ЕГ

Евгений Глотов... in Moscow Spark
Мне кажется, ты пытаешься изобрести оконку
источник

PZ

Petr Zhitnikov in Moscow Spark
Там с ключом джойна все норм? А то хрустальный шар кажет как будто там где-то есть значение которое на джойне размножается многократно
источник

KR

Kagermanov Ramazan in Moscow Spark
Ради агрегации
источник

KR

Kagermanov Ramazan in Moscow Spark
Начальное и конечное количество записей равны
источник

KR

Kagermanov Ramazan in Moscow Spark
Ключи уникальны
источник

KR

Kagermanov Ramazan in Moscow Spark
Я просто не особо понимаю в чем разница оконки и агрегации путём группировки
Вроде делают одно и тоже
источник

PZ

Petr Zhitnikov in Moscow Spark
Тогда не очень понятно откуда тут миллиарды записей при миллионах на входе
источник

ЕГ

Евгений Глотов... in Moscow Spark
Джойн не надо будет тащить)
источник

ЕГ

Евгений Глотов... in Moscow Spark
А, стоп, миллиарды рядов?
источник

ЕГ

Евгений Глотов... in Moscow Spark
Или миллионы?
источник

KR

Kagermanov Ramazan in Moscow Spark
Я вот тоже не особо понимаю, как любые вычисления с 500 мб могут так долго работать и выдавать такие промежуточные данные
источник

ЕГ

Евгений Глотов... in Moscow Spark
В 500мб миллиард не влезет никак
источник