Size: a a a

2021 August 31

ЕГ

Евгений Глотов... in Moscow Spark
Ну значит надо по ключу джойна разложить, по хэшу по модулю от ключа
источник

ЕГ

Евгений Глотов... in Moscow Spark
Партиции именно
источник

ЕГ

Евгений Глотов... in Moscow Spark
Или бакетинг
источник

ПБ

Повелитель Бури... in Moscow Spark
Согласен, надо курить, читать, тестить: из коробки быстро не работает. Даже если ресурсы напихать🙈
источник

ЕГ

Евгений Глотов... in Moscow Spark
Стоп, а один хрен все данные читать
источник

ЕГ

Евгений Глотов... in Moscow Spark
Вопрос только будет шафл или нет
источник

ЕГ

Евгений Глотов... in Moscow Spark
А во второй табличке тоже терабайты?
источник

ПБ

Повелитель Бури... in Moscow Spark
Да условно заголовки чеков и детали чека. В заголовках есть дата. Но детали все равно сканируются все даже с inner join
источник

ЕГ

Евгений Глотов... in Moscow Spark
Возьми из одной таблицы даты и фильтрани другую таблицу на эти даты руками
источник

ЕГ

Евгений Глотов... in Moscow Spark
Опять же, если заголовки всех чеков, то наверно они поджойнятся со всеми деталями всех чеков
источник

ЕГ

Евгений Глотов... in Moscow Spark
Если не всех и не за все даты, то такая ручная оптимизация даст ускорение
источник

ПБ

Повелитель Бури... in Moscow Spark
Спасибо, попробую)
<iframe src="https://paiza.io/projects/e/P6asYUBa-Uf-B_MyDIvxew?theme=twilight" width="100%" height="500" scrolling="no" seamless="seamless"></iframe>
источник

KR

Kagermanov Ramazan in Moscow Spark
Почему спарк требует группировку, когда пытаюсь достать одно значение по одной колонке?
Хочу новую колонку добавить через withColumn
*(when(conditions),
datediff(max($”a.date1”), $”date2”))*
источник

ЕГ

Евгений Глотов... in Moscow Spark
Потому что max - в данном случае функция, которая относится ко всей таблице
источник

ЕГ

Евгений Глотов... in Moscow Spark
Это отдельный подзапрос, спарк не позволяет выполнить запрос в запросе
источник

KR

Kagermanov Ramazan in Moscow Spark
Не особо понимаю, как мне тогда это обойти, учитывая, что мне надо именно с фильтрами это делать
Нельзя один раз в коллекте рассчитать и использовать
Для каждого поля свой Макс должен быть
источник

ЕГ

Евгений Глотов... in Moscow Spark
А, тогда это не макс, а greatest
источник

ЕГ

Евгений Глотов... in Moscow Spark
Из 2 значений же надо большее выбрать?
источник

EC

Elly Cain in Moscow Spark
​​💻Современные цифровые технологии, комплексно сочетающие хакерство, deep fake и fake news (HDFN-технологии), могут быть применены, чтобы спровоцировать внутриполитические и международные конфликты, выводя традиционные операции под чужим флагом (False flag) на качественно новый уровень.📱

👉Особенно если удастся, наряду с этим, перехватить управление общественными, экономическими или другими структурами противника, чьи действия или бездействие в критический момент будут «подтверждать» HDFN-провокацию.

💡Поскольку уведомление о таких угрозах отчасти озвучена на официальном уровне пресс-секретарем Президента Дмитрием Песковым, следует предположить, что возможность таких попыток (либо их подражаний) уже в ближайшее время довольно велика.
источник

KR

Kagermanov Ramazan in Moscow Spark
Нет
Есть две таблицы
Я их джойню по каким-то условиям потом надо
Из одной таблицы надо взять мах(date1)
Из второй таблицы просто  date2
Записать разницу в днях в новую колонку
источник