Size: a a a

2021 October 07

ПФ

Паша Финкельштейн... in Data Engineers
Ага
источник

ПФ

Паша Финкельштейн... in Data Engineers
Ну и выполнить какую-то операцию, на которой прямо видно будет что у нас два воркера, например, работают, а остальные не делают ничего
источник

ПФ

Паша Финкельштейн... in Data Engineers
Ну то есть как ничего. Мало делают
источник

АM

Алексей Mильто... in Data Engineers
Маленький Shuffle.partitions и groupBy?
источник

АM

Алексей Mильто... in Data Engineers
Где в колонке группированной 80% это какое-то одно значение
источник

RI

Rustam Iksanov in Data Engineers
сгенерируй несколько ключей, к ним события, например изменение баланса и дата, для перекошенности, для пары ключей, сделай событие на каждую миллисекунду, а для обычных ключей каждый час
источник

AS

Andrey Smirnov in Data Engineers
Нагенерируй м/ж, сделай join по этому признаку
источник

ИК

Иван Калининский... in Data Engineers
Отличный вариант! И джоин, можно даже селф джоин потом
источник

ПФ

Паша Финкельштейн... in Data Engineers
Норм вариант, спасибо!
источник

ЕГ

Евгений Глотов... in Data Engineers
Просто пожалось хорошо значит
источник

OI

Oleg Ilinsky in Data Engineers
на самом деле, никто не знает ,как работает хадуп и просто придумывают правдоподобные легенды
источник

ИК

Иван Калининский... in Data Engineers
я экспериментровал с размерами файлов. Иногда бывало так, что я указывал небольшой размер блока (8 Мб, в тестах на миникластере локально на маке), и чуть меньше половины блока оставалось незаполненным, то есть паркет не создавал row group, который мог бы поместиться в оставшуюся часть. Когда сделал размер блока побольше (16 Мб), то в каждом блоке стало две row group, первая на две трети блока, вторая на треть. Почему так получалось, я не смог понять, но размер файлов во втором случае был действительно меньше на треть (120Мб и 80Мб соответственно).

Содержимое файлов не менялось, каждая запись содержала ключ и пару десятков строк одинакового размера
источник

A

Aleksandr in Data Engineers
Всем привет. Есть две большие таблицы, которые джойнятся спарком. Посмотрел план - там сорт мерж. Есть возможность забакетировать эти таблицы, много слышал про оптимизацию джойна путем бакетинга. Пытаюсь заюзать bucketBy(200) перед сохранением этих таблиц, в итоге смотрю в файловую систему - у меня очень-очень много файлов (что явилось неожиданностью для меня). Как с этим быть? Я так понял что у спарка какие-то проблемы с бакетингом
источник

ИК

Иван Калининский... in Data Engineers
Надо разобраться.
Во-первых, bucketBy делается по какому-то полю (полям), которые потом используются как ключ в джоине. По какому в данном случае?
Во-вторых, данные предварительно подготовлены, сделан repartition?
В-третьих, есть какие-либо дополнительные условия хранения таблиц, например, партиционирование?
источник

A

Aleksandr in Data Engineers
1. Джойн делается по нескольким полям, в моем случае их 5
2. repartition не сделан
3. партицирования нет, условий хранения дополнительных нет
источник

A

Aleksandr in Data Engineers
я вызываю типа bucketBy(200, col1, col2,col3,col4,col5)
источник

ИК

Иван Калининский... in Data Engineers
надо сделать repartition(n,col1, col2,col3,col4,col5), где n - не меньше 200. Таким образом каждый бакет будет находиться не более чем в одной партиции RDD. Это практически наверняка снизит количество файлов.

Также можно попробовать отсортировать по этим же полям, добавить в запись .sortBy(col1, col2,col3,col4,col5). Не уверен, что будет полезно, но попробовать стоит
источник

A

Aleksandr in Data Engineers
ок, спасибо попробую
источник

DZ

Dmitry Zuev in Data Engineers
Коллеги, jug.ru Group специально для нашего коммьюнити сделали промокод на смартдату, -10%.
источник

DZ

Dmitry Zuev in Data Engineers
Переслано от Anna Kurilo
Программа конференции для дата-инженеров SmartData 2021 готова!Программа конференции для дата-инженеров SmartData 2021 готова!SmartData 2021 готова!

11-14 октября вас будут ждать 33 доклада и 2 воркшопа, которые помогут пополнить арсенал инструментов, узнать о лучших практиках и сориентироваться в трендовых технологиях.

Темы конференции:
✔ Tooling: все об инструментах, которые используют в дата-инжиниринге;
Spark: штука настолько востребованная, что о ней будет сразу три доклада;
Processes: как организовать работу и процессы в команде;
Storage: базы данных, SQL-движки и многое другое;
Architecture: доклады об архитектуре и опыте работы с ней разных команд;
Industry usecases: реальный опыт, боль, успехи и провалы коллег.
Кроме докладов и воркшопов, вас будут ждать дискуссионные зоны, возможность вернуться к записям докладов, розыгрыши и много других приятных плюшек.

Специально для нашего чата организаторы сделали промокод dataengineers2021JUGRUpc, который дает скидку на Personal Standard билет.

Заходите на сайт конференции за подробностями и билетами.
источник