Телеграмм чат группы hadoopusers страница 4307

сгенерируй несколько ключей, к ним события, например изменение баланса и дата, для перекошенности, для пары ключей, сделай событие на каждую миллисекунду, а для обычных ключей каждый час

источник

10:29пожаловаться #6

Andrey Smirnov in Data Engineers

Нагенерируй м/ж, сделай join по этому признаку

источник

10:30пожаловаться #7

ИК

Иван Калининский... in Data Engineers

Отличный вариант! И джоин, можно даже селф джоин потом

источник

10:30пожаловаться #8

ПФ

Паша Финкельштейн... in Data Engineers

Норм вариант, спасибо!

источник

10:46пожаловаться #9

ЕГ

Евгений Глотов... in Data Engineers

Просто пожалось хорошо значит

источник

11:05пожаловаться #10

Oleg Ilinsky in Data Engineers

на самом деле, никто не знает ,как работает хадуп и просто придумывают правдоподобные легенды

источник

11:06пожаловаться #11

ИК

Иван Калининский... in Data Engineers

я экспериментровал с размерами файлов. Иногда бывало так, что я указывал небольшой размер блока (8 Мб, в тестах на миникластере локально на маке), и чуть меньше половины блока оставалось незаполненным, то есть паркет не создавал row group, который мог бы поместиться в оставшуюся часть. Когда сделал размер блока побольше (16 Мб), то в каждом блоке стало две row group, первая на две трети блока, вторая на треть. Почему так получалось, я не смог понять, но размер файлов во втором случае был действительно меньше на треть (120Мб и 80Мб соответственно).

Содержимое файлов не менялось, каждая запись содержала ключ и пару десятков строк одинакового размера

источник

11:12пожаловаться #12

Aleksandr in Data Engineers

Всем привет. Есть две большие таблицы, которые джойнятся спарком. Посмотрел план - там сорт мерж. Есть возможность забакетировать эти таблицы, много слышал про оптимизацию джойна путем бакетинга. Пытаюсь заюзать bucketBy(200) перед сохранением этих таблиц, в итоге смотрю в файловую систему - у меня очень-очень много файлов (что явилось неожиданностью для меня). Как с этим быть? Я так понял что у спарка какие-то проблемы с бакетингом

источник

11:16пожаловаться #13

ИК

Иван Калининский... in Data Engineers

Надо разобраться.
Во-первых, bucketBy делается по какому-то полю (полям), которые потом используются как ключ в джоине. По какому в данном случае?
Во-вторых, данные предварительно подготовлены, сделан repartition?
В-третьих, есть какие-либо дополнительные условия хранения таблиц, например, партиционирование?

источник

11:19пожаловаться #14

Aleksandr in Data Engineers

1. Джойн делается по нескольким полям, в моем случае их 5
2. repartition не сделан
3. партицирования нет, условий хранения дополнительных нет

источник

11:21пожаловаться #15

Aleksandr in Data Engineers

я вызываю типа bucketBy(200, col1, col2,col3,col4,col5)

источник

11:22пожаловаться #16

ИК

Иван Калининский... in Data Engineers

надо сделать repartition(n,col1, col2,col3,col4,col5), где n - не меньше 200. Таким образом каждый бакет будет находиться не более чем в одной партиции RDD. Это практически наверняка снизит количество файлов.

Также можно попробовать отсортировать по этим же полям, добавить в запись .sortBy(col1, col2,col3,col4,col5). Не уверен, что будет полезно, но попробовать стоит

источник

11:31пожаловаться #17

Aleksandr in Data Engineers

ок, спасибо попробую

источник

11:32пожаловаться #18

Dmitry Zuev in Data Engineers

Коллеги, jug.ru Group специально для нашего коммьюнити сделали промокод на смартдату, -10%.

источник

12:45пожаловаться #19

Dmitry Zuev in Data Engineers

Переслано от Anna Kurilo

Программа конференции для дата-инженеров SmartData 2021 готова!Программа конференции для дата-инженеров SmartData 2021 готова!SmartData 2021 готова!

11-14 октября вас будут ждать 33 доклада и 2 воркшопа, которые помогут пополнить арсенал инструментов, узнать о лучших практиках и сориентироваться в трендовых технологиях.

Темы конференции:
✔ Tooling: все об инструментах, которые используют в дата-инжиниринге;
✔ Spark: штука настолько востребованная, что о ней будет сразу три доклада;
✔ Processes: как организовать работу и процессы в команде;
✔ Storage: базы данных, SQL-движки и многое другое;
✔ Architecture: доклады об архитектуре и опыте работы с ней разных команд;
✔ Industry usecases: реальный опыт, боль, успехи и провалы коллег.
Кроме докладов и воркшопов, вас будут ждать дискуссионные зоны, возможность вернуться к записям докладов, розыгрыши и много других приятных плюшек.

Специально для нашего чата организаторы сделали промокод dataengineers2021JUGRUpc, который дает скидку на Personal Standard билет.

Заходите на сайт конференции за подробностями и билетами.

источник

12:45пожаловаться #20