Size: a a a

2021 June 16

СХ

Старый Хрыч... in Data Engineers
я хочу чтобы фацлы были по 4-8 гб
источник

N

Nikita Blagodarnyy in Data Engineers
ты посмотри сколько было «выходных» партиций. и +- пропорционально уменьши их число.
источник

ME

Max Efremov in Data Engineers
Можно по числу строк делить
источник

AZ

Anton Zadorozhniy in Data Engineers
очень просто: перед запуском джоба ходим в каталог чтобы посмотреть сколько данных прошлый инстанс джоба поставил, считаем оптимальное количество партиций в зависимости от числа экзекьюторов, передаем как параметр джобу
источник

СХ

Старый Хрыч... in Data Engineers
там каждый день всё записывается в 0
источник

ME

Max Efremov in Data Engineers
Мы так по миллиону csv делили, чтобы excel открывал
источник

N

Nikita Blagodarnyy in Data Engineers
там нет линейной арифметической зависимости ибо сжатие
источник

СХ

Старый Хрыч... in Data Engineers
нам не нужен exel, у нас фуллсканы
источник

N

Nikita Blagodarnyy in Data Engineers
ну не знаю насчет параметра, объем данных то может меняться каждый раз. можно опираться на примерно одинаковый всегда размер строки.
источник

СХ

Старый Хрыч... in Data Engineers
то есть сначала берётся данные из флинков, добавляются ещё данные из кафки другой подсистемы, и снова записывается на диски
источник

СХ

Старый Хрыч... in Data Engineers
размер данных каждый день разный, но в пределах 10-12 тб
источник

N

Nikita Blagodarnyy in Data Engineers
Я не понимаю, что это значит.
источник

AZ

Anton Zadorozhniy in Data Engineers
да, можно прям аналитику небольшую перед запуском делать, учитывать сезонность...
источник

AZ

Anton Zadorozhniy in Data Engineers
это же спарк, тут каждый дата инженер сам себе оптимизатор
источник

N

Nikita Blagodarnyy in Data Engineers
это уже тянет на стартап с бигдатой и машын ленингом
источник

AZ

Anton Zadorozhniy in Data Engineers
я видел такую логику перед запуском джоба в самых обычных даталейках, в зависимости от дня недели считали разное число партиций
источник

ME

Max Efremov in Data Engineers
Взять датасет, поделить на число строк, получить средний размер строки. И от них считать, сколько строк в файл
источник

AZ

Anton Zadorozhniy in Data Engineers
короче нужен способ "предсказать" размер выходного датасета, это можно сделать хорошо или плохо, тут уж каждый для себя решает
источник

ME

Max Efremov in Data Engineers
Если погрешность в сотню-другую мегабайт возможна
источник

AZ

Anton Zadorozhniy in Data Engineers
собсно то что оптимизаторы в СУБД делают
источник