Size: a a a

2021 June 16

N

Nikita Blagodarnyy in Data Engineers
ну вот вычисли экспериментально в какое число портишонов получается нужный тебе размер файлов. зная число строк - получишь некоторый коэффициент К = строк на 1 партицию. Из него можно обратно вычислять количество партиций, зная число строк.
источник

N

Nikita Blagodarnyy in Data Engineers
Но надо понимать, что чем меньше выходных партиций, тем ниже параллелизм и тем медленнее все происходит. Так что файлы в 8 Гб может быть так себе история.
источник

NN

No Name in Data Engineers
И зачем это тебе? Сколько коров/экзекьюторов для процессинга доступно?
источник

UD

Uncel Duk in Data Engineers
Защем
источник

СХ

Старый Хрыч... in Data Engineers
😕потому что 120 млн файлов в hdfs это треш
источник

UD

Uncel Duk in Data Engineers
Видел больше
источник

UD

Uncel Duk in Data Engineers
Дальше чо
источник

AS

Andrey Smirnov in Data Engineers
источник

UD

Uncel Duk in Data Engineers
У тебя полно вариантов, от тупых пихнуть больше оперативки в неймноду
источник

UD

Uncel Duk in Data Engineers
До апгрейда
источник

СХ

Старый Хрыч... in Data Engineers
у нейноды свободно 60% хипа
источник

UD

Uncel Duk in Data Engineers
Тогда ты решаешь бесполезную задачу
источник

UD

Uncel Duk in Data Engineers
От листинга тоже можно избавиться в пределах разумного
источник

NN

No Name in Data Engineers
Это не треш, это адекватно. А вот файлы по 8 Гб для спарка уже боль страшная, попробуй потом какой-нибудь джойн сделать, утонешь в шаффл спиле.
источник

СХ

Старый Хрыч... in Data Engineers
не скажи, например когда мы обьединили 10 млн файлов, время расчётов сократилось на 1 час
источник

СХ

Старый Хрыч... in Data Engineers
там авто файлы склеили после флинка
источник

NN

No Name in Data Engineers
Из какого размера в какой?
источник

UD

Uncel Duk in Data Engineers
Хрюч, тыж инжонир
источник

UD

Uncel Duk in Data Engineers
Метрики собери, потом решай
источник

СХ

Старый Хрыч... in Data Engineers
из 30-160 мб, в 4 гб
источник