Size: a a a

2021 June 16

NN

No Name in Data Engineers
Ну, я так понимаю, мб листинг сократился из-за того, что вы неймноду разгрузили. А расчеты там какие у вас - дохера широких трансформаций, или в основном всякие селекты и выгрузки?
источник

СХ

Старый Хрыч... in Data Engineers
фуллсканы, после которых идёт обогощение
источник

СХ

Старый Хрыч... in Data Engineers
и запись
источник

AZ

Anton Zadorozhniy in Data Engineers
Мелкие файлы не только неймноду травмируют, джобы тоже тормозят
источник

NN

No Name in Data Engineers
А, ну, тогда наверное, для тебя это норм решение.
источник

СХ

Старый Хрыч... in Data Engineers
у нас сплошные фуллсканы
источник

AZ

Anton Zadorozhniy in Data Engineers
Колоночное сжатие работает тем лучше чем больше файл, меньше данных с дисков (в сумме)поднимать надо
источник

AZ

Anton Zadorozhniy in Data Engineers
Это первое что надо делать в любом даталейке, внедрять мониторинг размеров файлов, наказывать виновных, давать плохим командам джобы для компакции
источник

NN

No Name in Data Engineers
Блин, я вот сколько през не посмотрел, в том числе от тех же датабриксов - все как один говорят, что лучше файлы по 100-200 мб примерно, потому что эмпирически так шаффла меньше. Ну и у меня опыт такой же, здоровенные файлы ничего, кроме проблем, не вызывали - еле читаются, параллелизм снижается.
источник

А

Алексей in Data Engineers
dw.write.option("maxRecordsPerFile", N")
источник

AZ

Anton Zadorozhniy in Data Engineers
200 мб это не мелкие файлы)
источник

А

Алексей in Data Engineers
какая разница, если спарк прочитает в партиции по 128мб?
источник

NN

No Name in Data Engineers
А, ну тогда ок. А то я часто с мнением встречаюсь, что в хадупе ничего, кроме гигабайтных файлов, не должно быть.
источник

NN

No Name in Data Engineers
Ну, вообще-то нет. Я вот на сколько партиций разбиваю при сохранении, вот именно столько тасок у меня и поднимается потом, если я потом эту табличку читаю, например.
источник

А

Алексей in Data Engineers
я тестил, менял настройку spark.sql.files.maxPartitionBytes и у меня менялось число партиций на входе
источник

NN

No Name in Data Engineers
Ну так и я тестил, и у меня тасок ровно столько, сколько партиций было создано.
Мб это зависит от формата/метастора/etc?
источник

А

Алексей in Data Engineers
странно, может файл был записан в 1 блок, как в соседнем чате обсуждалось. Надо еще раз проверить..
источник

СХ

Старый Хрыч... in Data Engineers
ну у нас орки
источник

NN

No Name in Data Engineers
У нас тоже
источник

СХ

Старый Хрыч... in Data Engineers
у нас орк и авро, - 80% орков и 20% авро
источник