Size: a a a

2021 October 07

PK

Pavel Klemenkov in Data Engineers
А в Moscow Spark можно скидку утащить?
источник

DZ

Dmitry Zuev in Data Engineers
Конечно
источник

AZ

Anton Zadorozhniy in Data Engineers
Нет, блоки хранятся в том объёме сколько данных, никто не добивает его до 128 мб или другого размера блока (если не верите - возьмите по имени файла его имя блока и найдите на датаноде)
Выигрыш вы получили за счёт сжатия, как я вам и писал раньше
источник

AZ

Anton Zadorozhniy in Data Engineers
Если маленьких файлов очень много, и данные хорошо жмутся - разница может быть и на порядок, своими глазами такое видел
источник

OI

Oleg Ilinsky in Data Engineers
А кроме эмперического способа есть возможность понять, хорошо будут сжиматься данные или нет?) Имея информацию о типах и значениях
источник

OI

Oleg Ilinsky in Data Engineers
ну, например, если у нас колоночный формат и в колонке много одинаковых значений (М/Ж, например)
источник

AZ

Anton Zadorozhniy in Data Engineers
Ну методы сжатия разных типов для паркета известны, но способа предсказать степень сжатия без сжимание хотя бы сэмпла мне неизвестно
источник

AZ

Anton Zadorozhniy in Data Engineers
Обычно в больших даталейках пишут рекомендательные тулы, которые посмотрев на структуру и сэмпл могут подсказать более эффективную последовательность колонок, другой тип данных, но таких чтобы предсказывало степень сжатия - я не видел
источник

ПБ

Повелитель Бури... in Data Engineers
Я всегда сортирую по pk
источник

GP

Grigory Pomadchin in Data Engineers
кредо
источник

AE

Alexey Evdokimov in Data Engineers
только эмперейский, эмператорский, или эмпретический способы, но это всё один хрен.
источник

NN

No Name in Data Engineers
Оу.
Получается, что колонки друг за другом ещё лучше располагать исходя из типа?
Для меня только сейчас дошло, хоть я и не раз читал про то, как в данные в орках и паркетах лежат.
источник

ИК

Иван Калининский... in Data Engineers
Так там же column chunk или что-то такое. Неужели есть большая разница, в каком порядке они лежат, если видимые характеристики - оффсет и длина?
источник

NN

No Name in Data Engineers
Я, честно говоря, не знаю.
Писал сейчас ответ, и понял, что мне надо перечитать про устройство паркета и орка.
источник

ЕГ

Евгений Глотов... in Data Engineers
Ну бывает и растёт размер после компактора😆
источник

N

Nikita Blagodarnyy in Data Engineers
у нас тут как-то написали один компактор, а он файлы по 5 гигов раскомпакчивал в 128 МБ )
источник

ПБ

Повелитель Бури... in Data Engineers
Calling sortBy is optional, bucketing will work also without the sorting. The other way around is not working though — you can not call sortBy if you don’t call bucketBy as well.
источник

AZ

Anton Zadorozhniy in Data Engineers
Я про последовательность сортировки при записи в паркет
источник

NN

No Name in Data Engineers
А..
источник

AZ

Anton Zadorozhniy in Data Engineers
Влияет по каким колонкам отсортированы данные перед энкодингом
источник