Телеграмм чат группы hadoopusers страница 4308

Size: a a a

Data Engineers

3187 membersпожаловаться на группу

2021 October 07

Pavel Klemenkov in Data Engineers

А в Moscow Spark можно скидку утащить?

источник

13:35пожаловаться #1

Dmitry Zuev in Data Engineers

Конечно

источник

13:40пожаловаться #2

Anton Zadorozhniy in Data Engineers

Нет, блоки хранятся в том объёме сколько данных, никто не добивает его до 128 мб или другого размера блока (если не верите - возьмите по имени файла его имя блока и найдите на датаноде)
Выигрыш вы получили за счёт сжатия, как я вам и писал раньше

источник

15:54пожаловаться #3

Anton Zadorozhniy in Data Engineers

Если маленьких файлов очень много, и данные хорошо жмутся - разница может быть и на порядок, своими глазами такое видел

источник

16:01пожаловаться #4

Oleg Ilinsky in Data Engineers

А кроме эмперического способа есть возможность понять, хорошо будут сжиматься данные или нет?) Имея информацию о типах и значениях

источник

16:03пожаловаться #5

Oleg Ilinsky in Data Engineers

ну, например, если у нас колоночный формат и в колонке много одинаковых значений (М/Ж, например)

источник

16:05пожаловаться #6

Anton Zadorozhniy in Data Engineers

Ну методы сжатия разных типов для паркета известны, но способа предсказать степень сжатия без сжимание хотя бы сэмпла мне неизвестно

источник

16:07пожаловаться #7

Anton Zadorozhniy in Data Engineers

Обычно в больших даталейках пишут рекомендательные тулы, которые посмотрев на структуру и сэмпл могут подсказать более эффективную последовательность колонок, другой тип данных, но таких чтобы предсказывало степень сжатия - я не видел

источник

16:09пожаловаться #8

ПБ

Повелитель Бури... in Data Engineers

Я всегда сортирую по pk

источник

16:09пожаловаться #9

Grigory Pomadchin in Data Engineers

кредо

источник

16:09пожаловаться #10

Alexey Evdokimov in Data Engineers

только эмперейский, эмператорский, или эмпретический способы, но это всё один хрен.

источник

16:13пожаловаться #11

No Name in Data Engineers

Оу.
Получается, что колонки друг за другом ещё лучше располагать исходя из типа?
Для меня только сейчас дошло, хоть я и не раз читал про то, как в данные в орках и паркетах лежат.

источник

16:42пожаловаться #12

ИК

Иван Калининский... in Data Engineers

Так там же column chunk или что-то такое. Неужели есть большая разница, в каком порядке они лежат, если видимые характеристики - оффсет и длина?

источник

16:45пожаловаться #13

No Name in Data Engineers

Я, честно говоря, не знаю.
Писал сейчас ответ, и понял, что мне надо перечитать про устройство паркета и орка.

источник

16:54пожаловаться #14

ЕГ

Евгений Глотов... in Data Engineers

Ну бывает и растёт размер после компактора😆

источник

16:56пожаловаться #15

Nikita Blagodarnyy in Data Engineers

у нас тут как-то написали один компактор, а он файлы по 5 гигов раскомпакчивал в 128 МБ )

источник

17:26пожаловаться #16

ПБ

Повелитель Бури... in Data Engineers

Calling sortBy is optional, bucketing will work also without the sorting. The other way around is not working though — you can not call sortBy if you don’t call bucketBy as well.

источник

18:06пожаловаться #17

Anton Zadorozhniy in Data Engineers

Я про последовательность сортировки при записи в паркет

источник

18:24пожаловаться #18

No Name in Data Engineers

А..

источник

18:25пожаловаться #19

Anton Zadorozhniy in Data Engineers

Влияет по каким колонкам отсортированы данные перед энкодингом

источник

18:54пожаловаться #20