Нет, блоки хранятся в том объёме сколько данных, никто не добивает его до 128 мб или другого размера блока (если не верите - возьмите по имени файла его имя блока и найдите на датаноде) Выигрыш вы получили за счёт сжатия, как я вам и писал раньше
Обычно в больших даталейках пишут рекомендательные тулы, которые посмотрев на структуру и сэмпл могут подсказать более эффективную последовательность колонок, другой тип данных, но таких чтобы предсказывало степень сжатия - я не видел
Оу. Получается, что колонки друг за другом ещё лучше располагать исходя из типа? Для меня только сейчас дошло, хоть я и не раз читал про то, как в данные в орках и паркетах лежат.
Calling sortBy is optional, bucketing will work also without the sorting. The other way around is not working though — you can not call sortBy if you don’t call bucketBy as well.