Телеграмм чат группы moscowspark страница 742

Я своими руками пытался прочитать третью строчку паркета не читая первые две. Это очень, очень сложно (хотя теоретически возможно). В спарке такой фасилити нет, будет читать минимум страйдами. Но вот вероятно дальше он может данные раскидать

источник

18:48пожаловаться #10

ЕГ

Евгений Глотов... in Moscow Spark

Не игнорил, но зависимость какая-то сильно нелинейная)

источник

18:48пожаловаться #11

ПФ

Паша Финкельштейн... in Moscow Spark

Сложно это потому что надо много занудной арифметики, учитывающей сжатие, шифрование и так далее во всех возможных комбинациях

источник

18:49пожаловаться #12

Sergey Ivanychev in Moscow Spark

Кстати, есть какие-то лучшие практики на тему какой кодек компрессии лучше с паркетом использовать?

источник

18:50пожаловаться #13

ЕГ

Евгений Глотов... in Moscow Spark

Если у вас совсем напряг с местом, и нужно впихнуть невпихуемое - наверно имеет смысл перейти на гзип, а так снаппи и быстрее, и жмёт ок

источник

18:51пожаловаться #14

No Name in Moscow Spark

Понял

источник

18:52пожаловаться #15

ПФ

Паша Финкельштейн... in Moscow Spark

Снэппи )

источник

18:52пожаловаться #16

ПФ

Паша Финкельштейн... in Moscow Spark

Но вообще лучше орк ЕМНИП, там лучше получается сжатие потому что формат немного умнее

источник

18:53пожаловаться #17

No Name in Moscow Spark

источник

19:11пожаловаться #18

ДД

Джон Дориан... in Moscow Spark

Спасибо за помощь!
Правильно ли я понимаю - количество spark-партиций при чтении этого паркета на следующем шаге пайплайна будет зависеть от maxPartitionBytes, а не от количества паркетов в директории, откуда производится чтение?
И даже если я на предыдущем шаге при записи запихнул 2 Гб в один паркет с помощью coalesce(1) - в случае если maxPartitionBytes=128Мб мой датасет на 2Гб будет разбит при чтении спарком на 16 партиций? (2Gb dataset size / 128Mb maxPartitionBytes)

источник

19:11пожаловаться #19

ПФ

Паша Финкельштейн... in Moscow Spark

Кстати, раз уж про орк: если на полу колонку применились одновременно delta и run length энкодинг - то прочитать n строчку будет так дорого, что легче прочитать и забыть предыдущие строки )

источник

19:13пожаловаться #20