Телеграмм чат группы moscowspark страница 732

Все причины, перечисленные Алексом возможны. Плюс ещё одна: мелкие файлы состоят из одного блока. Поэтому в них dictionary encoding работает лучше (меньше вариантов, не превышен порог), run length encoding также лучше и нет оверхеда на заголовки. То есть корневые причины всё те же. Snappy при этом тоже может немного сильнее сжиметь, но это будет малозаметно.

Ради интереса, можно уточнить количество исходных файлов и инструмент, которыем они были записаны?

источник

09:16пожаловаться #9

ИК

Иван Калининский... in Moscow Spark

Тут не нужны lowerbound/upperbound. Это сохранение, а не чтение, например, с помощью JDBC из RDBMS

источник

12:31пожаловаться #10

Snoop Duck in Moscow Spark

В исходной директории 7 тысяч файлов. Это сырые данные из кафки, перегруженные в хдфс джобой структурного стриминга спарка без какой-то дополнительной сортировки

источник

12:43пожаловаться #11

Snoop Duck in Moscow Spark

источник

12:45пожаловаться #12

Snoop Duck in Moscow Spark

В исходнике данные не отсортированы 🤷‍♂️

источник

13:04пожаловаться #13

ЕГ

Евгений Глотов... in Moscow Spark

Тогда фиг знает вообще)

источник

13:05пожаловаться #14

ИК

Иван Калининский... in Moscow Spark

в каком-то смысле сортировка есть: таймстемпы и даты событий идут последовательно по возрастанию, как и суррогатные ключи - айдишники. Некоторые категории (внешние ключи) тоже могут быть одними и теми же, если партишен топика кафки завязан на них, или по другим причинам

Вот этот кейс - ещё одна причина задуматься перед тем, как сделать repartition(n). Перетасованные по хешам записи - не всегда именно то, что нужно. Очень возможно, что изучение распределения данных в исходных файлах прояснит причины, но это отдельная и достаточно большая активность.

Но часто достаточно того, что файлов стало меньше, пусть и увеличился их размер

источник

13:16пожаловаться #15

ЕГ

Евгений Глотов... in Moscow Spark

Ходуб большой😆

источник

13:32пожаловаться #16

No Name in Moscow Spark

"...ему видней"

источник

13:39пожаловаться #17

Сергей in Moscow Spark

всем привет!
есть одна проблема с которой не могу справиться, прошу помочь, процесс падает с ошибкой job aborted когда начинает писать, но что странное, иногда работает иногда падает, и мне не понятна причина , может есть каки-то идеи

источник

14:51пожаловаться #18

ИК

Иван Калининский... in Moscow Spark

поищи в логе в стеке исключения caused by. Там будет исключение, которое вызвало остановку джобы

источник

14:53пожаловаться #19

Сергей in Moscow Spark

спасибо , щас гляну попробую разобраться. если что обращусь )

источник

14:55пожаловаться #20