Телеграмм чат группы hadoopusers страница 3769

Size: a a a

Data Engineers

2586 membersпожаловаться на группу

2021 June 16

No Name in Data Engineers

Теперь надо эту тему с записью в один блок поднять, я чёт, кажется, как-то упустил это, и моя картина мира развалилась

источник

13:57пожаловаться #1

ИК

Иван Калининский... in Data Engineers

Спарк запишет ровно столько файлов, сколько есть непустых партиций в RDD, склеивать их он совершенно точно не имеет возможности, зато имеет возможность разделять. Разделение будет произведено: 1. если начинается новая партиция 2. Начинается новый бакет 3. Превышено значение параметра maxRecordsPerFile

Взять итератор из другой партиции ни один файл коммитер, на который я смотел не может и не будет, потому что до того возможна подготовка для корректной записи в указанные партиции или бакеты. Значит, это делается кастомно, или своим FileFormatWriter (это объект, его нельзя унаследовать, но можно включить или просто взять его код), или постобработкой.

источник

13:58пожаловаться #2

ИК

Иван Калининский... in Data Engineers

Если бы была задача - объединить файлы, я бы решал её сейчас через новый класс плана спарк, что-то вроде SmartCoalesce, чтобы имелась информация о текущем разделении партиций RDD, сколько записей в каждой (или размер), сколько записей в конечном файле (или его размер). после этого делать зависимость, которая соберёт партиции, например через корректный zipPartitions{iter1 ++ iter2 ++ …}, но может и другим способом, с ходу не могу точно сказать, к чему пришёл бы

источник

14:04пожаловаться #3

Anton Zadorozhniy in Data Engineers

Смотря какой формат, большой пожатый колоночный файл в памяти разжимать тоже бывает больно, с учетом «особенностей» управления памятью

источник

14:04пожаловаться #4

СХ

Старый Хрыч... in Data Engineers

у анс спарк 2,2....

источник

14:06пожаловаться #5

ИК