Size: a a a

2021 June 16

NN

No Name in Data Engineers
Теперь надо эту тему с записью в один блок поднять, я чёт, кажется, как-то упустил это, и моя картина мира развалилась
источник

ИК

Иван Калининский... in Data Engineers
Спарк запишет ровно столько файлов, сколько есть непустых партиций в RDD, склеивать их он совершенно точно не имеет возможности, зато имеет возможность разделять. Разделение будет произведено: 1. если начинается новая партиция 2. Начинается новый бакет 3. Превышено значение параметра maxRecordsPerFile

Взять итератор из другой партиции ни один файл коммитер, на который я смотел не может и не будет, потому что до того возможна подготовка для корректной записи в указанные партиции или бакеты. Значит, это делается кастомно, или своим FileFormatWriter (это объект, его нельзя унаследовать, но можно включить или просто взять его код), или постобработкой.
источник

ИК

Иван Калининский... in Data Engineers
Если бы была задача - объединить файлы, я бы решал её сейчас через новый класс плана спарк, что-то вроде SmartCoalesce, чтобы имелась информация о текущем разделении партиций RDD, сколько записей в каждой (или размер), сколько записей в конечном файле (или его размер). после этого делать зависимость, которая соберёт партиции, например через корректный zipPartitions{iter1 ++ iter2 ++ …}, но может и другим способом, с ходу не могу точно сказать, к чему пришёл бы
источник

AZ

Anton Zadorozhniy in Data Engineers
Смотря какой формат, большой пожатый колоночный файл в памяти разжимать тоже бывает больно, с учетом «особенностей» управления памятью
источник

СХ

Старый Хрыч... in Data Engineers
у анс спарк 2,2....
источник

ИК

Иван Калининский... in Data Engineers
writer’ы там вроде те же самые, за небольшой разницей. Но расширения сессии появились раньше, можно сделать, если, конечно, есть необходимость
источник

СХ

Старый Хрыч... in Data Engineers
я уже мечтаю когда переедем на 3.3 hdfs, hive 3.1.5, spark 3.0.1
источник

NN

No Name in Data Engineers
И там у тебя тоже будут боли
источник

СХ

Старый Хрыч... in Data Engineers
у меня yarn из-за числа файлов плодит по 50-60к коннектов
источник

СХ

Старый Хрыч... in Data Engineers
а все логи забиты по 150-160к сообщений ято я не смог прочитать\записать в файл, по 150к за 12 часов ошибок
источник

NN

No Name in Data Engineers
Угу
источник

СХ

Старый Хрыч... in Data Engineers
при этом метрики в ос не видят столько проблем в сети
источник

AZ

Anton Zadorozhniy in Data Engineers
(обязательная шутка про то что хадуп это big data а не many data)
источник

СХ

Старый Хрыч... in Data Engineers
дропов даже 100 в час нет
источник

AZ

Anton Zadorozhniy in Data Engineers
Агрегаты не пробовали?
источник

СХ

Старый Хрыч... in Data Engineers
какие? я просто devops, и я в код особо не лезу
источник

СХ

Старый Хрыч... in Data Engineers
мне инфры и релизов хватает
источник

СХ

Старый Хрыч... in Data Engineers
собеседую уже 4 месяц DE себе в команду, но пока результаты печаль
источник

СХ

Старый Хрыч... in Data Engineers
особенно кадры убивают, которые пишут 4 года опыта работыс  кафка, а даже что такое офсет не знают
источник

AZ

Anton Zadorozhniy in Data Engineers
Тогда дальше будет веселее
источник