Size: a a a

2021 February 05

AZ

Anton Zadorozhniy in Data Engineers
Maksim Batsiuk
а подскажете где можно ознакомиться с решением? очень интересно
Kafka Connect, NiFi
источник

СХ

Старый Хрыч... in Data Engineers
работает
источник

RI

Rustam Iksanov in Data Engineers
Старый Хрыч
работает
спасибо
источник

RI

Rustam Iksanov in Data Engineers
Старый Хрыч
работает
А ты какую jdk хотел(вроде от амазона) и почему?
источник

СХ

Старый Хрыч... in Data Engineers
Rustam Iksanov
А ты какую jdk хотел(вроде от амазона) и почему?
zulu jdk
источник

AZ

Anton Zadorozhniy in Data Engineers
источник

RI

Rustam Iksanov in Data Engineers
я смотрел, выглядит вроде как ок, но вот будет ли ваниль работать.
источник

МЛ

Максим Лыжков... in Data Engineers
Mi
Может кто может подсказать, есть ли способ адекватно контролировать размер файла при записи спарком в партиционированную папку?
spark.conf.set("spark.sql.files.maxRecordsPerFile", n)
источник

N

Nikita Blagodarnyy in Data Engineers
зачем? хипы терабайтные?
источник

N

Nikita Blagodarnyy in Data Engineers
Mi
Может кто может подсказать, есть ли способ адекватно контролировать размер файла при записи спарком в партиционированную папку?
репартишоном. сколько партишонов-столько и файлов. но надо понимать, что это довольно дорогая операция.
источник

M

Mi in Data Engineers
Nikita Blagodarnyy
репартишоном. сколько партишонов-столько и файлов. но надо понимать, что это довольно дорогая операция.
Проблема в том что нужно контролировать размер файлов а не их количество
источник

N

Nikita Blagodarnyy in Data Engineers
Mi
Проблема в том что нужно контролировать размер файлов а не их количество
ну только подгонкой
источник

A

Alex in Data Engineers
Nikita Blagodarnyy
зачем? хипы терабайтные?
Zulu это та же openjdk от азул со своими фиксами

На большие хипы и низкие паузы их jvm так же как и компания называется Azul
источник

UD

Uncel Duk in Data Engineers
Alex
Zulu это та же openjdk от азул со своими фиксами

На большие хипы и низкие паузы их jvm так же как и компания называется Azul
Два чая
источник

UD

Uncel Duk in Data Engineers
За редким исключением обычного openjdk хватает
источник

A

Alex in Data Engineers
Ну может у них поддержка от азул куплена на zulu
источник

ИК

Иван Калининский... in Data Engineers
Mi
Проблема в том что нужно контролировать размер файлов а не их количество
Помимо того, что я советовал в соседней конфе (москау спарк) есть ещё вариант для отважных: свой DataSource, в котором можно сразу делать нужные партиции, Есть DataSourceV1 - старый, но надёжный и V2 - новый, получше продуман, но может изменяться с минорными версиями (Spark 2 интерфейсы V2 были evolving), Spark 3 не смотрел ещё)
источник

UD

Uncel Duk in Data Engineers
Alex
Ну может у них поддержка от азул куплена на zulu
Интересно с какого контракта начинаются бэкпорты, типа g1 numa aware
источник

A

Alex in Data Engineers
Это же вообще доступно, насколько помню в платной раньше был jfr бекпортнут, но сейчас он и в опенждк уже есть (не помню точно номер, 242 вроде, летом вышла)
источник

A

Alex in Data Engineers
Год назад они именно поддержку и jfr нам пытались продать, ну и секурити фиксы что раньше выходят чем в опенждк сборке
источник