Телеграмм чат группы hadoopusers страница 2974

кто как сейас компактинг данных делает для структурного стриминга? Раньше была проблема, что если руками сжать партицию, другая спарк джоба падала в случае попытки чтения из корня директории храненения ввсех данных, так как спарк пишет в __spark_metadata имена уже записаных файлов

источник

19:19пожаловаться #11

AG

Alexander Gorokhov in Data Engineers

Dmitry Zuev

А я и не пишу. Меньше кода, меньше говна разгребать

Святые слова

источник

20:00пожаловаться #12

I

Igor Master in Data Engineers

Добрый вечер! Юзаем Darabrick и я пытаюсь записать данные в партиционированную таблицу на s3 спарком из разных джоб. Допустим таблица партиционирована по дате, платформе, приложению. Каждая джоба запускается для своей платформы, но range дат и приложений может пересекаться. Я выставил флажек spark.sql.sources.partitionOverwriteMode:dynamic однако все равно некоторые джобы падают с Files were added to partition by concurrent update. С точки зрения теории партиции не пересекаются же по скольку набор дата, платформа, игра - уникальный, что может быть? Правильно ли я понимаю что должно смочь записать если поля партиций разные.

источник

20:10пожаловаться #13

R

Renarde in Data Engineers

Igor Master

Добрый вечер! Юзаем Darabrick и я пытаюсь записать данные в партиционированную таблицу на s3 спарком из разных джоб. Допустим таблица партиционирована по дате, платформе, приложению. Каждая джоба запускается для своей платформы, но range дат и приложений может пересекаться. Я выставил флажек spark.sql.sources.partitionOverwriteMode:dynamic однако все равно некоторые джобы падают с Files were added to partition by concurrent update. С точки зрения теории партиции не пересекаются же по скольку набор дата, платформа, игра - уникальный, что может быть? Правильно ли я понимаю что должно смочь записать если поля партиций разные.

А какой формат хранения? s3 сделан через dbfs маунт? Джобы работают из одного и того же workspace?

источник

20:36пожаловаться #14

I

Igor Master in Data Engineers

Джобы - jar'ки из одного кластера.
Формат - Delta Lake (Parquete + delta_log)
S3 - должен быть примаунчен (я перепроверю)

источник

20:46пожаловаться #15

RF

Ruslan Fialkovsky in Data Engineers

Всем привет. Подскажите пожалуйста те кто обновлял или расширял zookeeper кластер.
https://zookeeper.apache.org/doc/r3.5.3-beta/zookeeperReconfig.html
Тут вроде написанно, что с 3.4.6 можно обновится на 3.5 с rolling upgrade. Просто останавливая старую версию и запуская с новой. Если логически подумать, выходит, что можно просто добавить в текущий кластер новые хосты с новой версией, а старые потом вывести из кластера или так не сработает?

источник

20:56пожаловаться #16

R

Renarde in Data Engineers

Igor Master

Джобы - jar'ки из одного кластера.
Формат - Delta Lake (Parquete + delta_log)
S3 - должен быть примаунчен (я перепроверю)

И ещё вопрос - какая версия DBR?

источник

21:08пожаловаться #17

SS

Sergey Sheremeta in Data Engineers

коллеги, привет!
подскажите куда копать...
в HDFS WebUI показывает сотни тысяч в "Number of Under-Replicated Blocks", тогда как

"hdfs fsck /"
показывает
"Under-replicated blocks: 0 (0.0 %)"

источник

21:10пожаловаться #18

S

SeniorAnykey in Data Engineers

Всем привет.
Может кто-то поделиться опытом и впечатлениями от прикручивания кербероса к уже работающему кластеру?
И нет ли там каких-то альтернатив для авторизации?

источник

21:13пожаловаться #19

N

Nikita Blagodarnyy in Data Engineers

Sergey Sheremeta

коллеги, привет!
подскажите куда копать...
в HDFS WebUI показывает сотни тысяч в "Number of Under-Replicated Blocks", тогда как

"hdfs fsck /"
показывает
"Under-replicated blocks: 0 (0.0 %)"

А dfsadmin?

источник

21:20пожаловаться #20