Size: a a a

2020 November 20

S

Stanislav in Data Engineers
И то правда
источник

A

Alex in Data Engineers
Проще переписать, чем понять что писал предыдущий автор
источник

DZ

Dmitry Zuev in Data Engineers
Да просто говно пишут
источник

DZ

Dmitry Zuev in Data Engineers
Хоть на чем, объем плохого кода в проде мне кажется только растёт
источник

DZ

Dmitry Zuev in Data Engineers
В том числе спасибо скале на спарке. Ну и питону конечно
источник

K

KrivdaTheTriewe in Data Engineers
Dmitry Zuev
В том числе спасибо скале на спарке. Ну и питону конечно
Не пиши код
источник

DZ

Dmitry Zuev in Data Engineers
KrivdaTheTriewe
Не пиши код
А я и не пишу. Меньше кода, меньше говна разгребать
источник

AZ

Anton Zadorozhniy in Data Engineers
Dmitry Zuev
В том числе спасибо скале на спарке. Ну и питону конечно
да, скриптовый код на скале это боль, если в него смотреть неделями то может показаться что это нормально
источник

AZ

Anton Zadorozhniy in Data Engineers
бывает приятно это все переписать на старый добрый  SQL
источник

TT

Tsh Tsh in Data Engineers
Dmitry Zuev
Хоть на чем, объем плохого кода в проде мне кажется только растёт
Стареешь
источник
2020 November 23

K

KrivdaTheTriewe in Data Engineers
Переслано от KrivdaTheTriewe
кто как сейас компактинг данных делает для структурного стриминга? Раньше была проблема, что если руками сжать партицию, другая спарк джоба падала в случае попытки чтения из корня директории храненения ввсех данных, так как спарк пишет в __spark_metadata имена уже записаных файлов
источник

AG

Alexander Gorokhov in Data Engineers
Dmitry Zuev
А я и не пишу. Меньше кода, меньше говна разгребать
Святые слова
источник

Igor  Master in Data Engineers
Добрый вечер! Юзаем Darabrick и я пытаюсь записать данные в партиционированную таблицу на s3 спарком из разных джоб. Допустим таблица партиционирована по дате, платформе, приложению. Каждая джоба запускается для своей платформы, но range дат и приложений может пересекаться. Я выставил флажек spark.sql.sources.partitionOverwriteMode:dynamic однако все равно некоторые джобы падают с Files were added to partition by concurrent update. С точки зрения теории партиции не пересекаются же по скольку набор дата, платформа, игра - уникальный, что может быть? Правильно ли я понимаю что должно смочь записать если поля партиций разные.
источник

R

Renarde in Data Engineers
Igor  Master
Добрый вечер! Юзаем Darabrick и я пытаюсь записать данные в партиционированную таблицу на s3 спарком из разных джоб. Допустим таблица партиционирована по дате, платформе, приложению. Каждая джоба запускается для своей платформы, но range дат и приложений может пересекаться. Я выставил флажек spark.sql.sources.partitionOverwriteMode:dynamic однако все равно некоторые джобы падают с Files were added to partition by concurrent update. С точки зрения теории партиции не пересекаются же по скольку набор дата, платформа, игра - уникальный, что может быть? Правильно ли я понимаю что должно смочь записать если поля партиций разные.
А какой формат хранения? s3 сделан через dbfs маунт? Джобы работают из одного и того же workspace?
источник

Igor  Master in Data Engineers
Джобы - jar'ки из одного кластера.
Формат - Delta Lake (Parquete + delta_log)
S3 - должен быть примаунчен (я перепроверю)
источник

RF

Ruslan Fialkovsky in Data Engineers
Всем привет. Подскажите пожалуйста те кто обновлял или расширял zookeeper кластер.
https://zookeeper.apache.org/doc/r3.5.3-beta/zookeeperReconfig.html
Тут вроде написанно, что с 3.4.6 можно обновится на 3.5 с rolling upgrade. Просто останавливая старую версию и запуская с новой. Если логически подумать, выходит, что можно просто добавить в текущий кластер новые хосты с новой версией, а старые потом вывести из кластера или так не сработает?
источник

R

Renarde in Data Engineers
Igor  Master
Джобы - jar'ки из одного кластера.
Формат - Delta Lake (Parquete + delta_log)
S3 - должен быть примаунчен (я перепроверю)
И ещё вопрос - какая версия DBR?
источник

SS

Sergey Sheremeta in Data Engineers
коллеги, привет!
подскажите куда копать...
в HDFS WebUI показывает сотни тысяч в "Number of Under-Replicated Blocks", тогда как

"hdfs fsck /"
показывает
"Under-replicated blocks:  0 (0.0 %)"
источник

S

SeniorAnykey in Data Engineers
Всем привет.
Может кто-то поделиться опытом и впечатлениями от прикручивания кербероса к уже работающему кластеру?
И нет ли там каких-то альтернатив для авторизации?
источник

N

Nikita Blagodarnyy in Data Engineers
Sergey Sheremeta
коллеги, привет!
подскажите куда копать...
в HDFS WebUI показывает сотни тысяч в "Number of Under-Replicated Blocks", тогда как

"hdfs fsck /"
показывает
"Under-replicated blocks:  0 (0.0 %)"
А dfsadmin?
источник