Size: a a a

2021 February 10

A

Alex in Data Engineers
вообще стабильная схема в живой системе это скорее миф, чем реальность
источник

AZ

Anton Zadorozhniy in Data Engineers
Shadilan R16 MU Rostov
С первым согласен, а вот с тащить новые поля это точно так? что-то у меня сомнения.
Это должно быть управляемым, у меня много было проектов где до среднего слоя (curated data) мы тащили новые поля, а дальше был обычный tolerant reader, но такая возможность должна быть
источник

AZ

Anton Zadorozhniy in Data Engineers
Alex
вообще стабильная схема в живой системе это скорее миф, чем реальность
Золотые слова
источник

A

Alex in Data Engineers
и каждый делает свои костыли вокруг как её валидировать и изменять
источник

T

T in Data Engineers
Alex
вообще стабильная схема в живой системе это скорее миф, чем реальность
+++
источник

S

Shadilan R16 MU Rost... in Data Engineers
Anton Zadorozhniy
Это должно быть управляемым, у меня много было проектов где до среднего слоя (curated data) мы тащили новые поля, а дальше был обычный tolerant reader, но такая возможность должна быть
А ну тоесть это как опция для отдельных случаев, просто зачастую проработка пайплайнов которые могут протягивать новые поля, это как-то очень не просто. И я прям сразу говорю что изменение схем мы обрабатываем без проблем, а вот автопротягивание, это отдельная фича и вы уверены что она вам нужна? вот и смутился.... Спасибо за пояснение
источник

AZ

Anton Zadorozhniy in Data Engineers
В датастейдже причём такое есть, automatic column propagation, но там прибито гвоздями с csv и мейнфреймовым форматам
источник

e

er@essbase.ru in Data Engineers
насколько оправданы подходы
 - упаковка фичей (часто меняющихся полей)  в json
 - или разворачивание их в строки (unpivot)
?
источник

A

Alex in Data Engineers
всё зависит где и как упаковываются/распаковываются

сталкивался и с таким
но вот менеджить это отдельное удовольствие
источник

A

Alex in Data Engineers
нужен будет специальный квалити менеджер
источник

NN

No Name in Data Engineers
Alex
нужен будет специальный квалити менеджер
Недешевое удовольствие
источник

AZ

Anton Zadorozhniy in Data Engineers
er@essbase.ru
насколько оправданы подходы
 - упаковка фичей (часто меняющихся полей)  в json
 - или разворачивание их в строки (unpivot)
?
Зависит от того кто и как потребляет их
источник

SK

Sergej Khakhulin in Data Engineers
Всем привет, не поскажите какие конфиги для spark session нужно передавать, что бы из docker контейнера подключитсья через pyspark к кластеру спарка? (что бы заменит хост нейм докеровский, на машинный к которому сможет yarn подключится, контейнер тестовый, прокинуть порты любые могу)
источник

AC

Alexander C in Data Engineers
Переслано от Alexander C
источник

AC

Alexander C in Data Engineers
Переслано от Alexander C
источник

AC

Alexander C in Data Engineers
Коллеги , а есть кто в этих темах ?
источник

ПБ

Повелитель Бури... in Data Engineers
Alex
что значит встаёт?

клоудера же сразу всё с собой приносит
Я поставил cloudera 6.3.1. Через paracels . Hive в ней 2.1.1. Хочется hive 3. Отсюда и вопрос )
источник

AG

Alexander Gorokhov in Data Engineers
Господа а как правильно понимать Task Time (GC Time) из Spark UI?
источник

AG

Alexander Gorokhov in Data Engineers
Это сумма времени выполнения всех тасок на екзекуторе?
источник

AG

Alexander Gorokhov in Data Engineers
А GC Time сумма времени сколько каждая таска мусор чистила?
источник