Size: a a a

2021 January 14

GP

Grigory Pomadchin in Data Engineers
да эт понятно
источник

λ

λoλdog in Data Engineers
Может кто на containerd прям )
источник

GP

Grigory Pomadchin in Data Engineers
λoλdog
Может кто на containerd прям )
помню у них была своя lmctfy но они бросили ее и поддерживали докер
источник

λ

λoλdog in Data Engineers
ну докер тож cri умеет)
источник

λ

λoλdog in Data Engineers
так что что у них я хз
источник

GP

Grigory Pomadchin in Data Engineers
λoλdog
ну докер тож cri умеет)
ну в этом суть депрекейта была
источник

TT

Tsh Tsh in Data Engineers
K S
Наш архитектор предложил сделать оркестрацию через step functions, а выполнение через glue pyspark.
Этот архытегтор деньги посчитал? Там можно без штанов остаться ибо одним step functions + glue дело не обойдется, придется кучу всего докупать и поддерживать
источник

KS

K S in Data Engineers
Tsh Tsh
Этот архытегтор деньги посчитал? Там можно без штанов остаться ибо одним step functions + glue дело не обойдется, придется кучу всего докупать и поддерживать
Не знаю, пока что это mvp, так что по деньгам пока никто не задумывался. А что именно придется докупать?
источник

YI

Yukari I in Data Engineers
K S
Не знаю, пока что это mvp, так что по деньгам пока никто не задумывался. А что именно придется докупать?
Почему вам не подходит что-то более простое, вроде oozie?
источник

YI

Yukari I in Data Engineers
у вас сложные графы зависимостей?
источник

KS

K S in Data Engineers
Yukari I
Почему вам не подходит что-то более простое, вроде oozie?
Если честно, даже не думал об oozie. Наверное это слишком просто и банально для наших гениев.
источник

T

T in Data Engineers
Привет, что то я туплю, подскажите куда копать:
есть emr-5.30.1 кластер
Когда сабмичу джобу на прямую все работает отлично
Как только сабмичу через Oozie то спарк не может подсоединиться к Glue и падает
User class threw exception: org.apache.spark.sql.AnalysisException: java.lang.AbstractMethodError: com.amazonaws.glue.catalog.metastore.AWSGlueDataCatalogHiveClientFactory.createMetaStoreClient(Lorg/apache/hadoop/hive/conf/HiveConf;Lorg/apache/hadoop/hive/metastore/HiveMetaHookLoader;)Lorg/apache/hadoop/hive/metastore/IMetaStoreClient;;

Вроде в джарники я подложил куда надо, даже пробывал фэтджар делать, но каждый раз одно и тоже
источник

ME

Max Efremov in Data Engineers
А чем в винде проще всего ORC посмотреть? Если не спарком)
источник

K

KrivdaTheTriewe in Data Engineers
Nikita Blagodarnyy
Хрыч, вот ты опытный траблешутер, скажи мне, это вот очень плохо для ресурс-менеджера?
источник

K

KrivdaTheTriewe in Data Engineers
K S
Я не сравниваю, просто идёт пропихивание голанга как убивца связки спарк+питон. О том, что многопоточность далеко не всё, что нужно для дата пайплайна, игнорируется.
У вас там оч интересные люди работают, которые даже не собираются слушать , что такое етл больших данных
источник

E

Elijah in Data Engineers
Max Efremov
А чем в винде проще всего ORC посмотреть? Если не спарком)
источник

ME

Max Efremov in Data Engineers
пентест тулы, ух)
источник

ME

Max Efremov in Data Engineers
спасибо, посмотрю
источник

KS

K S in Data Engineers
KrivdaTheTriewe
У вас там оч интересные люди работают, которые даже не собираются слушать , что такое етл больших данных
Тут целый зоопарк 😁
Просто они сделали довольно много проектов вне дата инжениринга, и по позиции выше людей, которые понимают что и как.
источник

K

KrivdaTheTriewe in Data Engineers
K S
Тут целый зоопарк 😁
Просто они сделали довольно много проектов вне дата инжениринга, и по позиции выше людей, которые понимают что и как.
А делегировать не умеют
источник