Size: a a a

2021 October 24

ЕГ

Евгений Глотов... in Data Engineers
Может в один даг всё-таки сложить?
источник

SS

Sergey Sheremeta in Data Engineers
minPartitions
[Optional] Minimum number of partitions to read from Kafka. With Spark 2.1.0-db2 and above, you can configure Spark to use an arbitrary minimum of partitions to read from Kafka using the minPartitions option. Normally Spark has a 1-1 mapping of Kafka topicPartitions to Spark partitions consuming from Kafka. If you set the minPartitions option to a value greater than your Kafka topicPartitions, Spark will divvy up large Kafka partitions to smaller pieces
источник

A

Anton in Data Engineers
Как понимать "divvy up large Kafka partitions to smaller pieces"? Одна партиция может читаться несколькими задачами?
источник

SS

Sergey Sheremeta in Data Engineers
да
источник

A

Alex in Data Engineers
привет! можно использовать triggerdagrunoperator в dag1, он может ждать исполнения dag2 (есть такая опция, насколько помню) и потом уже запустится следующий task после него
источник

ДК

Дмитро Козак... in Data Engineers
спасибо большое, удобная вещь, но все таки хотелось бы разобраться еще как это сделать с ExternalTaskSensor-ом
источник

А

Асл in Data Engineers
Привет всем, кто может ускорить процесс стандартного шифрования AES, с использованием сверточных нейронных сетей (обучить нейронку и создать модели для сравнения)?
источник

D

Dimidr0 in Data Engineers
Это вам в Data Science chat.
источник

A

Andrew Urpin in Data Engineers
видимо я не тот чат подкинул :( сорри
источник

TC

Tasty Cake in Data Engineers
Привет. Если Вам ещё не отвечали, можете как вариант упаковать файлы модуля в zip архив, закинуть на хадуп и в опциях сессии указать путь через параметр pyfiles
источник

TC

Tasty Cake in Data Engineers
Также, другой вариант - на воркерах поставить эти модули
источник

D

Dmitry in Data Engineers
Так вообще любой модуль заработает? Ага нагуглил что addpyfile нужно использовать, только пока реализацию не доделал. Спасибо огромное!!
источник

S

Sebastian in Data Engineers
в чем  измерять Kpi дата инженера?

в интернете пишут quality, uptime, velocity
на счет качества есть вопросы - как оно измеряется... аптайм - точно вопрос к дата инженеру? скорость-то понятно, что от етл зависит сильно. можно ли учитывать внедренные инновационные технологии?
источник

ЕГ

Евгений Глотов... in Data Engineers
Качество определяется пользователями
источник

ЕГ

Евгений Глотов... in Data Engineers
В аптайме большая доля работы инженера
источник

S

Sebastian in Data Engineers
аптайм чего?
источник

S

Sebastian in Data Engineers
дешбордов?
источник

ФЧ

Филипп Чистяков... in Data Engineers
Данных, бд, скорости доставки данных из источника до dwh
источник

ЕГ

Евгений Глотов... in Data Engineers
Тут скорее наверно отмечу бесперебойную работу етлей изо дня в день, то есть не 24/7, а чтоб работал тогда, когда должен работать
источник

ЕГ

Евгений Глотов... in Data Engineers
И скорость фикса потенциальной проблемы, она тоже зависит от решений разработчика процесса
источник