Size: a a a

2021 May 08

ПФ

Паша Финкельштейн... in Data Engineers
Звучит как будто да, берём и мапим всё в ORM, открываем транзакцию и начинаем переливать данные из одной бд в другую. Памяти вероятно понадобится много, но это на один раз
источник
2021 May 09

S

Sultan in Data Engineers
Всем привет!
Такой вопрос, когда в pyspark udf ("2.3.0" и в "3.1.1")  использую внешний пакет, например pymorphy2, спарк выдает ошибку: "ModuleNotFoundError: No module named '<module_name>'". Импортирую модули перед определением функции и регистрации ее как udf. Что с этим можно сделать?
источник

S

Sultan in Data Engineers
Переменные среды PYSPARK_DRIVER_PYTHON и PYSPARK_PYTHON установлены на один и тот же интерпретатор
источник

NN

No Name in Data Engineers
Так ты в вириуалэнв засунь
источник

NN

No Name in Data Engineers
Его ж на нодах нет, этого внешнего пакета, как я понимаю. Только на драйвере.
источник

S

Sultan in Data Engineers
А, блин, я же его через —user ставил, точно
источник

S

Sultan in Data Engineers
Спасибо!
источник
2021 May 10

А

Алмас in Data Engineers
Всем привет.
Подскажите, best tool or approach для перегонки данных из одного бакета s3 в другой.
Данные - картинки небольшого размера, количество 200млн.
S3 - huawei obs.
Кто нибудь сталкивался?
источник

AZ

Anton Zadorozhniy in Data Engineers
а Huawei S3 поддерживает AWS S3 Batch Operations?
источник

А

Алмас in Data Engineers
Что именно?
источник

А

Алмас in Data Engineers
Не все наверное, нужно чекнуть
источник

AZ

Anton Zadorozhniy in Data Engineers
источник

A

Alex in Data Engineers
кто-нибудь может посоветовать job scheduler с доступом по API для k8s ?

подумали часть python задач выкинуть с hadoop на k8s и столкнулись с болью
в хадупе есть oozie который умеет в security/credential provider(чтобы токены инжектить)/multitenancy (на сервис 100+ пользователей будет ломиться)/ha и самое главное что всё можно сделать через REST API
(по webhdfs по ресту залил workflow и нужные вещи, потом по rest oozie запустил/создал координатора)

когда начал искать сопоставимые продукты для кубика, то что-то грустно стало
источник

A

Alex in Data Engineers
@dartov может что-нибудь подскажешь?
источник

A

Alex in Data Engineers
условно чтобы можно было закинуть по ресту yaml/xml со словами “хочу запускать каждую пятницу, если косяк/всё хорошо отправь почту сюда”
источник

AZ

Anton Zadorozhniy in Data Engineers
наверное посмотреть на kubeflow можно, или Argo Flow
источник

A

Alex in Data Engineers
посмотрел на airflow, там боль и страдание

kubeflow под капотом насколько я понял argo flow держит для скедулинга и работы с кубиком. ну или коннектор на tekton/openshift

argo flow пока только мельком глянул
так понимаю его можно глубже покопать

ещё что-то на рынке есть?
источник

SO

Simon Osipov in Data Engineers
Какая боль и страдание у Airflow?
источник

VS

Vladislav 👻 Shishkov... in Data Engineers
Не уметь в airflow наверно 😬
источник

D

Dmitriy in Data Engineers
Проверь как вариант http://hkube.io на предмет пригодности
источник